Cuil.com und sein Twiceler-Bot: Suchmaschine oder DDOS-Angriffswaffe? (Software)

Martin Vogel ⌂ @, Dortmund / Bochum, Tue, 25.05.2010, 20:41 (vor 5082 Tagen)

Seit einiger Zeit sucht ein Rudel hirnloser Bots aus dem IP-Adressbereich der Firma Cuil Incorporated das Bauforum heim. Es sieht zwar immer ganz nett aus, wenn unten in der Statistikzeile "52 User online" steht, aber mehr als die Hälfte der "User" sind im Moment Spiderprogramme von Cuil mit der Kennung "Twiceler", die nichts weiter tun, als täglich tausende von Seiten des Forums und meiner anderen Websites immer wieder aufs neue zu lesen und allem Anschein nach gleich wieder zu vergessen.

Keinen der Bauforumseinträge der letzten Woche konnte ich in dieser seltsamen "Suchmaschine" wiederfinden, die bereits seit 2008 für Ärger und Unverständnis bei Websitebetreibern sorgt. Nun kostet mich der zusätzliche Traffic zwar dank Flatrate nichts, er belastet aber dennoch völlig nutzlos die Server und verlängert die Antwortzeiten des Forums. Da ich auf dieses organisierte Schwachmatentum keinen Wert lege, hat Cuil hier ab sofort Hausverbot.

In meiner robots.txt ist jetzt ein neuer Eintrag:

User-agent: twiceler
Disallow: /

Hat irgendwer den Dienst schon mal benutzt? Und irgendwas damit gefunden?

Nachtrag: Da Cuil/Twiceler sich auch nach 24 Stunden nicht an die robots.txt gehalten hat, sind nun die IP-Bereiche des Angreifers über die Datei .htaccess für jeden Zugriff aufs Forum gesperrt. Wer nicht hören will, muss fühlen.

Deny from 67.218.116.128/18
Deny from 216.129.0.0/17

--
Dipl.-Ing. Martin Vogel
Leiter des Bauforums

Bücher:
CAD mit BricsCAD
Bauinformatik mit Python

Useragent Twiceler und Konsorten - noch eine Blockmethode für böse Bots

Martin Vogel ⌂ @, Dortmund / Bochum, Fri, 11.06.2010, 21:55 (vor 5065 Tagen) @ Martin Vogel

Den Twiceler-Bot der vorgeblichen Suchmaschine cuil.com, dumm und lästig wie ein Schwarm Schmeißfliegen, kann man bekanntlich über ein "Stoppschild" in der /robots.txt nicht loswerden. Man muss schon mit einem klaren Auslieferungsverbot durch den Webserver Fakten schaffen. Die klassische Methode geht über das Sperren der IP-Adressen des Bots in der Datei .htaccess. Das sieht zum Beispiel so aus:

Deny from 67.218.116.128/18
Deny from 216.129.0.0/17

Viel eleganter ist die Auswertung des Useragent-Strings, da diese Methode auch dann noch funktioniert, wenn sich die Adressen des Belästigers ändern. Zudem ist sie selbsterklärend, sodass man sich weitergehende Kommentare in der .htaccess-Datei schenken kann. In der Sperrdatei fürs Bauforum sieht das zum Beispiel so aus:

Order allow,deny
Allow from all

SetEnvIfNoCase User-Agent "NaverBot" badbot=yes
SetEnvIfNoCase User-Agent "Twiceler" badbot=yes

deny from env=badbot

Wie man sieht, ist gleich noch der Bot der koreanischen Suchmaschine Naver mitgefangen und mitgehangen worden. Hm, mal sehen, wer nervt denn noch …

--
Dipl.-Ing. Martin Vogel
Leiter des Bauforums

Bücher:
CAD mit BricsCAD
Bauinformatik mit Python

RSS-Feed dieser Diskussion
powered by my little forum