Useragent Twiceler und Konsorten - noch eine Blockmethode für böse Bots (Software)
Den Twiceler-Bot der vorgeblichen Suchmaschine cuil.com, dumm und lästig wie ein Schwarm Schmeißfliegen, kann man bekanntlich über ein "Stoppschild" in der /robots.txt nicht loswerden. Man muss schon mit einem klaren Auslieferungsverbot durch den Webserver Fakten schaffen. Die klassische Methode geht über das Sperren der IP-Adressen des Bots in der Datei .htaccess. Das sieht zum Beispiel so aus:
Deny from 67.218.116.128/18
Deny from 216.129.0.0/17
Viel eleganter ist die Auswertung des Useragent-Strings, da diese Methode auch dann noch funktioniert, wenn sich die Adressen des Belästigers ändern. Zudem ist sie selbsterklärend, sodass man sich weitergehende Kommentare in der .htaccess-Datei schenken kann. In der Sperrdatei fürs Bauforum sieht das zum Beispiel so aus:
Order allow,deny
Allow from all
SetEnvIfNoCase User-Agent "NaverBot" badbot=yes
SetEnvIfNoCase User-Agent "Twiceler" badbot=yes
deny from env=badbot
Wie man sieht, ist gleich noch der Bot der koreanischen Suchmaschine Naver mitgefangen und mitgehangen worden. Hm, mal sehen, wer nervt denn noch …
--
Dipl.-Ing. Martin Vogel
Leiter des Bauforums
Bücher:
CAD mit BricsCAD
Bauinformatik mit Python
gesamter Thread:
- Cuil.com und sein Twiceler-Bot: Suchmaschine oder DDOS-Angriffswaffe? -
Martin Vogel,
25.05.2010, 20:41
- Useragent Twiceler und Konsorten - noch eine Blockmethode für böse Bots - Martin Vogel, 11.06.2010, 21:55