Useragent Twiceler und Konsorten - noch eine Blockmethode für böse Bots (Software)

Martin Vogel ⌂ @, Dortmund / Bochum, Freitag, 11.06.2010, 21:55 (vor 2988 Tagen) @ Martin Vogel

Den Twiceler-Bot der vorgeblichen Suchmaschine cuil.com, dumm und lästig wie ein Schwarm Schmeißfliegen, kann man bekanntlich über ein "Stoppschild" in der /robots.txt nicht loswerden. Man muss schon mit einem klaren Auslieferungsverbot durch den Webserver Fakten schaffen. Die klassische Methode geht über das Sperren der IP-Adressen des Bots in der Datei .htaccess. Das sieht zum Beispiel so aus:

Deny from 67.218.116.128/18
Deny from 216.129.0.0/17

Viel eleganter ist die Auswertung des Useragent-Strings, da diese Methode auch dann noch funktioniert, wenn sich die Adressen des Belästigers ändern. Zudem ist sie selbsterklärend, sodass man sich weitergehende Kommentare in der .htaccess-Datei schenken kann. In der Sperrdatei fürs Bauforum sieht das zum Beispiel so aus:

Order allow,deny
Allow from all

SetEnvIfNoCase User-Agent "NaverBot" badbot=yes
SetEnvIfNoCase User-Agent "Twiceler" badbot=yes

deny from env=badbot

Wie man sieht, ist gleich noch der Bot der koreanischen Suchmaschine Naver mitgefangen und mitgehangen worden. Hm, mal sehen, wer nervt denn noch …

--
Dipl.-Ing. Martin Vogel
Leiter des Bauforums

Heute schon programmiert? Einführung in Python 3 (PDF)



gesamter Thread:

 RSS-Feed dieser Diskussion

powered by my little forum