Bauforum-Logo

Offenes Forum Bauingenieurwesen

log in | registrieren

zurück zum Forum
  Mix-Ansicht

Useragent Twiceler und Konsorten - noch eine Blockmethode für böse Bots (Software)

verfasst von Martin Vogel Homepage E-Mail, Dortmund / Bochum, 11.06.2010, 21:55 Uhr

Den Twiceler-Bot der vorgeblichen Suchmaschine cuil.com, dumm und lästig wie ein Schwarm Schmeißfliegen, kann man bekanntlich über ein \"Stoppschild\" in der /robots.txt nicht loswerden. Man muss schon mit einem klaren Auslieferungsverbot durch den Webserver Fakten schaffen. Die klassische Methode geht über das Sperren der IP-Adressen des Bots in der Datei .htaccess. Das sieht zum Beispiel so aus:

Deny from 67.218.116.128/18
Deny from 216.129.0.0/17


Viel eleganter ist die Auswertung des Useragent-Strings, da diese Methode auch dann noch funktioniert, wenn sich die Adressen des Belästigers ändern. Zudem ist sie selbsterklärend, sodass man sich weitergehende Kommentare in der .htaccess-Datei schenken kann. In der Sperrdatei fürs Bauforum sieht das zum Beispiel so aus:

Order allow,deny
Allow from all

SetEnvIfNoCase User-Agent \"NaverBot\" badbot=yes
SetEnvIfNoCase User-Agent \"Twiceler\" badbot=yes

deny from env=badbot


Wie man sieht, ist gleich noch der Bot der koreanischen Suchmaschine Naver mitgefangen und mitgehangen worden. Hm, mal sehen, wer nervt denn noch …

--
Dipl.-Ing. Martin Vogel
Leiter des Bauforums

Heute schon programmiert? Einführung in Python 3 (PDF)

antworten
 



gesamter Thread:

zurück zum Forum
  Mix-Ansicht
Offenes Forum Bauingenieurwesen | Kontakt | Impressum
8396 Postings in 4006 Threads, 1091 registrierte User, 27 User online (0 reg., 27 Gäste)
powered by my little forum  RSS-Feed  ^
map | new