[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Was soll man davon halten?



> Was kann man da tun? WWW-Seiten werden "ins Netz" gehaengt, dass andere
> sie ansehen koennen. Wenn da Web-Robots vorbeikommen, laesst sich kaum was
> daran aendern. Auch unsere WWW-Server werden von altavista und anderen Biestern
> heimgesucht.

Man kann etwas tun. Es gibt den 'Robot exclusion standard'. _Hoefliche_
Roboter fragen beim Besuch einer neuen Site nach der Datei /robots.txt .
Wenn diese existiert, so sollte deren Inhalt beachtet werden. In dieser
Datei kann man angeben, welche Verzeichnisse von welchen Clients wie
abgefragt werden koennen. Systeme wie 'WebCrawler' oder 'Lycos' beachten
diese Vereinbarung. 

Die von Juergen angesprochene Mail wird vom Betreiber des Roboters bei
Nichbeantwortung durch den Webmaster wohl als stille
Einverstaendniserklaerung verstanden. Wir sollten auf jeden Fall eine
/robots.txt einrichten, hauptsaechlich um zu vermeiden, dass so ein
bloedes Viech endlos dynamische Web-Seiten frisst (diese entstehen
zwangslaeufig, wenn wir mal eine Datenbank haben).

Deswegen die Frage: Welche Bereiche lassen wir abscannen, welche sperren
wir? 
Mein Vorschlag: Nur die Leitseite wird freigegeben, der Rest nicht.

Uebrigens kann man durch die Access-Listen des httpd ohne grosse
Probleme laestige Roboter, soweit sie bekannt sind, ganz verbannen.

Hubert

--
Hubert Weikert   DB1MQ  weikert@cube.net
CIS: 100034,374  weikert@muninn.cube.net