[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Es ist Wahlkampf ...



 HiYa!

Simone:

>> Bei Lycos gibt es u.A. die Moeglichkeit, sich nur von der Redaktion
>> als "jugendfrei" anerkannte Inhalte anzeigen zu lassen.
>
>So?
>Also fuer mich sehen diese Logfiles aber schon *sehr* nach automatischem
>Absuchen aus:
[Logfile: Robots suchen robots.txt]

>Das Ding hat ueber Tage hinweg nichts anderes getan, als regelmaessig ein
>bis zwei mal am Tag nach einer robot.txt zu fragen. Sonst hat es sich
>nichts geholt. Was soll ich davon bitte halten?
>
>Doch sicher nicht Handarbeit.

Nein, automatisierte Vorbereitung einer automatisierten Datenerfassung.
Du verwechselst da was. Was Du im Logfile sehen kannst, ist die
Erstellung eines Datenpools. Ein solcher wird sinnvollerweise
automatisiert erfolgen[1], danach erfolgt die redaktionelle Bewertung
der gesammelten Daten, deren Ergebnis dem Abfrager zur Verfuegung
gestellt werden. Ich denke, mit einiger Verzoegerung kam der Spider
wieder und hatte 'richtig losgelegt'?

[1] Es macht Sinn, dass ein Spider erst mal nur robots.txt-Dateien
    sammelt. Man kann in dieser Datei nicht nur Verzeichnisse
    excluden, sondern auch includen. In jedem Fall kann der Spider
    mit der vorherigen Kenntnis der robots.txt schneller suchen und
    dabei fair bleiben (ich betrachte die Beachtung eines robots.txt
    als einen Akt der Fairniss, die nicht bei jeder Suchmaschine
    anzutreffen ist).

MfG, Olaf
-- 
## Blue Elephant ;ooO) | WorldWideWaste: http://www.tarigon.de/
## Inserat: Antibabypillen umstaendehalber abzugeben.