[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Es ist Wahlkampf ...
- To: debate@fitug.de
- Subject: Re: Es ist Wahlkampf ...
- From: blue@tarigon.de (Olaf Boos)
- Date: 23 Jun 1998 00:09:00 +0200
- Comment: This message comes from the debate mailing list.
- In-Reply-To: <m0yo2dA-000okkC@www.inx.de>
- Organization: tarigon, the project
- Sender: owner-debate@fitug.de
HiYa!
Simone:
>> Bei Lycos gibt es u.A. die Moeglichkeit, sich nur von der Redaktion
>> als "jugendfrei" anerkannte Inhalte anzeigen zu lassen.
>
>So?
>Also fuer mich sehen diese Logfiles aber schon *sehr* nach automatischem
>Absuchen aus:
[Logfile: Robots suchen robots.txt]
>Das Ding hat ueber Tage hinweg nichts anderes getan, als regelmaessig ein
>bis zwei mal am Tag nach einer robot.txt zu fragen. Sonst hat es sich
>nichts geholt. Was soll ich davon bitte halten?
>
>Doch sicher nicht Handarbeit.
Nein, automatisierte Vorbereitung einer automatisierten Datenerfassung.
Du verwechselst da was. Was Du im Logfile sehen kannst, ist die
Erstellung eines Datenpools. Ein solcher wird sinnvollerweise
automatisiert erfolgen[1], danach erfolgt die redaktionelle Bewertung
der gesammelten Daten, deren Ergebnis dem Abfrager zur Verfuegung
gestellt werden. Ich denke, mit einiger Verzoegerung kam der Spider
wieder und hatte 'richtig losgelegt'?
[1] Es macht Sinn, dass ein Spider erst mal nur robots.txt-Dateien
sammelt. Man kann in dieser Datei nicht nur Verzeichnisse
excluden, sondern auch includen. In jedem Fall kann der Spider
mit der vorherigen Kenntnis der robots.txt schneller suchen und
dabei fair bleiben (ich betrachte die Beachtung eines robots.txt
als einen Akt der Fairniss, die nicht bei jeder Suchmaschine
anzutreffen ist).
MfG, Olaf
--
## Blue Elephant ;ooO) | WorldWideWaste: http://www.tarigon.de/
## Inserat: Antibabypillen umstaendehalber abzugeben.