[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Persoenlicher Bereich und Robots.



Hi,

> Man muesste da doch eine Grenzlinie ziehen koennen. Robots.txt, an den
> sich die Robots gefaelligst zu halten haben, koennte man ja mal verlangen,
> ist eine Loesung. Ein anderer Ansatz waere herauszuarbeiten, was Robots
> eigentlich leisten, etwa ein offenes Verzeichnis ohne index.html, ohne
> Links, waere nicht zu entdecken. Oder ? Oder brauchts eine leere
> index.html ? 

also, mir ist nicht so ganz klar, was diese Diskussion eigentlich genau
soll, aber:

Wenn niemand auf einen bestimmten Bereich zugreifen soll, muss dieser
eben per Passwort geschützt werden, wo ist da das Problem?

Minimal-Variante wäre robots.txt

Wenn Passwort-Schutz aufgrund schlechtem Provider nicht möglich, dann
zur Not ein Formular machen, und man kommt nur mit einem Button zum
"privaten" Inhalt weiter. Das verfolgen Robots auch nicht.


Robots lassen sich auch selektiv auf Server-Seite sperren oder ihnen
speziell aufbereitete Inhalte schicken.


> Wie finden Robots ueberhaupt user homepages ? /~uzs106/ ?

a) wenn jemand eine URL anmeldet, wird sie gefunden
b) wenn irgendwo ein Link auf eine URL besteht, wird sie gefunden


> Wie arbeiten die ueberhaupt ?

Abgesehen von der Text-Indexierung:
Ausgehend von einer Seite durchforsten sie diese nach Links. Die
HTML-Seiten der Links werden wiederum geladen, (natürlich indexiert) und
die Links extrahiert. Von dort aus gehts weiter. Das kann sehr sehr
lange dauern (die meisten Robots der US-Suchmaschinen brauchen Monate,
bis sie eine Handvoll Seiten geholt haben) oder auch sehr schnell gehen:
Gestern hat der Openfind-Robot ausgehend von
http://www.assoziations-blaster.de/ wurden innerhalb eines Tages über
12000 Seiten geholt.


Die meisten Robots verfolgen nur statische HTML-Dateien, Scripts mit
Parametern werden nicht verfolgt. Manche wie der elende Altavista oder
Lycos machens aber doch, was zum beispiel beim Blaster zu
Endlosschleifen führt, was wiederum solch "tolle" Ergebnisse bei Lycos
als Ergebnis hat:
http://www.lycos.de/cgi-bin/pursuit?query=R%FCcksitz
 

> Gestern erzaehlte einer mit diabolischem Grinsen davon, die Robots zu
> foolen. Markenartikel. Ohne sowas laeuft heute nichts mehr. Da werden
> Links produziert, der Robot denkt, eine page waer populaer.

Späßchen mit Suchmaschinen zu treiben ist schon alt, man denke z.B. an
den Digital Hijack von etoy im Jahre 1996:
http://www.etoy.com/share/space/hijackidx.phtml bzw.
http://www.hijack.org/


Allerdings lassen sich die Suchmaschinen heutzutage nicht mehr so gut
reinlegen; insbesondere bei Google ist das schwer.


Ciao
  Alvar