[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Blind Vision: Lemmingabstand



 HiYa!

Wau:

>Bei LIDL habe ich letzte Woche mit Interesse gelesen, dass jetzt die
>Kassenzettel beim Finanzamt anerkannt werden.
>An dieser Stelle begann ich zu ueberlegen, welche Zugriffsbedingung
>das FA verlangt hat, um das so zu akzeptieren.
>
>Ich habe ueberlegt, welche mikrosozialen Analysen diese Datensumme
>hergibt auch ohne Namen.

Es sind so einige Schluesse moeglich. Die Abzugsfaehigkeit ist erst
durch eine Produktnennung auf dem Beleg moeglich geworden (AFAIK).
Zusammen mit dem Datum und insbesondere der Uhrzeit koennen in Verbindung
mit Art und Menge der vermerkten Artikel gewisse Rueckschluesse gezogen
werden (praktisches Anwendungsbeispiel: Werbefernsehen, welche Artikel
werden wann am erfolgreichsten beworben?). Weiterhin ist die Kombination
der Artikel pro Beleg eine wertvolle Informationsquelle fuer Profil-
erstellungen. Hier haben wir gleich auf Anhieb mehrere Auswerte-
moeglichkeiten aus einer einzigen Datenquelle gefunden. Think for it.

>Beim CCC Berlin heftige Debatten ueber Umgang mit
>Statistikdaten auf dem Webserver. Ich wollte den Kram
>moeglichst weit moeglichst offen fuer moeglichst viele,
>andere wollten moeglichst wenig fuer moeglichst wenige.

Ich betreue den Webserver vom RNInet e.V. und unsere Teilnehmer haben
die Moeglichkeit statistische Auswertungen aus den Zugriffen ihrer
Seiten zu erhalten. Die Erstellung dieser Statistiken werden von mir
monatlich einmal haendisch angeworfen. Ja, es geht automatisiert direkt
auf dem Server auszufuehren, und Ja, ich mache das mit Absicht nicht.
Weiterhin habe ich die Moeglichkeiten des Auswerteprogramms dahingehend
eingeschraenkt, dass ich nur eine feste Vorauswahl von Parametern
zur Auswahl stelle. Damit ist fuer mich gewaehrleistet, dass der
Anbieter der Seiten wuenschenswerte Informationen ueber die Nachfrage
seiner Seiten erhaelt, aber dennoch die informellen Rechte des Abrufers
gewahrt bleiben.

Wer von mir eine solche Statistik haben will, bekommt einen Fragebogen,
an dem der folgende Absatz angefuegt ist (---///--- als Klammerung):

---///---
__Kommentar zur Verwertbarkeit der Statistik__

Eine Zugriffsstatistik liefert eine Menge an Zahlenmaterial. Aber was
kann man damit anfangen? Nun, dafuer sollte man erst mal ueberlegen,
wie sich das mit Statistiken ueberhaupt verhaelt. Eine Statistik ist
immer nur so tauglich wie das Rohmaterial, aus der sie erstellt wird.
Im vorliegenden Fall ist dies eine Zugriffslogdatei eines zustandfreien
Protokolls (HTTP). Nun, was kann man damit alles _nicht_ machen:

o absolute Rueckschluesse ueber die Nachfrage einer Seite

o Benutzerprofile ueber den Abfragenden oder gar Rueckschluesse auf
  dessen Interessen, Neigungen, etc.

o absolute Zielgruppenanalyse

Und warum? Nun, ein Zugriff auf eine Seite ist schnell passiert. Man
klickt auf irgendeinen Link auf einer anderen Seite; man "verklickt"
sich (wollte den Link daneben treffen); man findet in der Suchmaschine
einen vermeintlich passenden Link; sonstige Moeglichkeiten. Aus diesem
Grund ist die Hoststatistik  mit entsprechender Vorsicht zu geniessen.
Weiterhin sei darauf verwiesen, dass ein Rechner mehrere Benutzer haben
kann, insbesondere Gateways (z.B. *.btx.dtag.de, *.aol.com) was diese
Angaben gleich wieder verzerrt. Ausserdem verursacht jede einzelne Grafik
einer Seite einen Abrufeintrag, wodurch auch hier wieder eine Verzerrung
erfolgt. Besonders der Punkt "Benutzerprofile" ist mir sehr wichtig.
Es koennte der Gedanke aufkommen ueber diesen Weg ermittlungsfaehiges
Material zu erhalten (unserem Kanther traue ich das zu), das scheitert
allerdings am Wesen von HTTP. Diese Daten sind gaenzlich ungeeignet
fuer irgendwelche Ermittlungsverfahren da sie viel zuviele Unwaegbar-
keiten enthalten.

Was kann man stattdessen mit der Statistik anstellen? Nun, sie kann
Anhaltspunkte liefern. Werden die einzelnen Seiten gefunden? Lohnt es
sich fremdsprachliche Versionen zu erstellen (Achtung: Abhaengig davon
In welchen Suchmaschinen die Seiten eingetragen sind)? Sind falsche
und/oder veraltete Links gesetzt (Statuscodes)? usw. Ich betone es
nochmals: Die Statistik kann nur annaehernde Schluesse bieten, alles
andere ist eine Ueberbewertung der Statistik!


__Kommentar zum Datenschutz__

Der Zugriff auf Eure persoenlichen Statistiken wird von mir gegen
fremden Zugriff gesichert. Das liegt darin begruendet, dass die
Informationen aller Unverbindlichkeit zum Trotz einen persoenlichen
Charakter haben und deswegen Aussenstehenden nichts angehen.
Entsprechende Anfragen von Ausserhalb werden von mir deswegen generell
abgewiesen werden.

Neben Deinem Persoenlichkeitsrecht wird von der Statistik auch das
Persoenlichkeitsrecht des Abrufers beruehrt. Aus diesem Grund werden
explizite Zuordnungsmoeglichkeiten (wer hat was abgerufen) von mir
verweigert, ebenso liegt darin auch die Einschraenkung des Host-Berichtes
begruendet. Ich habe mir lange Zeit Gedanken ueber moegliche Konflikte
mit dem Datenschutz gemacht und die obige Liste stellt den nach meinen
Erwaegungen vertretbaren Kompromiss zwischen berechtigtem Datenschutz
und Eigeninteresse des Webseitenautors dar. Das Statistikprogramm kann
zwar mehr Daten liefern, aber diese halte ich fuer datenschutzrechtlich
bedenklich.

Zum Datenschutzaspekt der Logdatei ansich: Diese Datei ist Bestandteil
des Webserverprogramms und ist alleine schon aus administrativen
Gruenden erforderlich. Da aber wie gesagt datenschutzrechtlich
bedenkliche Zusammenstellungen aus dieser Datei erstellt werden koennen,
wird diese Logdatei selbst niemanden, auch keinen staatlichen Stellen
ohne direkte qualifizierte Anordnung, bereitgestellt werden.


__Kommentar zu den Homepages__

Aus gegebenen Anlaessen moechte ich noch ein paar Takte zu Homepages
allgemein verlieren: Der RNInet e.V. stellt seinen Teilnehmern Webspace
bereit, damit die Teilnehmer eigene Webseiten veroeffentlichen koennen.
Der RNInet e.V. uebernimmt damit _keinerlei redaktionelle Verantwortung_
fuer die Inhalte, diese liegt ausschliesslich beim Autor. Der RNInet e.V.
behaelt sich vor, auf Zuruf bestimmte Seiten zu ueberpruefen und im Falle
von gesetzwidrigen (bezogen auf den Standort des Servers; Deutschland)
Inhalten die Seite zu entfernen. Weiterhin wird missbraeuchliche Nutzung
des Webspaces ("Zwischenlager" fuer grosse Datenmengen, FTP-Verschiebe-
bahnhof illegaler Dateien [e.g. Raubkopien, etc.]) mit Loeschung der
Daten und ggf. weiteren Schritten geahndet werden.

Generell gilt: Der RNInet e.V. moechte seinen Teilnehmern die Freiheiten
ermoeglichen, die das Medium Internet so interessant machen. Daher
muessen wir darauf bedacht sein, dass nicht der Gesamtheit der Teilnehmer
durch Fehlverhalten Einzelner Nachteile entstehen. Allerdings treten wir
auch bei ungerechtfertigten Angriffen fuer unsere Teilnehmer ein, sind
aber nicht bereit generell eine "Kindermaedchenrolle" zu uebernehmen,
schliesslich handelt es sich bei unseren Teilnehmern um muendige und
selbststaendige Menschen.


__Abschluss__

Ich danke erst mal fuer die Aufmerksamkeit und fuer die Mitarbeit an
obiger Liste. Weiterhin hoffe ich, mit den obigen Informationen ein
paar Unklarheiten beseitigt zu haben. Sollten noch weitere Fragen
bestehen, stehe ich unter der Adresse    webmaster@rhein-neckar.de
gerne zur Verfuegung. Ansonsten moechte ich darauf hinweisen, dass
allgemeine Informationen von mir in der Gruppe   rni.general
erscheinen werden.

Olaf Boos, Webmaster RNInet e.V.
---///---

Damit ist m.E. alles gesagt. Einer Teilnehmerin, die nicht ganz
verstanden hatte, was ich mit den Moeglichkeiten der Auswertung
meinte, fuehrte ich eine solche Auswertung anhand ihrer Seiten
(sie bietet einige Seiten zum Thema Legasthenie und Schulung
schreibschwacher Kinder an) durch. Im betreffenden Monat wurden
ihre Seiten von n Leuten eher gestreift, aber es gab einige, die
sich ernsthaft damit beschaeftigten (Zugriffszeitabstaende). Es
waren einige aus dem universitaeren Bereich, ein t-online-Zugang
koennte ein Lehrer gewesen sein, ein koreanischer Leser war u.a.
auch zu finden, usw. Drei Suchmaschinen hatten die Seiten erfasst
und das wars dann auch. Und zwei fehlerhafte interne Links hatte
ich noch gefunden (Umlaute in den Dateinamen, tsstsstss). Alles
Rueckschluesse aus den Standardlogeintraegen des Apache und Kenntnis
der einzelnen Seiteninhalte. Sie war beeindruckt, was man doch
alles daraus lesen kann und meinte dann, dass es gut waere, dass
ich nur eine kontrollierte Vorauswahl anbieten wuerde.

Obwohl diese Rueckschluesse wegen der Zustandslosigkeit von HTTP
mit einem ziemlichen Fehlerquotienten behaftet sind, man kann
durchaus gewisse Vermutungen damit aufstellen. Es ist eine Frage
der Gewichtung der in den Daten enthaltenen Informationen und
die Kombination der Einzelinformationen zu einem Ganzen.

MfG, Olaf
-- 
## Blue Elephant ;ooO) | WorldWideWaste: http://www.tarigon.de/
## Fachbegriffe der Informatik einfach erklaert, Teil 17:
## "Vollkompatibel zur Datenautobahn" ==
##        "Geraet verfuegt ueber eine serielle Schnittstelle."