[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: echelon-artikel

To: Michael Brunnbauer <brunni@netestate.de>
Subject: Re: echelon-artikel
From: Franz von Weizsaecker <spike@cs.tu-berlin.de>
Date: Mon, 13 Mar 2000 13:18:14 +0100 (MET)
cc: debate@fitug.de
Comment: This message comes from the debate mailing list.
In-Reply-To: <20000313112020.A16230@netestate.de>
Reply-To: fw@mindless.com
Sender: owner-debate@fitug.de

Hi,

On Mon, 13 Mar 2000, Michael Brunnbauer wrote:
> dort heisst es u.a. zum thema spracherkennung:
> 
> There is also a significant limit imposed on the ability to monitor voice
> communications, resulting from the failure of extensive U.S. Efforts to 
> produce "word spotting" software that would allow computer transcription
> of intercepted conversations. In 1993, former NSA director Bobby Inman
> admitted that "I have wasted more U.S. taxpayer dollars trying to do that
> [word spotting in speech] than anything else in my intelligence career."
> Nor has the capability been developed in the intervening years, according to
> Campbell's report. 

Ich weiss nicht genau, wie weit das Thema Texterkennung hier in
fitug-debate schon diskutiert wurde, weil ich noch nicht so lange dabei
bin...

Wieviel die NSA heute schon "offiziell" kann, kann man nachlesen unter
http://trec.nist.gov/pubs/trec7/papers/nsa-rev.pdf.gz

TREC7, die siebte text retrieval conference ist eine Zusammenkunft von
zahlreichen namhaften Firmen, vielen US-Universitaeten und dem
Verteidigungsministerium, vertreten durch die NSA. (oder andersrum...)

Der Kern der Forschung besteht darin, nicht mehr einzelne Stichworte zur
Suche zur verwenden, sondern sogenannte "semantic forests". Eine Art
Baumstruktur mit verschiedene Wortklassen, mit logischen Verknuepfungen
und Gewichtung. Hiermit wird eine Suche moeglich, die auch den
semantischen Kontext beruecksichtigt, und damit laesst sich die
Trefferquote merklich verbessern. Ein schickes Feature ist, dass diese
Suchbaeume mit einer ausformulierten Frage gebildet werden. Dann werden 
sie noch automatisch verbessert mit Hilfe von Wortklassen
und Lexikon-lookups. Man kann sie auch noch weiter von Hand bearbeiten,
womit man die Trefferquote der Suche auf etwa 50% steigern kann.

Auf das Thema Spracherkennung geht die NSA auch kurz ein, streitet aber
ab, dass das moeglich sei, wegen der hohen Fehlerquote der Mitschnitte.
Ob man das glauben kann, wage ich nicht zu beurteilen. Man sollte denken,
dass ein System mit Hilfe von semantischen Zusammenhaengen und ein bischen
fuzzy logic wesentlich fehlertoleranter arbeiten kann als bisherige
Technik. Mal angenommen man erfasst in den Mitschnitten die einzelnen
Silben, spielt dann ein paar Moeglichketen durch, und laesst die "semantic
forests" darauf los. Dass man damit akzeptable Ergebnisse erhaelt, ist
schon denkbar, aber wie gesagt, ich forsche nicht auf dem Gebiet, und will
hier keine Veschwoerungstheorien aufstellen.

Mal abgesehen von der Anwendung auf dem Gebiet der Aufklaerung, oder
Spionage, oder wie man es nennen will, halte ich das auch fuer ein sehr
wichtiges Forschungsgebiet, weil es da m.E. ein grosses Potential zur
Verbesserung der Literaturrecherche gibt. In Ansaetzen ist so ein System,
dem man einfach Fragen stellen kann ja schon verwirklicht in Suchmaschinen
wie AltaVista. Das laesst sich aber sicherlich noch ausbauen...

Gruss,
Franz

References:
- echelon-artikel
  - From: Michael Brunnbauer <brunni@netestate.de>

Prev by Date: [daily@cryptome.org: Cryptome Daily 12 March 2000]
Next by Date: Re: "Dezentrales Telephonnetz"
Prev by thread: echelon-artikel
Next by thread: "Dezentrales Telephonnetz"
Index(es):
- Date
- Thread