[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Patentierte Problemstellungen und internationalisiertes DNS



On Wed, Apr 18, 2001 at 12:47:34AM +0200, Florian Weimer wrote:
> Xuan Baldauf <xuan--swpat--ffii.org@baldauf.org> writes:
> 
> > Was ist ein Typenbasiertes System für Internationalisierung? Für
> > jeden Typen (Glyph?) eine eigene Bezeichnung statt für jedes
> > Zeichen?
> 
> Genau.

Und genau damit faengt das Problem an, welches naemlich vor allem die
Ostasiaten haben. Wenn man in einer westlichen Sprache ein Glyph "A"
hat, dann wird das vielleicht im Deutschen etwas anders ausgesprochen
als im Englischen, aber es gibt zumindest Uebereinstimmung darueber, dass
das
	- der erste Buchstabe des lateinischen Alphabets (Sortierreihenfolge)
	- die Gross-Version von "a"
	- ein Vokal
ist.

Bei chinesischen Schriftzeichen geht das in die Hose, weil Japaner und
Koreaner sich aus diesem Glyphfundus fuer die jeweils eigene Sprache
bedient haben und neue, abweichende Zeichenbedeutungen und Aussprachen
eingefuehrt haben. Ein Domainname kann zwar aus denselben Glyphs
bestehen, aber abhaengig davon, wer ihn erzeugt hat, vollkommen 
unterschiedliche Bedeutungen haben, etwa vergleichbar einer hypothetischen
westlichen Sprache, bei der alle Buchstaben nicht nur vertauscht (wie
etwa bei ROT-13) sind, sondern sogar zum Grossteil nicht 1:1 ineinander
ueberfuehrbar sind. Man stelle sich etwa vor, dass man hier einen
Namen als kF%aaD0[3%04&].com eingeben muesste, um auf
eine kommerzielle Seite zu kommen (Ein Problem mit der ASCII-Umschreibung 
solcher UTF-Zeichen werden wir als Europaer eh haben). Und schlimmer noch: 
das Nameclash-Problem wird nicht geloest, weil obiger .com-Name sowohl
fuer Japaner als auch Koreaner als auch Chinesen interessant sein koennte:
bei den einen geht es vielleicht um Seife, bei anderen um eine Automarke,
beim Dritten um eine TV-Gameshow.

> > Also ich bin auch dafür, dass Zeichen, die gleich sind, gleiche
> > Unicode-Codepoints bekommen, und nicht Zeichen, die gleich aussehen.
> 
> Bei Unicode ist das keine Frage, auch wenn dort einige wenige Zeichen,
> die praktisch identisch sind, mehrfach abgelegt sind (zum Beispiel
> diese AA-Längeneinheit und der Buchstabe A mit Kringel, oder auch
> 'dz'). Diese Fälle sollte aber die zweite Normalisierung (die auch
> Formatinformationen wegläßt) ineinander überführen.

Die klappt nur fuer genannte Trivialfaelle. CJK bekommt man so nicht 
geschlachtet, ohne ein grosses Lexikon und mehr noch die Information,
welche Sprache gemeint ist, hinzuzufuegen.

Wie also waere es in Zukunft mit
	www.=?iso-8859-1?Q?z=E4hne?=.de		(www.zähne.de)?

und das im Zweifelsfall auch noch mal mit diversen IBM- oder
Windows-Codepages, vielleicht auch noch mit EBCDIC? 

*Die* Geldmaschine fuer networkprobl^H^H^H^H^Hsolutions.com! *NOT*! :-(

Holger

-- 
signature fault - code dumbed