[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Patentierte Problemstellungen und internationalisiertes DNS



On Wed, Apr 18, 2001 at 10:03:23AM +0200, Florian Weimer wrote:
> Holger Veit <holger.veit@gmd.de> writes:
> 
> > Und genau damit faengt das Problem an, welches naemlich vor allem die
> > Ostasiaten haben. Wenn man in einer westlichen Sprache ein Glyph "A"
> > hat, dann wird das vielleicht im Deutschen etwas anders ausgesprochen
> > als im Englischen, aber es gibt zumindest Uebereinstimmung darueber, dass
> > das
> > 	- der erste Buchstabe des lateinischen Alphabets (Sortierreihenfolge)
> > 	- die Gross-Version von "a"
> > 	- ein Vokal
> > ist.
> 
> Der zweite Punkte ist i.a. nicht richtig. ;-) Das ist ja auch nicht

Fuer die 26 Buchstaben und ein paar andere Glyphs/Zeichen gibt es 
so eine Zuordnung. Allgemein gibt es freilich nicht zu jedem Zeichen
einen Partner. Eine Normierung von '@' nach 'a' zwecks Vereinfachung
erscheint mir recht gewagt zu sein (vielleicht als Kompaktierung, um eine
phonetische Suche veranstalten zu koennen).

> der Punkt, es ist in der Tat nicht sinnvoll, Typen Eigenschaften
> zuzuschreiben, die zu Zeichen gehören.

Das ist aber letztlich der angesprochene Asienstreit, weswegen die
Japaner lange Zeit (und immer noch) ISO-2022-JP dem "CJK" und "Unicode"
vorgezogen haben. Dasselbe Zeichen hat in Japan und China eine unterschied-
liche Bedeutung und ggf. sogar Eigenschaft, etwa der waagerechte Strich,
der in Kanji zwar den Code 1 (oder 2?) hat, aber in verschiedensten
Zusammenhaengen vorkommt; vergleichbar mit unserem Strich, der "Minus"
oder "Bindestrich" oder "Gedankenstrich" sein kann, und folglich auch
in Unicode in mehreren Varianten vorkommt - fuer den Kanji #1 gilt das
aber nicht. Es ist bei der ganzen Debatte sicherlich ein gehoerig Mass
"wir wollen nicht das, was die Langnasen uns da vorsetzen wollen" dabei,
allerdings besitzt durchaus Unicode die Schwierigkeit, dass die klassischen
alten Codierungen (ASCII, Latin-XX) recht einfach abbildbar sind, die
asiatischen frueheren Standards allerdings geradeweg ignoriert wurden
(dasselbe gilt fuer KOI-8, welches ebenfalls unter den Tisch gefallen ist).

Wenn man sich auf den Standpunkt zurueckzieht, dass Unicode einfach nur
Glyphs codiert, muss man erklaeren, warum es fuer bestimmte Zeichen mehrere
Bedeutungs-Varianten gibt, fuer andere (gerade die Kanjis) aber nicht
(warum hat man etwa die mit dem Lateinischen uebereinstimmenden kyrillischen
Zeichen nicht auf ASCII abgebildet?)

Das einzige, was mir da einfaellt, ist, dass man mit den 16 Bit haushalten
wollte und nicht gleich die vollen 32 Bit anbrechen wollte. Das ist
effektiv aber wieder eine Kruecke, die uns kompliziertere Programme
an allen Stellen produziert.

> > Bei chinesischen Schriftzeichen geht das in die Hose, weil Japaner und
> > Koreaner sich aus diesem Glyphfundus fuer die jeweils eigene Sprache
> > bedient haben und neue, abweichende Zeichenbedeutungen und Aussprachen
> > eingefuehrt haben.
> 
> Unicode hat die Han-Bestände der CJK-Schriften vereinigt (im Gegensatz
> zu den westlichen Schriftsystemen, sofern dies nicht bereits durch
> frühere Zeichensätze vollzogen wurde), unter ein paar Randbedingungen,
> die maschinelle Verarbeitung sicherstellen.

ACK. So ist zum Beispiel die Collation-Order bei westlichen Sprachen 
weitgehend erhalten geblieben, bei den Asiaten aber generell zum Teufel.
Kein Wunder, dass die nicht gluecklich darueber sind.

> > Wie also waere es in Zukunft mit
> > 	www.=?iso-8859-1?Q?z=E4hne?=.de		(www.zähne.de)?
> > 
> > und das im Zweifelsfall auch noch mal mit diversen IBM- oder
> > Windows-Codepages, vielleicht auch noch mit EBCDIC? 
> 
> Dann gibt es auch:
> 
>  	www.=?iso-8859-2?Q?z=E4hne?=.de		(www.zähne.de)

... was die Sache noch weiter verwurschtelt, weil ggf. dann ein
Grossteil lesbar ist, aber bestimmte Zeichen doch wieder nicht.

Holger

-- 
signature fault - code dumbed