[wilhelmtux-discussion] (2) Umlaute [war: Re: offene standards]

Alex Schroeder alex at emacswiki.org
Sam Jan 18 22:59:25 CET 2003


Manfred Morgner <manfred.morgner at gmx.net> writes:

> Wenn ich die Diskussion so betrachte zwingt sich eine Erkenntnis ganz 
> deutlich auf: Wirklich relevante Daten soltlen im 7BIT-ASCII-Zeichensatz 
> gespeichert werden oder in UTF8.

Nein.  Dass digests nicht richtig entschlüsselt werden ist ein Mangel
der relevanten Browser, oder der Mailer Software.  So ist ASCII zwar
eine gute Idee, aber keine zwingende Schlussfolgerung.

> Ich glaube schon, dass die Angabe, dass "ä" (also ae) nur dann als "&auml;" 
> gespeichert wird, wenn das Tastaturlayout keine "Ae-Taste enth&auml;lt.

&auml; ist eine Notation für Authoren, welche keine Möglichkeit zur
Eingabe eines richtigen ä haben.  Nicht mehr und nicht weniger.

> Aber das kann doch wohl nicht der Ernst sein? Das bedeutet ja, dass ich mit 
> HTML-Dateien immer nur in einer Sprache kommunizieren kann, oder?

Generell ist es so, dass pro MIME attachment, oder pro file, nur ein
Coding System verwendet werden kann -- also nur Latin-1.  Mit Latin-1
lassen sich allerdings Westeuropäische Sprachen kodieren, so dass man
nicht zwingend nur auf eine Sprache beschränkt ist.

> Ich denke, an dieser Stelle wird es schon zu kompliziert um es korrekt zu 
> managen. Man sieht ja, dass es bereits heute zu schwierig ist, solche Angaben 
> wie "ISO8859-1" tatsächlich richtig zu interpretieren.

Nein, eigentlich sollte das ziemlich einfach sein.

> Selbst wenn es heute wunderbar funktioneiren würde, ist das noch kein 
> ausreichendr Beweis, dass die internationalen Zeichensätzt wirklich später 
> noch brauchbar sind.

Was bedeuted dass, "internationalen Zeichensätzt wirklich später noch
brauchbar sind?" -- ASCII ist genauso eine Norm wie Latin-1 oder
EUC-JP oder KOI-8 oder Unicode.  Genauso dokumentiert.  Genauso
implementiert.  Genauso archiviert.  Vielleicht ein wenig weiter
verbreitet als andere Coding Systems -- aber dass ist ja nicht
wirklich ein Grund, oder?  Schon jetzt gibt es mehr Chinesen als
Deutsche Internet Benutzer -- wenn wir also nach der reinen Zahl
gehen, sollten bald alle Systeme Chinesisch eingerichtet werden.  Aber
da gibt es ja auch noch verschiedene Systeme, BIG5, GB2312, etc.  Ach
und vielleicht willst du Unicode vorschlagen?  Aber da wurde ja die
Han-Unification durchgeführt, dh. man kann zwischen den
taiwanesischen, historischen, chinesischen, und japanischen
Schriftzeichen nicht mehr unterscheiden.  Braucht weniger Platz, dafür
muss man die Sprache nun immer noch via Schrift mitliefern -- also
genauso eine Meta-Information wie der MIME Type.  Unsere
Europa-zentrierte Denkweise führt dazu, dass die asiatischen Schriften
immer noch stiefmütterlich behandelt werden.

Auf alle Fälle sind Zeichensätze kein Thema, dass man mit ein paar
Bemerkungen, einer falsch kodierten Digest, oder drei mails auf der
Wilhelm Tux Liste abhandeln könnte.

> Das EURO ( ) -Symbol. Es macht aus einem 1-Byte-Alphabet plötzlich ein 
> Unicode-Alphabet. Mit der Verwendung dieses Zeichens statt dem Kürzel "EU" 
> oder "Eu" oder dem Wort "Euro", beginnen bereits massive Probleme bei der 
> Datenhaltung. Das Alphabet  de_DE mag da noch ganz nützlich sein, aber was 
> ist mit de_CH? Und was ist, wenn solche Dokumente mit ausländischen (z.B. 
> koreanischen, ägyptischen, peruanischen) Partnern ausgetauscht werden sollen? 
> Was ist, wenn Software, die früher "DM", "CHF" usw, kannte, plötzlich auf ein 
> Unicode-Zeichen stösst?
> Nur so ein Gedankenanstoss.

Huh?  Was ist das Problem?  Es wurde ein neuer Character eingeführt,
und nun gibt es ein Latin-9 (MIME:ISO-8859-15) eingeführt, welches
Latin-1 ablöst, und fast deckungsgleich wie Latin-1 ist.  Ja, manche
Software ist da späht dran.  Oft braucht man ein System upgrade --
denn da braucht es ja noch neue Schriften, Konvertierungen, etc.  Das
einzige richtige Argument in diesem Zusammenhang sind die Kosten.
Selber verwende ich zB. immer noch Latin-1 auf meiner Kiste.

Die ISO Sprachen und Länder Kürzel wie de_CH und de_DE sind übrigens
nur für die Lokalisation zuständig, und sagen nichts über den
Zeichensatz aus.  Auf meinem System stand de_CH früher für
de_CH.ISO-8859-1 gemäss /etc/locale.alias.

Alex.