[wilhelmtux-discussion] Umlaute [war: Re: offene standards]

Theo Schmidt tschmidt at mus.ch
Die Jan 21 18:56:53 CET 2003


At 15:01 Uhr +0100 17.1.2003, Dietrich Feist wrote:
> > das von Dietrich hat:
> >
>> Content-type: text/plain; charset=iso-8859-15
>> Content-transfer-encoding: 8BIT
>>
>> Also ist es gerade falsch, den Zeichsatz anzugeben, ausser er sei
> > US-ASCII?
>
>... Falls Du doch MIME eingeschalte hast,
>ist das entweder ein Bug bei Mailman (unwahrscheinlich) oder das
>Problem, dass Dein Eudora ISO-8859-15 (= ISO-8859-1 mit Euro-Symbol)
>nicht kennt. Das gibt es leider öfter. Ich habe jetzt wieder auf
>ISO-8859-1 zurückgeschaltet, das war nicht mit Absicht so eingestellt.

Hallo Dietrich,
Ja, das muss es gewesen sein: ich kann jetzt auf diesem alten System 
alle Umlaute lesen, auch in deinen Mails. Ich denke, dass man deshalb 
mit der ISO-8859-15 noch einige Jahre warten sollte, da sie offenbar 
nicht zu ISO-8859-1 kompatibel ist. Akzeptierbar wäre, wenn die 
Schriften sich bis auf's Euro-Zeichen gleich verhalten würden, tun 
sie aber nicht.


>Die Konsequenz für offene Formate ist, dass fehlerhafte Darstellung auf
>Programmfehler oder Schlamperei zurückzuführen sind und nicht auf
>Probleme der Standards. Bei einer kommerziellen Software sollte man sich
>beim Hersteller beschweren. Freie Software sollte diese Standards
>selbstverständlich korrekt und vollständig implementieren.

Ich finde es immer noch ein Problem der Standards oder genauer der 
Jahrgänge der Standards. Das ist für mich gerade in Linux ein viel 
grösseres Problem als mit Mac oder Windows (hat nun nichts mit 
Umlauten zu tun): auf Mac bin ich noch ganz glücklich mit System 
8.51, auf Windows mit Win95, die beide bis auf 
Stabilität/Sicherheit/Philosophie ganz passable sind und erst seit 
etwa diesem Jahr wirklich veraltet sind. Auf Linux veralten die 
Systeme und vor allem die Bibliotheken so rasch (mein SuSE 7.3 lässt 
sich für manche Programme schon nicht mehr verwenden), dass man nicht 
mehr von einem Standard sprechen kann: der Jahrgang der Distribution 
muss recht genau zu demjenigen der verwendeten externen Software und 
sogar etwa zur verwendeten Hardware passen, sonst geht's nicht oder 
schlecht. Natürlich hat ein Experte da etwas mehr Spielraum, aber für 
Nur-User ist das eine ziemliche Einschränkung. Es ist daselbe wie die 
Einführung des Euro-Zeichens: wenn man die "Freiheit" ältere Software 
und Hardware zu verwenden, nicht zu stark einschränken will, muss 
sehr genau auf Kompatibilität geachtet werden. Eigentlich bräuchte es 
ein "Standard", der erklärt, wann welche Sachen als veraltet gelten 
dürfen. Letztlich ich es genau dieses Problem, welches mich zur - 
auch privaten - Migration von Macintosh zu Linux veranlasst: Apple 
hat mit System X und vielen neuen Schnittstellen seine eigene 
Standards umgekrempelt, und da denke ich, wenn schon "Chaos" und 
"Unix unter der Haube", dann lieber das freie "Original".

At 19:33 Uhr +0100 18.1.2003, Manfred Morgner wrote:
>Wenn ich die Diskussion so betrachte zwingt sich eine Erkenntnis ganz
>deutlich auf: Wirklich relevante Daten soltlen im 7BIT-ASCII-Zeichensatz
>gespeichert werden oder in UTF8.

Das ist ernüchternd. Ist es aber auf dieser Liste so? Hat nun jemand 
hier Probleme, oder etwas dagegen, MIME zu verwenden, den 
Euro-Zeichensatz jedoch nicht?

>Ich glaube schon, dass die Angabe, dass "ä" (also ae) nur dann als "ä"
>gespeichert wird, wenn das Tastaturlayout keine "Ae-Taste enthält.

Alle HTML-WYSIWYG-Programme, die ich kenne, machen aus "ä" "ä", 
nicht "ae".

>Aber das kann doch wohl nicht der Ernst sein? Das bedeutet ja, dass ich mit
>HTML-Dateien immer nur in einer Sprache kommunizieren kann, oder?

Das ist nun das HTML-Problem, das ich immer noch nicht verstehe. Es 
gibt in HTML offenbar die Möglichkeit US-ASCII zu verwenden, und 
Sachen wie "ä" zu verwenden, die nichts mit MIME zu tun haben 
und die eigentlich Sprach-unabhängig sein sollten, *oder* einen 
bestimmten (erweiterten) Zeichensatz zu spezifizieren. Was ist nun 
richtiger? Ich stelle fest, dass die Browser meines aktuellen 
(deutschen) Redhat 8.0 Systems zwar asiatische Websites darstellen 
können, aber bei manchen deutschen Sites mit Umlauten versagen, 
während es mit meiner Mac-Software gerade umgekehrt ist.

At 22:59 Uhr +0100 18.1.2003, Alex Schroeder wrote:
> > Ich denke, an dieser Stelle wird es schon zu kompliziert um es korrekt zu
>> managen. Man sieht ja, dass es bereits heute zu schwierig ist, 
>>solche Angaben
>> wie "ISO8859-1" tatsächlich richtig zu interpretieren.
>
>Nein, eigentlich sollte das ziemlich einfach sein.

Also, ich bin immer noch verwirrt und habe noch keine Antwort auf 
dieser Liste gesehen, die als 100 prozentig authoritiv gelten kann. 
Wir haben offenbar:

1) MIME Kodierungen (Email)
2) Verschiedene Zeichensätze (Email und HTML) (ISO-xxx, Unicode)
3) HTML Kodierung mit ASCII (also "ä" etc)
4) Sprach-System Spezifikation (western, latin-1, etc)

Für mich immer noch ein Durcheinander!

>Aber da gibt es ja auch noch verschiedene Systeme, BIG5, GB2312, etc.  Ach
>und vielleicht willst du Unicode vorschlagen?  Aber da wurde ja die
>Han-Unification durchgeführt, dh. man kann zwischen den
>taiwanesischen, historischen, chinesischen, und japanischen
>Schriftzeichen nicht mehr unterscheiden.

sic!

Auf alle Fälle sind Zeichensätze kein Thema, dass man mit ein paar
Bemerkungen, einer falsch kodierten Digest, oder drei mails auf der
Wilhelm Tux Liste abhandeln könnte.

Nun, das würde ich unterschreiben, Alex, aber deine fachliche 
Auskunft ist mir leider schon etwas zu hoch. Ich werde auf 
"Zeichensatz-Kodierungen für Dummies" warten müssen!

Theo Schmidt

PS Ich habe bei meinen Knoppix-Brenn-Experimenten einige Knoppix CDs 
produziert, die perfekt funktionieren, ausser dass sie sich nicht 
ohne Diskette booten lassen. Wer möchte so eine zum reinschauen?