[wilhelmtux-discussion] Umlaute [war: Re: offene standards]

Theo Schmidt tschmidt at mus.ch
Fre Jan 17 12:14:06 CET 2003


At 15:50 Uhr +0100 16.1.2003, Manfred.Morgner at gmx.net wrote:
> > Mein Aufruf deshalb: liest hier jemand mit, der hier wirklich
>> dahinter sieht und klar sagen kann, was zu tun ist?
>
>Ja, ich. Wir können uns die Sache nächste Woche mal ansehen.

Super! Ich schreibe meine Antwort aber schon heute, wollte eigentlich 
privat, da hier etwas OT, aber dann kam noch das Mail von Dietrich, 
dass mir zeigt, dass das Problem hier doch relevant ist.

>Wenn Du ein englische lokalisiertes Linux benutzt, wird es zur Anzeigen
>einer HTML-Seite, in ein deutsch lokalisiertes "ä" steht, aber keine 
>Font-Gruppe,
>nur Schrott anzeigen. Benutzt Du aber ein deutsch lokalisiertes Linux oder
>einen deutsch lokalisierten Browser (!), so kann er das "ä" trotzdem richtig
>anzeigen weil an der Stelle im Zeichensatz, wo das "ä" stehen sollte auch
>wirklich eins steht.

Es scheint mir, wir haben sogar 4 Problem-Bereiche:

1) Sonderzeichen in Email-Text
2) Sonderzeichen in HTML-Email
3) Sonderzeichen in HTML auf WWW
4) Sonderzeichen in Dokumenten

>Ich bin der gleichen Meinung wie Dieter: "ä" ist schlecht.
>
>Persönlich tendiere ich dazu, dass Problem mit "ae" zu loesen ;-).

Das ist sicher eine Loesung, aber auch ein Zugestaendnis an die 
angelsächische Welt, die keine Sonderzeichen nötig hat. In 
Linux-Kreisen ist HTML-Email verpönt, weil in nicht-HTML Browsern 
kaum lesbar. Ist es richtig, aus demselben Grund die Email-Kodierung 
von Sonderzeichen abzulehnen? Diese heisst bei mir MIME, obwohl MIME 
eigentlich für Datei-Formate zustaendig ist, und nicht nur für die 
Kodierung von Sonderzeichen in Email-Text. Ist es so, dass nicht 
jedes Mail-Programm diese MIME-Kodierung beherrscht, oder ist es 
einfach so, dass dieses bei vielen Leuten nicht eingeschaltet ist?

Kleiner Test: wer kann diese Umlaute "äöüéàè" hier *nicht* lesen *und 
hat* MIME eingeschaltet?


At 18:11 Uhr +0100 16.1.2003, Dietrich Feist wrote:
> > Ein deutsches OE auf einem deutschen Windows sendet ein "”" in einer
>> HTML-Email als "”". Damit kann nat¸rlich niemand etwas anfangen. Ein
>> englisches OE auf einem englischen Windows, sendet ein "”" als
>> "ä", was HTML-Anzeigemodule richtig interpretieren k–nnen wenn
>> sie den Zeichensatz richtig ausw”hlen und (Voraussetzung) ¸berhaupt
>> ein geeigneter Zeichensatz verf¸gbar ist.
>
>Verstehe ich nicht. Wenn es in diesem Fall Probleme gibt, dann liegt das
>ausschliesslich an fehlerhaft arbeitenden Applikationen.

Ja, schon, aber welche sind die Fehlerhaften? Dein Mailer, mein 
Mailer, dein Betriebssystem, mein Betriebssystem, die Mailing-List 
Software, die Provider-Software?

>Auch bei reinen Textmails sollte im Mailheader der Zeichensatz der
>Nachricht angegeben sein. Dann gibt es keine nachvollziehbaren Probleme
>mit "”". Its nichts angegeben, dann gilt US-ASCII als Default. Dann sind
>aber sowieso nur 7-Bit-Zeichen erlaubt. Umlaute im Header, z.B. im
>Subject machen grunds”tzlich Probleme, weil im SMTP-Standard keine
>Angabe des Zeichensatzes f¸r Headerangaben vorgesehen ist. Da gilt immer
>US-ASCII mit 7 Bit.

Also, das mit keinen Umlauten im Header ist mir klar. Ich stelle 
weiter fest, dass die allerwenigsten Mailprogramme den Zeichensatz 
angeben, derjenige, den ich jetzt gerade benutze auch nicht (Eudora 
4.2 für Mac). Das Mail von Manfred kam bei mir aus der 
Wilhelmtux-Digest mit *korrekten* Umlauten, mein eigenes auch, aber 
das von Dietrich mit *falschen* Umlauten. Das Mail von Manfred hat im 
Header:

Content-Type: text/plain
Content-Transfer-Encoding: 8bit, mein eigenes hat:

Content-Type: text/plain ; format="flowed"
Content-Transfer-Encoding: 8bit, das von Dietrich hat:

Content-type: text/plain; charset=iso-8859-15
Content-transfer-encoding: 8BIT

Also ist es gerade falsch, den Zeichsatz anzugeben, ausser er sei US-ASCII?

Aber, um es noch komplizierter zu machen: auf der Linuxbourg-Liste 
ist es umgekehrt: da kommen meine Mails, die *hier* bei mir richtig 
zurückkommen, bei anderen Leuten auch richtig, aber bei mir *falsch* 
zurück, aber anders falsch als hier bei Dietrich: Bei Dietrich werden 
die Umlaute mit einem falschen Zeichen ersetzt, bei mir auf 
Linuxbourg werden sie mit Zeichenfolgen ersetzt, und bei jedem 
Zeilenende kommt ein "=". So sieht es normalerweise aus, wenn beim 
Mailer MIME nicht eingeschaltet ist, aber jemand MIME geschickt hat. 
Aber ich habe MIME *doch* eingeschaltet, also ist es bei Linuxbourg 
die Mailsoftware?


>Ansonsten definiert der HTML-Standard klipp und klar, wie man
>Zeichens”tze f¸r HTML-Dokumente angeben muss. Und wenn man das nicht
>tut, dann ist der Defaultwert nicht US-ASCII, sondern ISO-8859-1 f¸r
>HTML 2.0 und ISO/IEC 10646 (alias Unicode) f¸r HTML 4.0 [1]! Mit einem
>"”" solltest Du also in keinem Fall Probleme haben, denn Unicode ist
>eine Obermenge von ISO-8859-1. Wenn es doch Probleme gibt, liegt es
>nicht an der Standarddefinition.

Was ist nun die Standarddefinition für HTML 3 und 4: Kodierungen wie 
"ä" oder Unicode? Und "beissen" sich nicht die zwei Methoden? 
Und wenn eines der Methoden der offizielle Standard ist, ist es 
gerade die andere Methode, die Usus ist? Und was hat das für 
Konsequenzen für die Diskussion um offene Formate?

Warum ich hier diese Diskussion um ein Detail so akribisch führe? Es 
geht hier im Kleinen genau um den Zielkonflikt Freiheit contra 
Kontrolle, der bei der freien Software generell auftaucht und 
letztlich die grosse politische Frage für das Zusammenleben aller 
Menschen darstellt:

Ein "Standard" impliziert ein rigides System, welches von jemand 
bestimmt wird. Ein Standard funktioniert 100 prozentig nur wenn er 
"diktatorisch" oder "monopolistisch" durchgesetzt wird, ist also das 
Gegenteil von Freiheit.

Die totale "Freiheit" impliziert ein Chaos, oder zumindest eben das 
nicht korrekte Funktionieren der Standards, da sich immer jemand 
findet, der die Standards nicht mag und etwas anderes macht (und sei 
der Standard noch so gut und von fast allen anderen freiwillig 
akzeptiert).

Beide Extreme würden bei perfekten Menschen vielleicht funktionieren, 
bei reellen Menschen aber nicht, wie die Geschichte lehrt. Wir 
brauchen also ein Kompromis, der sowohl freie wie diktatorische 
Elemente enthält. Dieser Kompromis mag zwar interessant sein, 
beinhaltet aber zwangsläufig "Störgrössen", die in einer Art 
Regelkreis die Entwicklung steuern.

Das Resultat kann somit nicht perfekt sein, aber es könnte vielleicht 
optimal sein. Aber wie bestimmen wir das Optimum? Um auf das 
Mini-Problem der Umlaute zu kommen, welches System bevorzugen wir, 
damit wir "meistens" unsere Umlaute lesen können, und trotzdem mit 
Angelsachsen kommunizieren können?

Ich finde diese Diskussion spannend, auch wenn sie mehr mit Menschen 
als mit Software zu tun hat. Auf der Lugs-Liste, also der "obersten" 
Linux-Ebene in unserem Land, wird z.B. jemand der HTML oder Umlaute 
verwendet, oder nur falsch quotet, sofort energisch zurechtgewiesen. 
Dafür darf man endlos quatschen. Ich entschuldige mich hier bei 
allen, die bis hier gelesen haben, und nicht das gefunden haben, 
wonach sie suchen.

Theo "Störgrösse" Schmidt