[wilhelmtux-discussion] Umlaute [war: Re: offene standards]
Theo Schmidt
tschmidt at mus.ch
Fre Jan 17 12:14:06 CET 2003
At 15:50 Uhr +0100 16.1.2003, Manfred.Morgner at gmx.net wrote:
> > Mein Aufruf deshalb: liest hier jemand mit, der hier wirklich
>> dahinter sieht und klar sagen kann, was zu tun ist?
>
>Ja, ich. Wir können uns die Sache nächste Woche mal ansehen.
Super! Ich schreibe meine Antwort aber schon heute, wollte eigentlich
privat, da hier etwas OT, aber dann kam noch das Mail von Dietrich,
dass mir zeigt, dass das Problem hier doch relevant ist.
>Wenn Du ein englische lokalisiertes Linux benutzt, wird es zur Anzeigen
>einer HTML-Seite, in ein deutsch lokalisiertes "ä" steht, aber keine
>Font-Gruppe,
>nur Schrott anzeigen. Benutzt Du aber ein deutsch lokalisiertes Linux oder
>einen deutsch lokalisierten Browser (!), so kann er das "ä" trotzdem richtig
>anzeigen weil an der Stelle im Zeichensatz, wo das "ä" stehen sollte auch
>wirklich eins steht.
Es scheint mir, wir haben sogar 4 Problem-Bereiche:
1) Sonderzeichen in Email-Text
2) Sonderzeichen in HTML-Email
3) Sonderzeichen in HTML auf WWW
4) Sonderzeichen in Dokumenten
>Ich bin der gleichen Meinung wie Dieter: "ä" ist schlecht.
>
>Persönlich tendiere ich dazu, dass Problem mit "ae" zu loesen ;-).
Das ist sicher eine Loesung, aber auch ein Zugestaendnis an die
angelsächische Welt, die keine Sonderzeichen nötig hat. In
Linux-Kreisen ist HTML-Email verpönt, weil in nicht-HTML Browsern
kaum lesbar. Ist es richtig, aus demselben Grund die Email-Kodierung
von Sonderzeichen abzulehnen? Diese heisst bei mir MIME, obwohl MIME
eigentlich für Datei-Formate zustaendig ist, und nicht nur für die
Kodierung von Sonderzeichen in Email-Text. Ist es so, dass nicht
jedes Mail-Programm diese MIME-Kodierung beherrscht, oder ist es
einfach so, dass dieses bei vielen Leuten nicht eingeschaltet ist?
Kleiner Test: wer kann diese Umlaute "äöüéàè" hier *nicht* lesen *und
hat* MIME eingeschaltet?
At 18:11 Uhr +0100 16.1.2003, Dietrich Feist wrote:
> > Ein deutsches OE auf einem deutschen Windows sendet ein "”" in einer
>> HTML-Email als "”". Damit kann nat¸rlich niemand etwas anfangen. Ein
>> englisches OE auf einem englischen Windows, sendet ein "”" als
>> "ä", was HTML-Anzeigemodule richtig interpretieren k–nnen wenn
>> sie den Zeichensatz richtig ausw”hlen und (Voraussetzung) ¸berhaupt
>> ein geeigneter Zeichensatz verf¸gbar ist.
>
>Verstehe ich nicht. Wenn es in diesem Fall Probleme gibt, dann liegt das
>ausschliesslich an fehlerhaft arbeitenden Applikationen.
Ja, schon, aber welche sind die Fehlerhaften? Dein Mailer, mein
Mailer, dein Betriebssystem, mein Betriebssystem, die Mailing-List
Software, die Provider-Software?
>Auch bei reinen Textmails sollte im Mailheader der Zeichensatz der
>Nachricht angegeben sein. Dann gibt es keine nachvollziehbaren Probleme
>mit "”". Its nichts angegeben, dann gilt US-ASCII als Default. Dann sind
>aber sowieso nur 7-Bit-Zeichen erlaubt. Umlaute im Header, z.B. im
>Subject machen grunds”tzlich Probleme, weil im SMTP-Standard keine
>Angabe des Zeichensatzes f¸r Headerangaben vorgesehen ist. Da gilt immer
>US-ASCII mit 7 Bit.
Also, das mit keinen Umlauten im Header ist mir klar. Ich stelle
weiter fest, dass die allerwenigsten Mailprogramme den Zeichensatz
angeben, derjenige, den ich jetzt gerade benutze auch nicht (Eudora
4.2 für Mac). Das Mail von Manfred kam bei mir aus der
Wilhelmtux-Digest mit *korrekten* Umlauten, mein eigenes auch, aber
das von Dietrich mit *falschen* Umlauten. Das Mail von Manfred hat im
Header:
Content-Type: text/plain
Content-Transfer-Encoding: 8bit, mein eigenes hat:
Content-Type: text/plain ; format="flowed"
Content-Transfer-Encoding: 8bit, das von Dietrich hat:
Content-type: text/plain; charset=iso-8859-15
Content-transfer-encoding: 8BIT
Also ist es gerade falsch, den Zeichsatz anzugeben, ausser er sei US-ASCII?
Aber, um es noch komplizierter zu machen: auf der Linuxbourg-Liste
ist es umgekehrt: da kommen meine Mails, die *hier* bei mir richtig
zurückkommen, bei anderen Leuten auch richtig, aber bei mir *falsch*
zurück, aber anders falsch als hier bei Dietrich: Bei Dietrich werden
die Umlaute mit einem falschen Zeichen ersetzt, bei mir auf
Linuxbourg werden sie mit Zeichenfolgen ersetzt, und bei jedem
Zeilenende kommt ein "=". So sieht es normalerweise aus, wenn beim
Mailer MIME nicht eingeschaltet ist, aber jemand MIME geschickt hat.
Aber ich habe MIME *doch* eingeschaltet, also ist es bei Linuxbourg
die Mailsoftware?
>Ansonsten definiert der HTML-Standard klipp und klar, wie man
>Zeichens”tze f¸r HTML-Dokumente angeben muss. Und wenn man das nicht
>tut, dann ist der Defaultwert nicht US-ASCII, sondern ISO-8859-1 f¸r
>HTML 2.0 und ISO/IEC 10646 (alias Unicode) f¸r HTML 4.0 [1]! Mit einem
>"”" solltest Du also in keinem Fall Probleme haben, denn Unicode ist
>eine Obermenge von ISO-8859-1. Wenn es doch Probleme gibt, liegt es
>nicht an der Standarddefinition.
Was ist nun die Standarddefinition für HTML 3 und 4: Kodierungen wie
"ä" oder Unicode? Und "beissen" sich nicht die zwei Methoden?
Und wenn eines der Methoden der offizielle Standard ist, ist es
gerade die andere Methode, die Usus ist? Und was hat das für
Konsequenzen für die Diskussion um offene Formate?
Warum ich hier diese Diskussion um ein Detail so akribisch führe? Es
geht hier im Kleinen genau um den Zielkonflikt Freiheit contra
Kontrolle, der bei der freien Software generell auftaucht und
letztlich die grosse politische Frage für das Zusammenleben aller
Menschen darstellt:
Ein "Standard" impliziert ein rigides System, welches von jemand
bestimmt wird. Ein Standard funktioniert 100 prozentig nur wenn er
"diktatorisch" oder "monopolistisch" durchgesetzt wird, ist also das
Gegenteil von Freiheit.
Die totale "Freiheit" impliziert ein Chaos, oder zumindest eben das
nicht korrekte Funktionieren der Standards, da sich immer jemand
findet, der die Standards nicht mag und etwas anderes macht (und sei
der Standard noch so gut und von fast allen anderen freiwillig
akzeptiert).
Beide Extreme würden bei perfekten Menschen vielleicht funktionieren,
bei reellen Menschen aber nicht, wie die Geschichte lehrt. Wir
brauchen also ein Kompromis, der sowohl freie wie diktatorische
Elemente enthält. Dieser Kompromis mag zwar interessant sein,
beinhaltet aber zwangsläufig "Störgrössen", die in einer Art
Regelkreis die Entwicklung steuern.
Das Resultat kann somit nicht perfekt sein, aber es könnte vielleicht
optimal sein. Aber wie bestimmen wir das Optimum? Um auf das
Mini-Problem der Umlaute zu kommen, welches System bevorzugen wir,
damit wir "meistens" unsere Umlaute lesen können, und trotzdem mit
Angelsachsen kommunizieren können?
Ich finde diese Diskussion spannend, auch wenn sie mehr mit Menschen
als mit Software zu tun hat. Auf der Lugs-Liste, also der "obersten"
Linux-Ebene in unserem Land, wird z.B. jemand der HTML oder Umlaute
verwendet, oder nur falsch quotet, sofort energisch zurechtgewiesen.
Dafür darf man endlos quatschen. Ich entschuldige mich hier bei
allen, die bis hier gelesen haben, und nicht das gefunden haben,
wonach sie suchen.
Theo "Störgrösse" Schmidt