[wilhelmtux-discussion] Re: Linux rumantsch

Sascha Brawer brawer at dandelis.ch
Thu Nov 13 11:01:57 CET 2003


Sali Florian, hallo Liste,

> - Somit wurde geäussert, dass ein rm-Rechtschreib-Korrektur-Programm 
> durchaus nützlich wäre.
> - Ein rm-Rechtschreibkorrektur-Programm wäre gar nicht so unnützlich auch
> wenn die Benutzeroberfläche noch nicht übersetzt ist...

Für jemanden, der über Erfahrung mit Sprachtechnologie verfügt, wäre es
vermutlich durchaus machbar, eine romanische Rechtschreibkorrektur für
"ispell" oder "myspell" zu bauen. ("myspell" ist das Korrektur-Programm
von OpenOffice). Dies allerdings nur unter der Voraussetzung, dass hierzu
linguistische Ressourcen wie z.B. das "Pledari Grond" verwendet werden
dürften.

Ich wäre an einem solchen Projekt sehr interessiert, und ich glaube auch,
aufgrund meiner Ausbildung und Berufserfahrung in der maschinellen
Sprachverarbeitung dazu in der Lage zu sein. Allerdings würde ein
derartiges Projekt (leider) eindeutig den Rahmen dessen überschreiten,
was ich mir als unbezahlte Freiwilligenarbeit leisten kann. Bestünden
denn realistische Chancen, ein Projekt für eine romanische
Rechtschreibkorrektur zu finanzieren? Ein detailliertes Konzept inkl.
Kostenschätzung würde wohl etwa sechs bis acht Arbeitstage Aufwand
bedeuten. Vorgängig müsste ich mich ernsthaft in die Morphologie und
Syntax des Romanischen einlesen, was ich aber nicht verrechnen würde.

> [Verarbeiten grosser Textsammlungen]
> (Ich würde Zeitweise meine 3 GHz und einen Teil der 400 GB zur Verfügung
> stellen ;-))  )

Die Rechenleistung ist hier eigentlich kein grosses Problem.

Vermutlich würde man die Wortstämme mitsamt Deklinations-/
Konjugationsklasse aus einer Datenbank nehmen können. Die grossen
Textsammlungen würden bei einer reinen Rechtschreibkorrektur (die "rote
Wellenlinie" bei Microsoft Word) wohl nur zum Testen benötigt. Dieses
automatisierte Testen ist aber sehr wichtig, denn es ist ärgerlich, wenn
korrekte Wörter als falsch markiert werden.

Bei einer Grammatikkorrektur ("grüne Wellenlinie") sind aber für manche
Verfahren sehr umfangreiche Korpora notwendig. Stochastische
Sprachmodelle, die zur Zeit in der Sprachverarbeitung recht beliebt sind,
müssen anhand grosser Textmengen trainiert werden, sonst sind sie
vollkommen unbrauchbar. Aber auch die traditionellen Methoden, die rein
symbol-orientiert vorgehen (d.h. mit Grammatiken, die von Linguisten
geschrieben wurden), können anhand grosser Textsammlungen verbessert
werden. Beispielsweise gibt es Algorithmen, um automatisch die
Subkategorisierungsrahmen von Verben zu bestimmen. (Der
Subkategorisierungs- oder Valenzrahmen besagt, dass z.B. beim deutschen
Verb "glauben" ein Dativobjekt stehen darf, bei "lieben" aber nicht; "ich
glaube Dir" ist korrekt, "ich liebe Dir" nicht). Diese halb-automatischen
Verfahren sind nicht sehr zuverlässig, aber sie können die Arbeit der
Linguisten stark erleichtern.


>- Als erste Feststellung kam, dass es schwer ist, unter Microsoft's XP
> [wahrscheinlich Outlook], rätoromanische eMails zu schreiben, da das Recht-
> schreib-Programm (wahrscheinlich sogar aktiv) sogenannte Fehler korrigiert
> und zwar ins Französische.

Sollte Microsoft die Schnittstelle für die Rechtschreibkorrektur
offengelegt haben, könnte man auch in Betracht ziehen, ein entsprechendes
Modul zu schreiben. Möglich ist vieles :-)

Trotz aller Sorgfalt ist übrigens beim heutigen Stand der Technik nicht
zu vermeiden, dass eine automatische Korrektur Wörter und Sätze als
fehlerhaft markiert, die eigentlich korrekt wären. (Der umgekehrte Fall
tritt erst recht ein, aber das stört weniger). Besteht denn eigentlich
nicht die Gefahr, dass eine fehlerhafte Korrektur den romanischen
Sprachgebrauch verfälschen würde? Angeblich beeinflusst Microsoft Word ja
den deutschen Sprachgebrauch viel stärker als die Duden-Redaktion; aber
wie will man so eine Behauptung verifizieren? Ich könnte mir aber schon
vorstellen, dass eine automatische Korrektur (gestochen ausgedrückt) eine
quasi-normative Definitionsgewalt über die Sprache erhält.

>- Es herrschte +- die einstimmige Meinung, dass es in Rumantsch Grischun 
> (RG) übersetzt werden soll - und nicht ein Mix von Idiomen (und um für
> alle Idiome Übersetzungen anzubringen wäre der Aufwand zu gross).

Es wäre niemandem verboten, ein Programm in sein eigenes Idiom zu
übersetzen. Die "Freiheit" bei freier Software ist ja gerade, dass jeder
das ausdrückliche Recht besitzt, die Programme nach eigenem Belieben
anzupassen.

> Was ist der Faktor, der die romanische Sprache immer mehr verdrängt ?
> Es ist ziemlich eindeutig die Computer-Welt (was auch für das Deutsche
> gilt...).
> ALSO WIESO DAS PROBLEM NICHT AN DER WURZEL ANPACKEN ??

Im Kontext der WSIS-Aktivitäten von Wilhelm Tux habe ich mehrmals von
Leuten aus der Entwicklungszusammenarbeit gehört, dass die Computer-Welt
ein Problem für viele Sprachen sei, weil das Englische so sehr dominiere.
Ehrlich gesagt sehe ich dieses Argument nur zum Teil ein: Der Computer
hilft ja auch, die Kosten zu senken. Es ist heute gerade wegen der
Informationstechnologie einiges billiger als noch vor zehn Jahren, einen
Text in einer "exotischen" Sprache verfügbar zu machen.

Auch zeigen die Linux-Übersetzungs-Projekte für Sprachen wie Sami,
Gälisch, Venda, usw., dass der Computer durchaus auch eine Chance
darstellen kann, einer Sprache neue Anwendungsbereiche zu eröffnen. Aber
vieleicht sollte ich mich als Aussenstehender besser nicht in diese
Diskussion einmischen.


>- Ich denke, dass es wirklich unabwendbar ist, zuerst die Fachterminologie
> fest zu legen, und erst dann mit der eigentlichen Übersetzung zu beginnen.
> Dann _muss_ man gewährleisten, dass die Übersetzer/innen Zugriff auf die
> Liste der festgelegten Fachterme hat und auch in kenntnis darüber sind,
> dass solche überhaupt festgelegt wurden (existieren).
>- Es ist mir klar, dass der Aufwand eines solchen Projektes enorm ist,
> jedoch finde ich ihn nicht unnützlich. Bzw. finde ich nicht, dass das
> "Kosten-Nutzen-Verhältnis" zu gross ist, um das Projekt als 'nicht
> realistisch' zu "schubladisieren".

Ich denke, dass es falsch wäre, sich ein solches Projekt allzu statisch
vorzustellen. Anders als bei einem Buch, bei dem eine halbfertige
Übersetzung nichts bringt, stört es bei einem Betriebssystem nicht so
sehr, wenn erst die drei wichtigsten Programme übersetzt worden sind.

Auch kann die Übersetzung jederzeit kostenlos nachgebessert werden. Man
müsste sich sogar darauf einstellen, dass bereits übersetzte Programme
immer wieder überarbeitet werden müssen -- denn es werden ja laufend neue
Versionen der Programme freigegeben. Diese enthalten jeweils oft neue,
noch nicht übersetzte Texte. (Es existieren gute Werkzeuge, um die neu
hinzugekommenen Teile schnell zu finden; diese Abläufe sind allgemein
erprobt).

Ich könnte mir auch vorstellen, dass die Terminologie-Arbeit ein
spannendes Thema für eine Arbeitswoche oder einen Präferenz-/
Leistungskurs in der Mittelschule wäre.  In einer ersten Phase würde die
Klasse technische Fachausdrücke für Englisch, Deutsch, Italienisch und
ggf. andere relevante Sprachen aus einigen auf Papier ausgedruckten .po-
Dateien zusammentragen, noch ohne sie zu verstehen. Diese Liste (die
durchaus auch mit Karteikärtchen erstellt werden könnte) wäre die
Grundlage für die zweite Phase, in welcher neue romanische Begriffe
(Neologismen) vorgeschlagen würden. Die Informatiklehrerin müsste jeweils
kurz erklären, was mit dem Begriff gemeint ist; der Romanischlehrer
diskutiert den Begriff. Einige Begriffe müsste man vorgängig
heraussortieren, weil sie zu schwierig sind ("virtueller Speicher"), aber
die überwiegende Zahl der Ausdrücke ("Kursivschrift", "Option",
"Treiber", "freigeben" [to release]) wären wohl schnell erklärt. Wenn
genügend Zeit vorhanden ist, könnte man in einer dritten Phase mit einer
beliebigen Textverarbeitung die .po-Dateien ins Romanische übersetzen.
Erst für den letzten Schritt, das Einbinden der .po-Dateien ins Programm,
wären spezielle Fertigkeiten vonnöten (aber das könnte gut extern
erfolgen). Die Klasse würde hierbei vor allem für Sprachen, aber auch für
Informatik ein vertieftes Verständnis erlangen, und am Ende käme erst
noch etwas konkret Brauchbares dabei heraus. Dies nur als wilder Vorschlag...


> Sind die Sub-Typen in Bsp: 'rm_CH' das 'CH' von IANA (o.ä.) schon 
> festgelegt? Oder könnten wir da wählen, was wir wollen?
> [rm_RG für Rumantsch Grischun, rm_LV (ladin vallader), ...]
> Ev: nicht vergessen, das mit dem Romanischen in den Dolomiten 
> abzusprechen !

rm_CH steht für "die in der Schweiz (CH) verwendete Variante des Räto-
Romanischen (rm)". Es ist wohl eine recht gewagte Annahme, dass sich
Landes- mit Sprachgrenzen decken. Aber so ist es nun mal festgelegt, und
deswegen würde "rm_LV" das in Litauen verwendete Räto-Romanisch
bezeichnen. :-)

Immerhin könnte man es wohl einigermassen vertreten, "rm_CH" für
Rumantsch Grischun zu benutzen, weil Dolomiten-Ladinisch und Friaulisch
nicht in der Schweiz verwendet werden (stimmt das?).

Beim betreffenden POSIX-Standard ist es auch vorgesehen, Sub-Varianten
von Sprachen zu definieren. Beispielsweise wurde dies verwendet, um ins
Serbische übesetzte Programme sowohl in lateinischer als auch in
kyrillischer Schrift bereitzustellen (sr_YU und sr_YU at cyrillic).  Ich
weiss nicht, ob sich lateinisch geschriebenes Serbisch und Kroatisch
(hr_HR) gross voneinander unterscheiden, aber die Abgrenzung von Sprachen
ist eben oft auch eine politische Angelegenheit...

Vermutlich könnte man ein "rm_CH at puter" definieren.  Vielleicht hat man
sich zur Bedeutung von "rm" bei ISO 639 auch schon bei der Lia
Rumantscha, beim Schweizerischen Normenverband oder anderswo Gedanken
gemacht? GNU/Linux unterstützt übrigens auch selbst-definierte
Sprachnamen, also z.B. "x-rm-puter_CH".


>achje... jetzt schreibe ich auch schon so lange Mails - hab ich mich 
>angesteckt ?

Auch meine Mails werden immer länger. Das Thema ist halt nicht ganz trivial...

Noch drei konkrete Fragen zum Locale-File, das ich in der letzten Mail
verschickt hatte:

(a) Sind die enthaltenen Texte (Anreden, Wochentage, usw.) fehlerfrei?

(b) Wie sind Daten und Adressen aufgebaut? (Vgl. "12, rue de la gare" vs.
"Bahnhofstrasse 12")

(c) Wie werden romanische Texte geschrieben, wenn keine Akzente zur
Verfügung stehen? (Auf Deutsch wird ja z.B. "ü" zu "ue", auf Italienisch
"è" zu "e'").

Viele Grüsse

-- Sascha

Sascha Brawer, brawer at dandelis.ch, http://www.dandelis.ch/people/brawer/ 





More information about the wilhelmtux-discussion mailing list