Project Description

Online-Übersetzer sotra für Obersorbisch, Niedersorbisch, Deutsch und Tschechisch

Medieninformationen

Dokumentation zur Entstehung des Online-Übersetzers sotra.app

  • Konzept der Stiftung für das sorbische Volk für die Anwendung der sorbischen Sprache in elektronischen Medien und im Bildungsbereich: „Präsenz der sorbischen Sprache in den Neuen Medien“ (Konzept vom 27.05.2013 – pdf); dessen Bestandteil Übersetzungsprogramme für die ober- und niedersorbische Sprache sind
  • Vereinbarung im Koalitionsvertrag mit der sächsischen Staatsregierung zur Förderung der Digitalisierung der sorbischen Sprache
  • Anregung durch Mitarbeiter von Microsoft im Rahmen einer Weiterbildung zu TEAMS, dass zweisprachige Texte gesammelt werden sollten, da diese für die künftigen digitalen Anwendungen sehr bedeutsam sein würden
  • das WITAJ-Sprachzentrum beginnt nach Möglichkeiten zu suchen, einen sorbisch-deutschen Online-Übersetzer zu realisieren
  • Ziele des digitalen Übersetzungsprogramms:
    • Hilfe für Sorbisch Lernende beim Formulieren von Sätzen
    • Vereinfachung der täglichen Kommunikation
    • Unterstützung des Verstehens in sorbischer Sprache verfasster Texte
    • Unterstützung der Arbeit von Übersetzerinnen und Übersetzern
    • Motivation für Muttersprachler, die sorbische Sprache außerhalb des schulischen Kontextes im gesellschaftlichen Leben schriftlich intensiver anzuwenden
  • Heyer vom Institut für automatische Sprachverarbeitung in Leipzig rät, den Translator Hub von Microsoft zum Übersetzen zu nutzen
  • Helge Schroda von der Firma Microsoft richtet das Projekt für Obersorbisch im Translator Hub ein
  • für den Start des ersten Tests in Translator Hub sind mindestens 10.000 Satzpaare in Deutsch und Sorbisch notwendig
  • Beate Brězan beginnt gemeinsam mit einer Mitarbeiterin zweisprachig vorliegende Texte, zunächst von Webseiten sorbischer Institutionen und Vereine, zu sammeln
  • im Februar hilft eine Ferienjobberin beim Sammeln der Sätze, später als Studentin arbeitet sie auf Honorarbasis am Korpus mit
  • für den ersten Test in Translater Hub sind mindestens 10.000 Satzpaare in Sorbisch und Deutsch notwednig
  • Beate Brězan lädt erste PDF-Dokumente in den Microsoft Translator Hub hoch
  • beim Sorbisch-Stammtisch in Bautzen lernt Beate Brězan den IT-Techniker Olaf Langner kennen, der sich für das Projekt interessiert und sich das System im WITAJ-Sprachzentrum anschaut
  • Olaf Langner verbindet Translator Hub mit dem Azure-Portal, um Trainings für das Übersetzen durchführen zu können
  • nach anfänglichen Problemen der Integration des Obersorbischen auf dem Portal und durch Stefan Behrlas Begleitung der Kommunikation zu Microsoft gelingt Olaf Langner ein erstes Training der obersorbisch-deutschen Daten

  • bei einem Treffen in Bautzen stellt Olaf Langner die aktuelle Entwicklung im Translator Hub der Leitung der Stiftung für das sorbische Volk und weiteren beteiligten Personen der Firma Microsoft und des WITAJ-Sprachzentrums vor
  • der erste Förderantrag für das Projekt wird bei der Stiftung für das sorbische Volk gestellt
  • das Projekt wird zunächst für zwei Jahre durch die Stiftung für das sorbische Volk gefördert
  • die Projektverantwortliche Judith Wjenkec wird durch etliche Honorarkräfte unterstützt, die Parallelsätze korrigieren, übersetzen oder auf Grundlage von Terminologien erstellen
  • Grundlage des Übersetzungsprogramms ist ein bilinguales Korpus zweisprachiger Sätze
  • Lexik und verwendete grammatischen Formen widerspiegeln die Sprache im Alltag, in Medien und Literatur, die Schul- und Fachsprache sowie wissenschaftliche und Rechtssprache
  • besonderes Augenmerk wird darauf gerichtet, dass das Korpus Vokabular aus verschiedensten Bereichen wie Kultur, Geschichte, Musik, Wirtschaft, Politik usw. enthält
  • grammatische und andere Besonderheiten des Obersorbischen, z. B. Dual und doppelte Verneinung, die Vielfalt der Formulierungen und damit verbundene Unterschiede in der Syntax, werden berücksichtigt
  • parallel entstehen ein obersorbisches und ein deutsches monolinguales Korpus, die helfen sollen, typische Muster in den beiden Zielsprachen zu erzeugen, z. B. beim Satzbau
  • die Integration der obersorbischen Sprache ist zu dieser Zeit bei Microsoft aufgrund technischer Innovationen nicht mehr möglich, da für vernünftige Übersetzungen im neu entwickelten neuronalen System eine zu geringe Menge an parallelen Sätzen zur Verfügung steht
  • IT-Experte Olaf Langner, der auf Honorarbasis für das Projekt tätig ist, recherchiert nach Alternativen in Open Source
  • die Ergebnisse der Tests mit dem neuronalen Modell von Google TensorFlow sind nicht zufriedenstellend
  • die Entscheidung fällt auf das statistische Tool MOSES-Decoder und das neuronale Tool OpenNMT (Python), bei denen die Sätze auf vielfältige Weise im Hintergrund analysiert werden, was eine Grundlage für die Übersetzung bildet, die der Nutzer letztlich bekommt
  • Olaf Langner gelingt es, das bisher für Microsoft Translator Hub erarbeitete Material in diese Systeme zu übernehmen
  • Vorteil des Arbeitens und Testens an verschiedenen Programmen ist, dass die Übersetzungen miteinander verglichen werden können, um damit die besten Methoden auszuarbeiten
  • Bernhard Baier, der schon seit der Entwicklung der sorbischen Rechtschreibprüfung (2012) und des morphologischen Generators für das Online-Wörterbuch Soblex Partner des WITAJ-Sprachzentrums ist, programmiert im Dezember die Weboberfläche für den Übersetzer
  • er überlässt und richtet einen Server für das Projekt ein, der zunächst in den privaten Räumlichkeiten von Olaf Langner steht, später wird er in den Räumlichkeiten der Stiftung für das sorbische Volk untergebracht

  • der Stand des Projekts wird am 30. November 2019 auf der Digitalkonferenz in Bautzen vorgestellt
  • die dauerhafte Aufrechterhaltung der Kontakte zur Firma Microsoft führt zur Aussicht, die obersorbische Sprache mit mindestens 250.000 Satzpaaren (damit das System effektiv arbeitet und befriedigende Übersetzungen produziert) in das neuronale System zu integrieren
  • da durch Schwierigkeiten mit dem Paradigmenwechsel bei Microsoft und die Suche nach neuen technischen Möglichkeiten viel Zeit verloren ging, kann der Online-Übersetzer nicht wie geplant am Jahresende der breiten Öffentlichkeit zur Verfügung gestellt werden
  • die Erweiterung des bilingualen Korpus führt weiterhin zur effektivsten Verbesserung der Qualität der Übersetzungen
  • der sorbische Slawist, Sprachaktivist und Wikipedianer Julian Nyča, der seit 2019 auf Honorarbasis an dem Projekt mitarbeitet, wird mit 5 Wochenstunden für das Projekt angestellt
  • für einen internen Nutzerkreis programmiert Olaf Langner zwei Übersetzungsfenster, durch die erste Übersetzungen mithilfe der Verbindung mit der Plattform Microsoft Azure möglich sind
  • Professor Alexander Fraser und sein Team vom Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians-Universität München (LMU) stellt im Rahmen des internationalen Wettbewerbs zwischen mehreren Universitäten zum maschinellen Übersetzen den Teilnehmern auch das bilinguale Korpus deutsch – obersorbisch zur Verfügung: http://statmt.org/wmt20/
  • Dank zusätzlicher Fördermittel und der Mitarbeit weiterer Personen, die parallele Sätze bearbeiten, werden bis Ende 2020 rund 190.000 Sätze gesammelt
  • ein Antrag zur Weiterführung des Projektes wird bei der Stiftung für das sorbische Volk gestellt
  • Bernhard Baier kümmert sich um die Weiterentwicklung und Gestaltung des Übersetzungsprogramms, inoffiziell als „Demonstrator“ bezeichnet, für einen internen Kreis und programmiert eine Webseite für das Übersetzen unter soblex.de/sotra
  • mithilfe des Demonstrators können sich die Mitarbeitenden Texte in beide Sprachen und auf der Grundlage zweier Tools – des statistischen und des neuronalen Systems – übersetzen
  • der Demonstrator ist in mehreren Schritten mit der Online-Version des obersorbischen Rechtschreibwörterbuches Soblex verbunden (nicht übersetzte Wörter können direkt in die Übersetzung eingefügt werden)
  • die Verantwortlichen einigen sich auf den Namen des Übersetzungsprogramms: „sotra“ (so-sorbian + tra-translator)
  • die Webseite des Online-Übersetzers wird ins Obersorbische übersetzt, Logo und Name werden aktualisiert und eine Datenschutzerklärung sowie Impressum werden hinzugefügt
  • ein zweiter Server wird eingerichtet, der die Funktionalität des Online-Übersetzers und seine Stabilität zusätzlich gewährleisten soll
  • die zum Jahresende geplante Präsentation wird aufgrund der Pandemie in das I. Quartal 2021 verschoben, der Termin wird mit dem Sächsischen Staatsministerium für Wissenschaft, Kultur und Tourismus in Dresden (SMWK) abgestimmt
  • für die öffentliche Präsentation des Online-Übersetzers erstellen Judith Wjenkec und Anita Hendrichowa, eine Angestellte des WITAJ-Sprachzentrums, die J. Wjenkec seit Anfang 2020 unterstützt, ein Erklärvideo („Explainity“), in dem Aufbau und Verwendung des ersten sorbischen Übersetzungsprogramms vorgestellt werden: Link zum Explainity
  • Marko Měškank beginnt in der Niederlausitz parallele Sätze zu sammeln und der Antrag zur Förderung des Übersetzungsprogramms für Niedersorbisch wird gestellt
  • es erfolgt eine Einigung u.a. mit der Stiftung für das sorbische Volk, dass Personennamen nicht mehr übersetzt werden sollen
  • neue Funktionen auf der Website:
    • X-Funktion für das Löschen des eingegebenen Textes mit einem Klick
    • neuer Button für das Kopieren der gesamten Übersetzung in die Zwischenablage (Clipboard-Icon)
    • Information über die Zeichenanzahl des Eingabetextes und eine Zeichenbegrenzung auf 3.000 für nicht angemeldete und 6.000 für angemeldete Nutzer
  • in einer Online-Videokonferenz wird das erste Übersetzungsprogramm für Obersorbisch – Deutsch und Deutsch – Obersorbisch vorgestellt und der Öffentlichkeit übergeben (stellvertretend für die Staatsministerin für Wissenschaft, Kultur und Tourismus Barbara Klepsch nimmt Stanisław Brězan online teil und spricht zur Förderung)
  • berichtet wird auf dem großen deutschen IT-Portal de („Sorben bauen sich Machine-Learning-Übersetzer selbst“), in den regionalen Zeitungen Lausitzer Rundschau und Sächsische Zeitung und im deutschsprachigen Programm des MDR sowie auf sozialen Medien wie Facebook und Twitter
  • die sorbische Meme-Seite auf Instagram widmet „sotra“ sogar eine eigene Reihe
  • das Übersetzungsprogramm „sotra“ ist ohne Anmeldung zunächst auf der Seite soblex.de/sotra kostenlos zugänglich
  • es ist verbunden mit dem obersorbisch-deutschen Rechtschreibwörterbuch Soblex, damit die Nutzenden fehlende sorbische Wörter in den Übersetzungen auf einfache Weise ergänzen können
  • eine Studentin der Freien Universität Berlin (FU) beschäftigt sich in ihrer Bachelorarbeit ausführlich mit „sotra“ und führt umfangreiche Interviews mit der Projektgruppe
  • die Förderung des Übersetzungsprogramms für Niedersorbisch wird vorzeitig bewilligt und Marko Měškank beginnt offiziell als Projektverantwortlicher zu arbeiten
  • die Weiterführung des obersorbischen Projekts beginnt mit der vorzeitigen Bewilligung der Förderung bis Ende 2021 durch die Stiftung für das sorbische Volk
  • 18 Honorarkräfte erarbeiten, bearbeiten, übersetzen und korrigieren jetzt parallele Sätze
  • neben der kontinuierlichen Qualitätsverbesserung ist ein weiteres Ziel, mit der Erweiterung der bilingualen Korpora die sorbischen Sprachen in den Microsoft Translator und weitere Übersetzungssysteme wie Google-Translate aufzunehmen
  • die Stiftung für das sorbische Volk bemüht sich um eine Kooperation mit der Ludwig-Maximilians-Universität (LMU) in München, weil verschiedene Prozesse sehr viel Rechenkapazität erfordern, die dem WITAJ-Sprachzentrum nicht in dem Maße zur Verfügung steht wie Universitäten
  • auf Wunsch der Obersorbischen Sprachkommission wird in das rechte Fenster ein Hinweis eingefügt, dass sotra ein Übersetzungssystem ist, das noch weiterentwickelt wird und dass es notwendig ist, dass Nutzende die Übersetzungen überprüfen und gegebenenfalls korrigieren
  • die neue Funktion „Kontakt/Feedback“ führt die Nutzenden zu einer E-Mail, mit Hilfe derer Nachrichten mit Hinweisen oder Anmerkungen dem sotra-Team übermittelt werden können
  • die Nutzenden können mit dem neuen Button „Text spenden“ eine Weitergabe der Übersetzung erlauben; so lassen sich Fehler in den übersetzten Texten analysieren und fehlendes Vokabular im Korpus feststellen, mit dem Ziel, das Textkorpus zu erweitern und die Qualität der Übersetzungen kontinuierlich zu verbessern
  • „sotra“ bekommt eine gekürzte eigene Webadresse app 
  • als besonderer Service wird den Nutzenden nun auch eine integrierte sorbische Rechtschreibkontrolle angeboten, um die eingegebenen Texte bereits vor der Übersetzung kontrollieren und berichtigen zu können
  • mithilfe des neuen Buttons „abc“ über dem linken Fenster lässt sich die Rechtschreibkontrolle ein- und ausschalten
  • eine neue Funktion im Hamburger-Menü ermöglicht es, die Webseite im augenschonenden „Dark Mode“ zu nutzen

 

  • aufgrund des Unterschieds bei der Verneinung im Deutschen (einfache Verneinung) und Sorbischen (doppelte Verneinung) und den damit verbundenen Fehlern in der Übersetzung wird bei diesbezüglich relevanten Sätzen ein besonderer Hinweis im übersetzten Text angezeigt
  • da die Nutzenden immer wieder einzelne Wörter zu übersetzen versuchen und durch den fehlenden Kontext die Endungen nicht richtig übersetzt werden, erscheint die Information, dass für das Übersetzen einzelner Wörter Soblex verwendet werden sollte
  • Alexander Fraser von der LMU München verfasst zusammen mit seinem Doktoranden Dario Stojanovski im Auftrag der Stiftung für das sorbische Volk ein Gutachten und ein Angebot, wonach verschiedene Methoden experimentell angewendet werden sollten, um auf der Grundlage der Ergebnisse das weitere Vorgehen koordinieren zu können
  • die Anzahl der Zeichen, die mit einem Klick übersetzt werden können, wird auf 6.000 für nicht angemeldete und 16.000 für angemeldete Nutzende erhöht
  • die Kommunikation mit Prof. Alexander Fraser (LMU) über die Evaluation von Dr. Dario Stojanovski sowie die Vorbereitung und Vermittlung benötigter Daten und Absprachen für die Optimierung neuronaler Modelle wird weitergeführt
  • Dario Stojanovski untersucht verschiedene sogenannte Frameworks für Übersetzungen mit neuronalen Systemen, forscht nach weiteren Methoden wie Back Translation (Rückübersetzung) und testet die Kombination mit tschechischen und polnischen Sprachmodellen und Textkorpora für optimale Übersetzungen
  • auf der Grundlage dieser Resultate entscheiden sich Olaf Langner und Marko Měškank für das neuronale System Fairseq
  • Ende 2021 beinhaltet das zweisprachige Parallelkorpus 265.200 parallele Sätze
  • zum Tag der Muttersprache integriert Microsoft, einer der großen internationalen Konzerne, Obersorbisch als erste Minderheitensprache in Deutschland in das Übersetzungsprogramm Bing-Translator, in die Translator-App und in weitere Office-Programme

  • sorbische Texte können nun neben dem Deutschen in und aus über hundert anderen Sprachen übersetzt werden
  • ebenso ist es möglich, in Word ganze Dokumente auf einmal und im gleichen Format zu übersetzen

 

  • auch in anderen Anwendungen von Microsoft, wie Office 365 oder Translator-App, sind Übersetzungen z. B. fotografierter Dokumente ins Obersorbische möglich

Beitrag im Blog Microsoft          Link auf den Beitrag in der SZ

  • unter sotra.app wird ein neuer Menüpunkt FAQ für häufig gestellte Fragen und Problemlösungen erstellt

  • das neuronale System Fairseq wird allgemein zugänglich für sotra.app übernommen
  • durch die Umstellung vom bisherigen statistischen auf das neuronale Übersetzungssystem ist die Übersetzungsqualität deutlich gestiegen; die Übersetzungen sind der natürlichen Sprache näher
  • deutliche Verbesserung zeigt sich auch beim Übersetzen aus dem Deutschen ins Sorbische, da nun die bisherigen Probleme mit der Negation oder falschen Endungen kaum noch erscheinen
  • das neuronale System stützt sich zusätzlich zu den zweisprachigen Korpora auch auf umfangreiche einsprachige Textdaten aus beiden Sprachen
  • die modernisierte Benutzeroberfläche der Seite ist übersichtlicher und moderner
  • die neue Funktion „separates Dokument“ ermöglicht es, den eingegebenen Text und die Übersetzung sofort in ein Word-Dokument umzuwandeln und dort entweder im Blocktext oder in einer Tabelle weiter zu bearbeiten

  • im RBB-Magazin „Łužyca“ wird das Übersetzungsprogramm „sotra“ für die Sprachrichtungen Niedersorbisch – Deutsch und Deutsch – Niedersorbisch vorgestellt und der Öffentlichkeit übergeben
  • zugleich steht eine automatische Übersetzung zwischen Niedersorbisch und Obersorbisch zur Verfügung
  • das niedersorbisch-deutsche Korpus entstand u. a. in Kooperation mit dem Sorbischen Institut, das aus zwei Wörterbüchern Sätze zur Verfügung stellte, und umfasst 90.000 niedersorbisch-deutsche Satzpaare und 70.000 niedersorbisch-obersorbische Satzpaare
  • ein zusätzlicher Button mit zwei Pfeilen ermöglicht das einfache Ändern der Übersetzungsrichtung

 

  • sotra kann nun zum direkten Übersetzen von Webseiten genutzt werden, dazu kann eine Browsererweiterung im Webstore kostenlos heruntergeladen werden
  • die Funktion wurde vom 14-jährigen Schüler des Sorbischen Gymnasiums Bautzen, Karl Baier aus Panschwitz-Kuckau, programmiert
  • die Browser-Erweiterung zur direkten Übersetzung markierter Sätze auf Webseiten ist in den Browsern Edge und Chrome einfach zugänglich
  • für eine Übersetzung markiert man den entsprechenden Text auf der Seite, wählt mit einem Klick auf die rechte Maustaste „übersetzen“ und schon erscheint die Übersetzung in einem separaten Fenster über dem Originaltext
  • der Link auf die Browsererweiterung ist auch in der Fußzeile bei sotra.app zu finden
  • die browserbasierte Rechtschreibprüfung ist im Programm integriert und ermöglicht es, Texte vor dem Übersetzen zu kontrollieren
  • Ende 2022 beinhaltet das zweisprachige Parallelkorpus 343.800 parallele Sätze
  • Arbeitsgespräch bei der Firma Microsoft in Berlin: es wird erörtert, wie der Service für Nutzerinnen und Nutzer von Microsoft-Programmen in nieder- und obersorbischer Sprache erweitert werden kann und was Priorität haben sollte
  • Orientierung bieten dabei typische Szenarien, wie zum Beispiel:
    • Deutschsprachige Eltern wollen wissen, was im sorbischen Lehrbuch ihrer Kinder steht. Nach dem Fotografieren der sorbischen Seite mit dem Smartphone sollte sofort die Übersetzung ins Deutsche erfolgen und vorgelesen werden. Sorbische Eltern wollen eher, dass die Microsoft Translator App ihr gesprochenes Wort versteht und in einen Text umwandelt, sodass sie eine Nachricht an die Schule, wie z. B. eine Krankmeldung, sofort abschicken können.
    • Mitarbeitende sorbischer Institutionen und öffentlicher Behörden, die täglich mit Microsoft Office arbeiten und deutsche wie sorbische Texte verwenden, sollten sich auf die automatische Spracherkennung und den einfachen Zugang zu Übersetzungen verlassen können.
    • Professionellen Übersetzenden sollte es möglich sein, das Übersetzungsprogramm selbstständig auf bestimmte Themen und Fachbegriffe zu trainieren.
  • zum Tag der Muttersprache erfahren wir, dass Microsoft beabsichtigt, so bald wie möglich auch eine maschinelle Übersetzung für Niedersorbisch anzubieten
  • sorbische Fachleute überprüfen die Qualität des Modells in Testübersetzungen
  • als zweite Minderheitensprache in Deutschland integriert Microsoft nun auch Niedersorbisch in das Übersetzungsprogramm Bing-Translator, in die Translator-App und in weitere Programme wie z. B. Word, PowerPoint, Excel und Outlook
  • Tschechisch wird zusätzlich als Beta-Version bei sotra.app integriert