Das Übersetzungsprogramm unter https://sotra.app arbeitet mit einem neuen Modell für die Richtung Deutsch – Obersorbisch.

Für die Nutzerinnen und Nutzer bedeutet das, dass sie meist eine qualitativ bessere Übersetzung erhalten werden als bisher. Neben weniger Grammatikfehlern und Auslassungen können die Nutzer jetzt einen breiteren und passenderen Wortschatz erwarten. Hier ein paar Beispiele (jeweils hier mit sinngemäßer deutscher Übersetzung):

 

Satz für Übersetzung: Sie haben ihr Ehegelübde erneuert.

Das alte Modell übersetzt: Sie haben ihre Eheübung neu gemacht.

Das neue Modell übersetzt: Sie haben ihr Ehegelübde erneuert.

 

Satz für Übersetzung: Sie zeigte am Eingang ihren Schwerbehindertenausweis.

Das alte Modell übersetzt: Sie zeigte am Eingang ihren schwerbehinderten Ausweis.

Das neue Modell übersetzt: Sie zeigte am Eingang ihren Ausweis für Schwerbehinderte.

 

Satz für Übersetzung: Der Reifen lässt immer wieder Luft.

Ein altes Modell übersetzt: Der Reifen gibt immer wieder Atem.

Das neue Modell übersetzt: Der Reifen lässt immer wieder Luft.

 

Trotz aller Verbesserungen bleibt der Grundsatz: Die Verantwortung für die Qualität der Übersetzung haben die Nutzerinnen und Nutzer, die sotra.app ist nur eine Hilfe.

Die Qualität der Übersetzungen ist umso besser, je mehr Kontext einzelne Wörter haben. Geben Sie deshalb immer Sätze mit mindestens fünf Worten ein.

Wenn die Qualität eines Übersetzungsprogramms bereits recht hoch ist, sind alle weiteren Qualitätssteigerungen immer anspruchsvoller und mit größerem Rechenbedarf verbunden. Das aktuelle Modell basiert auf dem erweiterten zweisprachigen Korpus, einem bereits trainierten Modell und einer großen Menge sogenannter synthetischer Daten, die auf maschinellen Übersetzungen basieren. Im Rahmen des maschinellen Übersetzens wird intensiv geforscht und deshalb beschäftigt sich das Sotra-Team auch intensiv mit den aktuellen Erkenntnissen der entsprechenden Experten.

So wird die sorbischsprachige manuelle linguistische Überprüfung nach dem Evaluationsvorgehen des internationalen WMT (Workshop on Machine Translation) praktiziert. Das heißt, die Projektmitarbeiter des Sotra-Teams im WITAJ-Sprachzentrum bewerten die einzelnen Fehler und Unzulänglichkeiten nach bestimmten Kategorien und gewichten sie als leichte bis schwere Fehler.

Das jetzige neue Modell für Deutsch – Obersorbisch hat das Sotra-Team gemeinsam mit der Dresdener Firma t2k (https://text2knowledge.de/) entwickelt. Das Unternehmen ist auf die Entwicklung und Nutzung von Sprachtechnologie auf der Basis künstlicher Intelligenz spezialisiert. Für die Begutachtung der Übersetzungsmodelle wurden so neben manuellen Verfahren automatische Ansätze mittels statistischer und KI-basierter Methoden umgesetzt.

Relevante Metriken sind z.B. der BLEU-Score, der TER-Wert und GEMBA.

BLEU: Vergleicht maschinell generierte Texte mit menschlichen Referenzübersetzungen und zählt die Wörter und Phrasen, die sich decken, um eine Punktzahl zu generieren.

TER: Es zählt die notwendigen manuellen Korrekturen, damit die automatische Übersetzung am Ende korrekt ist. Für eine solche Überprüfung wird ein Set aus Sätzen zusammengestellt, die das bisherige Programm mit Fehlern und stilistischen Unzulänglichkeiten übersetzt hat – siehe Beispiele oben.

GEMBA funktioniert wie ein automatischer Gutachter.
Eine KI liest den Originaltext und die Übersetzung und entscheidet, ob beides inhaltlich dasselbe sagt – also ob etwas fehlt, falsch ist oder hinzugefügt wurde.

Für Fachkräfte kann auch folgende Information interessant sein: Das neue Modell ist mit 56 Millionen Parametern relativ klein und damit effizient. Für die Nutzung sind keine GPUs erforderlich.

Das Training fand schrittweise statt:

In einem ersten Schritt wurde ein deutsch-tschechisches Übersetzungsmodell trainiert, weil Tschechisch dem Obersorbischen ähnlich ist. So kann das Modell mit einem recht großen Datensatz erlernen, deutsche Sätze in eine dem Tschechischen verwandte Sprache – Obersorbisch – zu übertragen. Auf diese Weise wird das Problem abgemildert, dass für die obersorbische Sprache nur wenige Trainingsdaten zur Verfügung stehen.

In einem zweiten Schritt fand das Training des Modells mit Deutsch-Obersorbisch statt. Dafür wurden über 1,8 Millionen Satzpaare verwendet. Diese stammen aus dem deutsch-obersorbischen Satzkorpus und dem monolingualen Korpus des WITAJ-Sprachzentrums, aus dem maschinelle Übersetzungen erzeugt wurden. Ein solches Vorgehen ist in Situationen hilfreich, in denen nicht genügend bilinguale Trainingsdaten zur Verfügung stehen.

Mit Hilfe der genannten Techniken ist es gelungen, für die „kleine“ Sprache Obersorbisch ein neues Übersetzungsmodell zu trainieren. Das Modell ist veröffentlicht unter: https://github.com/WitajSotra/modele

Wir wünschen den Nutzerinnen und Nutzern des Programms sotra.app weiterhin hilfreiche Übersetzungen ihrer Texte und freuen uns über jedes Feedback und alle Eingaben unter „Text spenden“. Besonderes Interesse hat das Sotra-Team an der Meldung von Übersetzungen mit Mängeln. Diese weisen auf noch weitere notwendige Verbesserungen hin. Es reicht die Meldung der problematischen Übersetzungen ohne Korrekturen. Die Verbesserung ist dann die Arbeit des Sotra-Teams.