Přełožowanski program pod http://sotra.app dźěła z nowym modelom za směr němčina – hornjoserbšćina.

Za wužiwarki a wužiwarjow to woznamjenja, zo dóstanu zwjetša kwalitatiwnje lěpši přełožk hač dotal. Nowy model skići šěrši a přiměrjeniši słowoskład a produkuje mjenje zmylkow a wuwostajenkow. Nimo toho móže lěpje ze zestajenkami wobchadźeć. Tu někotre přikłady:

 

Sada za přełožk:  Sie haben ihr Ehegelübde erneuert.

Stary model přełoži: Woni su swoje mandźelske zwučowanje ponowili.

Nowy model přełoži: Woni su swój mandźelski slub wobnowili.

 

Sada za přełožk: Sie zeigte am Eingang ihren Schwerbehindertenausweis.

Stary model přełoži: Wona pokaza při zachodźe swój ćežko zbrašeny wupokaz.

Nowy model přełoži: Wona pokaza při zachodźe swój wupokaz za ćežkozbrašenych.

 

Sada za přełožk: Der Reifen lässt immer wieder Luft.

Stary model přełoži: Wobruč přeco zaso dych da.

Nowy model přełoži: Wobruč přeco zaso powětr pušći.

 

Najebać wšitkich polěpšenjow wostanje zasada: Zamołwitosć za kwalitu přełožka maja wužiwarki a wužiwarjo, sotra je jim jenož pomoc.

Kwalita přełožkow je čim lěpša, ćim wjac konteksta jednotliwe słowa w sadźe maja. Tohodla zapodajće stajnje sady ze znajmjeńša pjeć słowami.

Hdyž je kwalita přełožowanskich programow hižo dosć wysoka, su wšitke dalše stopnjowanja kwality přeco naročniše a z wjetšej ličenskej potrjebu zwjazane. Aktualny model bazuje na rozšěrjenym dwurěčnym korpusu, hižo trenowanym modelu a wulkim mnóstwje tak mjenowanych syntetiskich datow, kiž su so mašinelnje přełožili. We wobłuku mašinelneho přełožowanja so intensiwnje slědźi, a tohodla zaběra so sotra-team tež intensiwnje z aktualnymi dopóznaćemi wotpowědnych ekspertow.

Tuž praktikuje so serbske manuelne linguistiske přepruwowanje po ewaluaciskim postupowanju mjezynarodneho WMT (Workshop on Machine Translation). To rěka, projektowi sobudźěłaćerjo sotra-teama w Rěčnym centrumje WITAJ posudźuja jednotliwe zmylki a njedostatki po wěstych kategorijach a pohódnoća je jako skerje lochke, ćeše abo ćežke zmylki.

Nětčiši nowy model za směr němčina – hornjoserbšćina je sotra-team zhromadnje z Drježdźanskej firmu t2k (http://text2knowledge.de) wuwiwał. Předewzaće je na wuwiće a wužiwanje rěčneje technologije na bazy kumštneje inteligency specializowane. Za posudźowanje přełožowanskich modelow buchu nimo manuelnych metodow awtomatiske procesy z pomocu statistiskich a na KI bazowacych metodow nałožowane.

Relewantne metriki su na přikład BLEU-score, TER-hódnota a GEMBA.

BLEU: Přiruna mašinelnje generěrowane teksty z čłowječimi referencnymi přełožkami a liči słowa a frazy, kiž so kryja, zo by ličbu dypkow generěrował.

TER: Liči trěbne manuelne korektury, zo by awtomatiski přełožk na kóncu korektny był. Za tajke přepruwowanje zestaji so sep sadow, kiž je dotalny program ze zmylkami a stilistiskimi njedostatkami přełožił – hlej přikłady horjeka.

GEMBA: Funguje kaž awtomatiski posudźowar. KI čita originalny tekst a přełožk a rozsudźi, hač wobaj tekstaj to samsne wuprajitaj – abo hač něšto pobrachuje, wopak je abo hač je so něšto mylnje přidało.

Za fachowcow móže tež slědowaca informacija zajimawa być: Nowy model je ze 56 milionami parametrami relatiwnje mały a z tym jara eficientny. Za wužiwanje njejsu žane GPUsy trěbne.

Trening wotmě so w dwěmaj kročelomaj:

W prěnjej kročeli bu němsko-čěski přełožowanski model trenowany, dokelž je čěšćina hornjoserbšćinje podobna. Tak móže model z dosć wulkej datowej sadźbu wuknyć, němske sady do čěšćinje přiwuzneje rěče – hornjoserbšćiny – přenjesć. Na te wašnje złahodni so problem, zo steji za hornjoserbšćinu jenož mało treningowych datow k dispoziciji.

W druhim kroku wotmě so trening z němčiny do hornjoserbšćiny. Za to wužiwaše so 1,8 milionow sadowych porikow. Tute pochadźeja z němsko-hornjoserbskeho sadoweho korpusa a z monolingualneho korpusa Rěčneho centruma WITAJ, z čehož su so mašinelne přełožki generowali. Tajke postupowanje je w situacijach spomóžne, w kotrychž dosć treningowych datow k dispoziciji njesteji.

Z pomocu mjenowanych technikow je so poradźiło, za „mału“ rěč hornjoserbšćinu nowy přełožowanski model trenować. Model je wozjewjeny pod: https://github.com/WitajSotra/modele.

Přejemy wužiwarkam a wužiwarjam programa sotra.app dale spomóžne přełožowanje jich tekstow a wjeselimy so na feedback a wšitke zapodaća pod “tekst darić”. Wosebity zajim ma sotra-team na přełožkach z njedostatkami. Tute pokazuja na dalše trěbne polěpšenja. Dosaha,  teksty z problematiskimi přełožkami bjez korekturow darić. Korektura a polěpšenje je potom dźěło sotra-teama.