Přełožowanski program pod http://sotra.app dźěła z nowym modelom za směr němčina – hornjoserbšćina.
Za wužiwarki a wužiwarjow to woznamjenja, zo dóstanu zwjetša kwalitatiwnje lěpši přełožk hač dotal. Nowy model skići šěrši a přiměrjeniši słowoskład a produkuje mjenje zmylkow a wuwostajenkow. Nimo toho móže lěpje ze zestajenkami wobchadźeć. Tu někotre přikłady:
Sada za přełožk: Sie haben ihr Ehegelübde erneuert.
Stary model přełoži: Woni su swoje mandźelske zwučowanje ponowili.
Nowy model přełoži: Woni su swój mandźelski slub wobnowili.
Sada za přełožk: Sie zeigte am Eingang ihren Schwerbehindertenausweis.
Stary model přełoži: Wona pokaza při zachodźe swój ćežko zbrašeny wupokaz.
Nowy model přełoži: Wona pokaza při zachodźe swój wupokaz za ćežkozbrašenych.
Sada za přełožk: Der Reifen lässt immer wieder Luft.
Stary model přełoži: Wobruč přeco zaso dych da.
Nowy model přełoži: Wobruč přeco zaso powětr pušći.
Najebać wšitkich polěpšenjow wostanje zasada: Zamołwitosć za kwalitu přełožka maja wužiwarki a wužiwarjo, sotra je jim jenož pomoc.
Kwalita přełožkow je čim lěpša, ćim wjac konteksta jednotliwe słowa w sadźe maja. Tohodla zapodajće stajnje sady ze znajmjeńša pjeć słowami.
Hdyž je kwalita přełožowanskich programow hižo dosć wysoka, su wšitke dalše stopnjowanja kwality přeco naročniše a z wjetšej ličenskej potrjebu zwjazane. Aktualny model bazuje na rozšěrjenym dwurěčnym korpusu, hižo trenowanym modelu a wulkim mnóstwje tak mjenowanych syntetiskich datow, kiž su so mašinelnje přełožili. We wobłuku mašinelneho přełožowanja so intensiwnje slědźi, a tohodla zaběra so sotra-team tež intensiwnje z aktualnymi dopóznaćemi wotpowědnych ekspertow.
Tuž praktikuje so serbske manuelne linguistiske přepruwowanje po ewaluaciskim postupowanju mjezynarodneho WMT (Workshop on Machine Translation). To rěka, projektowi sobudźěłaćerjo sotra-teama w Rěčnym centrumje WITAJ posudźuja jednotliwe zmylki a njedostatki po wěstych kategorijach a pohódnoća je jako skerje lochke, ćeše abo ćežke zmylki.
Nětčiši nowy model za směr němčina – hornjoserbšćina je sotra-team zhromadnje z Drježdźanskej firmu t2k (http://text2knowledge.de) wuwiwał. Předewzaće je na wuwiće a wužiwanje rěčneje technologije na bazy kumštneje inteligency specializowane. Za posudźowanje přełožowanskich modelow buchu nimo manuelnych metodow awtomatiske procesy z pomocu statistiskich a na KI bazowacych metodow nałožowane.
Relewantne metriki su na přikład BLEU-score, TER-hódnota a GEMBA.
BLEU: Přiruna mašinelnje generěrowane teksty z čłowječimi referencnymi přełožkami a liči słowa a frazy, kiž so kryja, zo by ličbu dypkow generěrował.
TER: Liči trěbne manuelne korektury, zo by awtomatiski přełožk na kóncu korektny był. Za tajke přepruwowanje zestaji so sep sadow, kiž je dotalny program ze zmylkami a stilistiskimi njedostatkami přełožił – hlej přikłady horjeka.
GEMBA: Funguje kaž awtomatiski posudźowar. KI čita originalny tekst a přełožk a rozsudźi, hač wobaj tekstaj to samsne wuprajitaj – abo hač něšto pobrachuje, wopak je abo hač je so něšto mylnje přidało.
Za fachowcow móže tež slědowaca informacija zajimawa być: Nowy model je ze 56 milionami parametrami relatiwnje mały a z tym jara eficientny. Za wužiwanje njejsu žane GPUsy trěbne.
Trening wotmě so w dwěmaj kročelomaj:
W prěnjej kročeli bu němsko-čěski přełožowanski model trenowany, dokelž je čěšćina hornjoserbšćinje podobna. Tak móže model z dosć wulkej datowej sadźbu wuknyć, němske sady do čěšćinje přiwuzneje rěče – hornjoserbšćiny – přenjesć. Na te wašnje złahodni so problem, zo steji za hornjoserbšćinu jenož mało treningowych datow k dispoziciji.
W druhim kroku wotmě so trening z němčiny do hornjoserbšćiny. Za to wužiwaše so 1,8 milionow sadowych porikow. Tute pochadźeja z němsko-hornjoserbskeho sadoweho korpusa a z monolingualneho korpusa Rěčneho centruma WITAJ, z čehož su so mašinelne přełožki generowali. Tajke postupowanje je w situacijach spomóžne, w kotrychž dosć treningowych datow k dispoziciji njesteji.
Z pomocu mjenowanych technikow je so poradźiło, za „mału“ rěč hornjoserbšćinu nowy přełožowanski model trenować. Model je wozjewjeny pod: https://github.com/WitajSotra/modele.
Přejemy wužiwarkam a wužiwarjam programa sotra.app dale spomóžne přełožowanje jich tekstow a wjeselimy so na feedback a wšitke zapodaća pod “tekst darić”. Wosebity zajim ma sotra-team na přełožkach z njedostatkami. Tute pokazuja na dalše trěbne polěpšenja. Dosaha, teksty z problematiskimi přełožkami bjez korekturow darić. Korektura a polěpšenje je potom dźěło sotra-teama.
