Project Description

Online-přełožowar sotra za hornjoserbšćinu, delnjoserbšćinu, němčinu a čěšćinu

Medijowe informacije

Dokumentacija k nastaću přełožowanskeho programa sotra.app

  • koncept Załožby za serbski lud za nałožowanje serbšćiny w elektroniskich medijach a w kubłanskim wobłuku: „Prezenca serbšćiny w Nowych medijach”  (Koncept z 27.05.2013 – pdf); kotrehož wobstatk su přełožowanske programy za hornjo- a delnjoserbšćinu
  • dojednanje w koaliciskim zrěčenju ze Sakskim statnym knježerstwom k spěchowanju digitalizacije serbšćiny
  • sobudźěłaćer firmy Microsoft doporuči we wobłuku dalekubłanja k TEAMS dwurěčne teksty zběrać, dokelž budu tute za přichodne digitalne nałožowanja jara wuznamne
  • RCW započina za móžnosćemi pytać, serbsko-němski onlinepřełožowar realizować
  • zaměry digitalneho přełožowanskeho programa:
    • pomoc serbšćinu wuknjacym při formulowanju sadow
    • wšědnu komunikaciju zjednorjeć
    • zrozumjenje serbsce spisanych tekstow podpěrować
    • dźěło přełožowarjow/-kow podpěrować
    • maćernorěčnych motiwować, serbsku rěč zwonka šulskeho konteksta w towaršnostnym žiwjenju pisomnje intensiwnišo nałožować
  • Heyer z Instituta za awtomatiske předźěłanje rěče w Lipsku radźi, Translator Hub firmy Microsoft za zarjadowanje přełožowanja wužiwać
  • Helge Schroda wot firmy Microsoft zarjaduje projekt za hornjoserbšćinu w Translator Hub
  • Beata Brězanowa započina zhromadnje ze sobudźěłaćerku dwurěčnje předležace teksty, najprjedy z webstronow serbskich institucijow a towarstwow, hromadźić
  • w februaru pomha prózdninska dźěłaćerka při zběranju sadow, pozdźišo dźěła wona jako studentka na honorarnej bazy na korpusu sobu
  • za startowanje prěnjeho testa w Translator Hub je znajmjeńša 10.000 sadowych porikow w němčinje a serbšćinje trěbnych
  • Beata Brězanowa uploaduje prěnje pdf-dokumenty do Microsoft Translator Huba
  • při Serbskim rozmołwnym kole w Budyšinje zeznaje Beata Brězanowa IT-technikarja Olafa Langnera, kotryž so za projekt zajimuje a sej system w Rěčnym centrumje WITAJ wobhlada
  • Helge Schroda posrědkuje kontakt k linguistce a bywšej sobudźěłaćerce firmy Microsoft Marion Kremer, kotraž z toho časa projekt jako poradźowarka přewodźuje
  • Olaf Langner zwjaza Translator Hub z Azure-portalom, zo bychu so treningi za přełožowanje přewjesć hodźeli
  • po spočatnych problemach integracije hornjoserbšćiny na portalu a přez Stefana Behrlowy přewod komunikacije k Microsoft zdokonja Olaf Langner prěni trening hornjoserbsko-němskich datow

  • na zetkanju w Budyšinje předstaji Olaf Langner aktualne wuwiće w Translator Hub wjednistwu Załožby za serbski lud a dalšim wobdźělenym wosobam firmy Microsoft a RCW
  • prěnja projektowa próstwa so pola Załožby za serbski lud zapoda
  • projekt spěchuje so najprjedy raz na dwě lěće přez Załožbu za serbski lud
  • hłownu zamołwitu projekta Judith Wjenkec podpěruje tójšto honorarnych mocow, kotřiž zwuporjedźeja, přełožuja abo zestajeja na zakładźe terminologijow paralelne sady
  • zakład přełožowanskeho programa je bilingualny korpus dwurěčnych sadow
  • leksika a wužiwane gramatiske formy wotbłyšćuja rěč wšědneho dnja, medijowu, literarnu, šulsku a fachowu rěč kaž tež wědomostnu a prawnisku rěč
  • dźiwa so na to, zo wopřija korpus wokabular z najwšelakorišich wobłukow, kaž kultury, stawiznow, hudźby, hospodarstwa, politiki atd.
  • gramatiske a druhe wosebitosće hornjoserbšćiny, na př. dual a dwójna negacija, mnohostronskosć formulacijow a z tym zwisowace rozdźěle w syntaksy, so při tym wobkedźbuja
  • paralelnje nastanjetej hornjoserbski a němski monolingualny korpus, kotrejž matej pomhać, typiske mustry w cilowymaj rěčomaj produkować, na př. při zestajenju sadow
  • integracija hornjoserbšćiny pola Microsoft njeje techniskich inowacijow dla hišće móžna, dokelž je za porjadny přełožk w nowowuwitym neuronalnym systemje mnóstwo k dispoziciji stejacych paralelnych hornjoserbsko-němskich sadow přesnadne
  • IT-fachowc Olaf Langner, kotryž nětko na honorarnej bazy na projekće sobu dźěła, rešeršuje za alternatiwami w Open Source
  • wuslědki pospytow z neuronalnym modelom Google TensorFlow njejsu spokojace
  • rozsud padnje na statistiski tool MOSES-decoder a neuronalny tool OpenNMT (Python), pola kotrejuž so sady na wšelakore wašnje w pozadku analyzuja, štož twori zakład za přełožk, kiž wužiwar/ka na kóncu dóstanje
  • Olafej Langnerej so poradźi, dotal za Microsoft Translator Hub nadźěłany material do tuteju systemow přewzać
  • lěpšina dźěła a testowanja na wšelakich programach je, přełožki mjez sobu přirunować móc a z tym najlěpše metody wudźěłać
  • Bernhard Baier, kotryž je hižo z časa wuwića serbskeje prawopisneje kontrole (2012) a morfologiskeho generatora za słownik soblex partner Rěčneho centruma WITAJ, programěruje w decembrje prěni namjet za web-płoninu přełožowanskeho programa
  • wón přewostaji a zarjaduje serwer za projekt, kotryž steji najprjedy w priwatnych rumnosćach Olafa Langnera, pozdźišo zaměstni so tutón w rumnosćach Załožby za serbski lud

  • staw projekta předstaji so na digitalnej konferency dnja 30. nowembra 2019 w Budyšinje
  • trajne wudźeržowanje kontaktow k firmje Microsoft wjedźe k wuhladej, hornjoserbšćinu ze znajmjeńša 250.000 sadowymi porikami (zo by system efektiwnje dźěłał a spokojace přełožki produkował) do neuronalneho systema integrować
  • dokelž zhubi so přez ćeže při změnach paradigmow pola Microsoft a rešerše za nowymi techniskimi móžnosćemi wjele časa, njemóže so onlinepřełožowar kaž planowane kónc lěta šěrokej zjawnosći spřistupnić
  • rozšěrjenje bilingualneho korpusa wjedźe dale k najefektiwnišemu polěpšenju kwality přełožkow
  • serbski slawist, rěčny aktiwist a wikipedijan Julian Nyča, kotryž wot 2019 na honorarnej bazy na projekće sobu dźěła, so z 5 hodźinami wob tydźeń přistaji
  • za interny kruh wužiwacych programěruje Olaf Langner přełožowanskej woknješce, přez kotrejž su prěnje přełožki z pomocu zwjazanja z platformu Microsoft Azure móžne
  • profesor Alexander Fraser a jeho team z Centruma za předźěłanje informacijow a rěče Ludwiga Maximilianoweje uniwersity Mnichow (LMU) staji we wobłuku mjezynarodneho wubědźowanja k mašinelnemu přełožowanju mjez wjacorymi uniwersitami wobdźělnikam tež bilingualny korpus němsce – hornjoserbsce k dispoziciji: http://statmt.org/wmt20/
  • dźakowano přidatnym spěchowanskim srědkam a sobuskutkowanju dalšich wosobow, kotřiž wobdźěłaja paralelne sady, nahromadźi so hač do kónca 2020 něhdźe 190.000 sadow
  • próstwa wo dalewjedźenje projekta so pola Załožby za serbski lud zapoda
  • Bernhard Baier stara so wo dalewuwiće a wuhotowanje přełožowanskeho programa, njeoficialnje “demonstrator” mjenowany, za interny kruh a programěruje webstronu za přełožowanje pod soblex.de/sotra
  • z pomocu demonstratora móža sebi sobudźěłaćerjo teksty do wobeju rěčow a na zakładźe dweju toolow – statistiskeho a neuronalneho systema – přełožować
  • demonstrator je we wjacorych krokach z onlinewersiju hornjoserbskeho prawopisneho słownika soblex zwjazany (njepřełožene słowa hodźa so direktnje do přełožka sćahnyć)
  • zamołwići dojednaja so na mjeno přełožowanskeho programa: sotra (so-sorbian + tra-translator)
  • webstrona onlinepřełožowarja přełoži so do hornjoserbšćiny, logo a mjeno so aktualizujetej a wozjewjenje wo škiće datow kaž tež impresum so dodatej
  • dalši serwer, kiž ma funkcionalitu onlinepřełožowarja a jeho stabilitu přidatnje zaručić, so zarjaduje
  • kónc lěta planowana prezentacija přesunje so pandemije dla do I. kwartala 2021, termin so ze Sakskim ministerstwom za wědomosć, kulturu a turizm w Drježdźanach (SMWK) wothłosuje
  • za zjawnu prezentaciju onlinepřełožowarja zestajitej Judith Wjenkec a Anita Hendrichowa, kotraž J. Wjenkec wot spočatka 2020 jako přistajena RCW podpěruje, rozjasnjowanski widejo (“explainity”), w kotrymž so natwar a wužiwanje prěnjeho serbskeho přełožowanskeho programa předstajitej: link na explainity
  • Marko Měškank započina w Delnjej Łužicy paralelne sady hromadźić a próstwa wo spěchowanje přełožowanskeho programa za delnjoserbšćinu so staji
  • dojedna so mj. dr. ze Załožbu za serbski lud, zo so mjena wosobow hižo njepřełožuja
  • nowe funkcije na webstronje:
    • X-funkcija za wuhašenje zapodateho teksta z jednym klikom
    • nowy button za kopěrowanje cyłkowneho přełožka do mjezyskłada (clipboard-icon)
    • informacija wo mnóstwje znamješkow w zapodatym teksće a wobmjezowanje znamješkow na 3.000 za njepřizjewjenych a 6.000 za přizjewjenych wužiwarjow

  • w onlinowej widejowej konferency předstaji so prěni přełožowanski program za hornjoserbšćinu – němčinu a němčinu – hornjoserbšćinu a přepoda so zjawnosći (zastupujo statnu ministerku za wědomosć, kulturu a turizm Barbaru Klepsch wobdźěli so Stanisław Brězan online a porěči k spěchowanju)
  • wo projekće rozprawja so na wulkim němskim IT-portalu de („Sorben bauen sich Machine-Learning-Übersetzer selbst“), w regionalnych nowinach LR a SZ a w němskim programje MDR kaž tež w socialnych medijach kaž Facebook a Twitter
  • serbska meme-strona na Instagramje wěnuje „sotře“ samo swójski rjad „memow“
  • přełožowanski program „sotra“ je bjez přezjewjenja najprjedy na stronje soblex.de/sotra darmotnje přistupny
  • přełožowanski program je zwjazany z hornjoserbsko-němskim prawopisnym słownikom soblex, zo móža wužiwarjo falowace serbske słowa w přełožkach na jednore wašnje wudospołnić
  • studentka Berlinskeje Swobodneje uniwersity (FU) zaběra so w swojim bachelorskim dźěle nadrobnje ze „sotru“ a přewjedźe wobšěrne interviewy z projektowej skupinu
  • spěchowanje přełožowanskeho programa za delnjoserbšćinu so dočasnje přizwoli a Marko Měškank započina oficialnje jako zamołwity projekta dźěłać
  • druha projektowa faza za hornjoserbšćinu zahaji so z dočasnym přizwolenjom spěchowanja přez Załožbu za serbski lud za dalewjedźenje projekta hač do kónca 2021
  • 18 honorarnych mocow nadźěła, wobdźěła a koriguje nětko paralelne sady
  • nimo wobstajneho polěpšenja kwality je dalši zaměr, z rozšěrjenjom bilingualneju korpusow serbskej rěči do Microsoft Translatora a dalšich přełožowanskich systemow kaž Google-Translate přiwzać
  • Załožba za serbski lud postara so wo kooperaciju z Ludwiga Maximilianowej uniwersitu (LMU) w Mnichowje, dokelž wužaduja sebi wšelake procesy jara wjele ličenskeje kapacity, kotraž Rěčnemu centrumej WITAJ w tajkej měrje k dispoziciji njesteji kaž uniwersitam
  • na přeće Hornjoserbskeje rěčneje komisije přida so do praweho woknješka pokiw, zo je sotra přełožowanski system, kotryž so hišće dale wuwiwa a zo je wažne, zo wužiwar/ka přełožki přepruwuje a w datym padźe wuporjedźi
  • nowa funkcija „kontakt/feedback“ wjedźe wužiwarja k e-mejlce, z pomocu kotrejež móže powěsć z pokiwami abo přispomnjenjemi sotra-teamej posrědkować
  • wužiwacy móže z nowym buttonom „tekst darić“ darjenje přełožkow dowolić; tak hodźa so zmylki w přełoženych tekstach analyzować a pobrachowacy wokabular w korpusu zwěsćić, ze zaměrom tekstowy korpus rozšěrić a kwalitu přełožkow wobstajnje polěpšować
  • „sotra“ dóstanje skrótšenu swójsku adresu app
  • jako wosebity serwis poskići so wužiwacym nětko tež integrowana serbska prawopisna kontrola, zo bychu teksty hižo do přełožowanja kontrolować a wuporjedźić móhli
  • z pomocu noweho tłóčatka “abc” nad lěwym woknom hodźi so kontrola zaswěćić
  • nowa funkcija w meniju zmóžni webstronu we woči šonowacym „dark mode“ wužiwać

  • dla rozdźěla w negaciji w němčinje (jednora negacija) a serbšćinje (dwójna negacija) a z tym zwisowacymi zmylkami w přełožku so we wotpowědnje relewantnych sadach wosebite pokiwy w přełoženym teksće pokazuja
  • dokelž spytaja wužiwacy přeco zaso jednotliwe słowa přełožić a so přez falowacy kontekst kóncowki prawje njepřełoža, jewi so informacija, zo ma so w tutym padźe soblex wužiwać
  • w septembrje 2021 spisa prof. Fraser z LMU Mnichow zhromadnje ze swojim doktorandom Dariom Stojanovskim w nadawku Załožby za serbski lud posudk a poskitk, po kotrymž měli so wšelake metody eksperimentelnje nałožować, zo by so na zakładźe wuslědkow dalše postupowanje koordinować móhło
  • mnóstwo znamješkow, kotrež hodźi so z jednym klikom přełožić, rozšěri so na 6.000 za njepřizjewjenych a 16.000 za přizjewjenych wužiwarjow/-kow
  • z prof. Fraserom (LMU) komunikuje so wo ewaluaciji dr. Daria Stojanovskeho kaž tež přihotowanju a posrědkowanju trěbnych datow, a dorěčenja k optiměrowanju neuronalnych modelow so tworja
  • Dario Stojanovski přepytuje wšelake tak mjenowane frameworks za přełožki z neuronalnymi systemami, slědźi za dalšimi metodami kaž back translation (wróćopřełožowanje) a wuspyta kombinowanje z čěskimi a pólskimi rěčnymi modelemi a tekstowymi korpusami za optimalne přełožki
  • na zakładźe tutych rezultatow rozsudźitaj so Olaf Langner a Marko Měškank za neuronalny system Fairseq
  • kónc lěta 2021 wobsahuje dwurěčny paralelny korpus 265.200 paralelnych sadow
  • dr. Dario Stojanovski, Marko Měškank a Bernhard Baier implementěruja Fairseq-system w škitanym internym wobłuku do sotry
  • prof. Fraser poradźuje k organizaciji tutoho procesa
  • Microsoft Cognitive Services, Translator team natwari rěčny model za hornjoserbšćinu, kiž je kónc lěta 2021 w eksperimentelnym stadiju
  • k dnjej maćeršćiny integruje Microsoft, kotryž je jedyn z wulkich mjezynarodnych koncernow za software, hornjoserbšćinu jako prěnju mjeńšinowu rěč w Němskej do přełožowanskeho programa Bing-Translator, do Translator aplikacije a do dalšich office-programow

  • serbske teksty hodźa so nimo němčiny do a z wjace hač sto druhich rěčow přełožować
  • je tež móžno, we Word cyłe dokumenty naraz a w samsnym formaće přełožić

  • tež w druhich nałožowanjach Microsofta, kaž Office365 abo Translator-App, su přełožki na př. fotografowanych dokumentow do hornjoserbšćiny móžne

přinošk w blogu Microsoft          link na přinošk w SZ

  • pod sotra.app staji so nowy menijowy dypk FAQ za husto stajene prašenja a rozrisanje móžnych problemow k dispoziciji

  • neuronalny system Fairseq přewza so powšitkownje přistupny za sotra.app
  • z přestajenjom wot dotalneho statistiskeho na neuronalny přełožowanski system je so kwalita přełožkow jasnje polěpšiła; přełožki su přirodnej rěči bliže
  • wulke polěpšenje pokaza so tež při přełožowanju z němčiny do serbšćiny, dokelž so nětko dotalne problemy z negaciju abo wopačnymi kóncowkami lědma hišće jewja
  • neuronalny system złožuje so přidatnje k dwurěčnymaj korpusomaj na wobšěrne jednorěčne tekstowe daty z wobeju rěčow
  • modernizowany wužiwarski powjerch strony je přehladniši a moderniši
  • nowa funkcija „separatny dokument“ zmóžni, zapodaty tekst a přełožk hnydom do Word-dokumenta přetworić a tam pak w blokowym teksće abo w tabulce dale wobdźěłać

  • w RBB-magacinje „Łužyca“ předstaji so přełožowanski program „sotra“ za rěčne směry delnjoserbšćina – němčina a němčina – delnjoserbšćina a přepoda so zjawnosći
  • zdobom steji awtomatiski přełožk mjez delnjoserbšćinu a hornjoserbšćinu k dispoziciji
  • delnjoserbsko-němski korpus nasta mj. dr. w kooperaciji ze Serbskim institutom, kiž je z dweju słownikow sady k dispoziciji stajił, a wopřija tuchwilu 90.000 delnjoserbsko-němskich sadowych porikow a 70.000 delnjoserbsko-hornjoserbskich sadowych porikow
  • přidatny button z kłokomaj zmóžni jednore změnjenje směra přełožowanja

  • sotra hodźi so wotnětka za direktne přełožowanje webstronow wužiwać, k tomu ma so rozšěrjenje za browser w internetnym wobchodźe browsera darmotnje downloadować
  • 14-lětny šuler Serbskeho gymnazija Budyšin, Korla Baier z Pančic-Kukowa, je funkciju programěrował
  • browserowe rozšěrjenje za direktne přełožowanje markěrowanych sadow na webstronach je w browseromaj Edge a Chrome jednorje přistupne
  • za přełoženje maja so wotpowědne teksty na stronje markěrować, z klikom na prawu tastu myški ma so „přełožić“ wuzwolić a potom jewi so wotpowědny přełožk w separatnym woknješku nad originalnym tekstom; link na browserowe rozšěrjenje je tež w spódnjej lince pola sotra.app
  • na browseru bazowaca prawopisna kontrola je hižo do programa integrowana a zmóžnja, teksty před přełožowanjom přepruwować
  • kónc 2022 wobsahuje dwurěčny paralelny korpus 343.800 paralelnych sadow
  • dźěłowa rozmołwa pola firmy Microsoft w Berlinje: rěči so wo rozšěrjenju serwisa za wužiwarki a wužiwarjow Microsoft-programow w delnjo- a hornjoserbšćinje a što měło prioritu měć
  • orientaciju skića při tym typiske scenarije, kaž na přikład:
    • Němskorěčni starši chcedźa wědźeć, što w serbskej wučbnicy swojich dźěći steji. Po fotografowanju serbskeje strony z handyjom měł so hnydom přełožk do němčiny dodać a předčitać. Serbscy starši skerje chcedźa, zo Microsoft Translator App jich rěčane słowo zrozumi a do teksta přetwori, tak zo móža powěsć na šulu, kaž n. př. přizjewjenje chorosće, hnydom wotpósłać.
    • Sobudźěłaćerjo a sobudźěłaćerki serbskich institucijow a zjawnych zarjadow, kotrež wšědnje z Microsoft Office dźěłaja a němske kaž tež serbske teksty wužiwaja, měli so na awtomatiske spóznawanje rěče a jednory přistup k přełožkam spušćeć móc.
    • Profesionelnym přełožowarjam/-kam měło móžno być, přełožowanski program samostatnje na wěste temy a fachowe zapřijeća trenować.
  • na dnju maćeršćiny zhonimy, zo ma Microsoft předwidźane, ručež móžno tež mašinelne přełožowanje za delnjoserbšćinu poskićić
  • serbscy fachowcy přepruwuja kwalitu modela w testowych přełožkach
  • jako druhu mjeńšinowu rěč w Němskej integruje Microsoft nětko tež delnjoserbšćinu do přełožowanskeho programa Bing-Translator, do Translator aplikacije a do dalšich programow kaž na př. Word, PowerPoint, Excel a Outlook
  • čěšćina so přidatnje jako beta-wersija do sotra.app integruje