Kaip veikia automatiniai teksto vertėjai internete: algoritmai, klaidos ir paslėptos galimybės, apie kurias tylima

5 liepos, 2024 piratupartija.lt 0 Comments 3 categories

Kodėl mašininis vertimas nėra tas pats, kas tiesiog „žodis po žodžio”

Jei kada nors bandei suprasti, kaip veikia „Google Translate” ar „DeepL”, tikriausiai susidūrei su dviem kraštutinumais: arba žmonės sako „oi, tai tiesiog žodynėlis internete”, arba „tai dirbtinis intelektas, kuris viską supranta”. Abu atsakymai – klaidingi. Tiesa, kaip dažnai būna, yra kažkur per vidurį, bet daug įdomesnė, nei galėtum tikėtis.

Automatinis teksto vertimas – tai ne tas pats, kas tiesiog pasiimti žodyną ir keisti žodžius po vieną. Jei taip veiktų, rezultatai būtų katastrofiški. Ir iš tikrųjų – taip ir buvo. Pirmieji mašininiai vertėjai, kurie atsirado dar XX amžiaus viduryje, dirbo lygiai taip: turėjo taisyklių rinkinius ir žodynus, ir tiesiog „vertė” mechaniškai. Rezultatas? Tekstai, kurie techniškai naudojo teisingus žodžius, bet skambėjo kaip kažkas iš kito pasaulio.

Šiandien situacija kardinaliai pasikeitė, ir tai verta suprasti – ne tik iš smalsumo, bet ir dėl labai praktinių priežasčių. Jei žinai, kaip veikia šie įrankiai, gali juos naudoti daug protingiau.

Nuo taisyklių iki neuronų: kaip evoliucionavo vertimo technologija

Mašininio vertimo istorija – tai iš esmės trijų epochų istorija, ir kiekviena iš jų buvo revoliucija savo laiku.

Pirmoji epocha: taisyklėmis pagrįstas vertimas. Tai buvo laikotarpis nuo 1950-ųjų iki maždaug 1990-ųjų. Programuotojai ir lingvistai sėdėdavo kartu ir rašydavo taisykles: „jei lietuvių kalboje yra šis galūnės tipas, tai angliškai reikia daryti štai taip”. Tokių taisyklių galėjo būti tūkstančiai. Sistema veikė, bet tik labai ribotose srityse – pavyzdžiui, techniniuose dokumentuose, kur kalba yra standartizuota ir nėra daug dviprasmybių.

Antroji epocha: statistinis vertimas. Čia atsitiko kažkas įdomaus. Mokslininkai suprato, kad užuot rašius taisykles rankomis, galima leisti kompiuteriui pačiam „išmokti” iš didelių tekstų korpusų. Jei turi milijonus jau išverstų sakinių poromis (originalas + vertimas), kompiuteris gali išmokti statistinius ryšius: kokie žodžiai dažniausiai verčiami kaip kokie, kokios frazės eina kartu. „Google Translate” ilgą laiką veikė būtent taip.

Trečioji epocha: neuroniniai tinklai. Nuo maždaug 2016-2017 metų viskas vėl apsivertė. Pasirodė transformerių architektūra (transformer architecture), ir vertimo kokybė šoktelėjo taip stipriai, kad žmonės pradėjo kalbėti apie mašininio vertimo „revoliuciją”. Šiandien „DeepL”, „Google Translate” ir kiti rimti žaidėjai naudoja būtent šią technologiją.

Praktinis patarimas čia paprastas: jei naudoji kokį nors seną ar mažiau žinomą vertimo įrankį, tikėtina, kad jis vis dar veikia pagal senesnius principus ir duos prastesnius rezultatus. Verta rinktis tuos, kurie aiškiai kalba apie neuroninį vertimą.

Kaip transformer modelis „skaito” tekstą (be techninės nesąmonės)

Gerai, čia reikia šiek tiek pasinaudoti metaforomis, nes tikroji matematika yra labai sudėtinga. Bet esmę galima suprasti be formulių.

Transformer modelis – tai sistema, kuri mokosi iš konteksto. Kai tu rašai sakinį, kiekvienas žodis jame turi ryšį su kitais žodžiais. Žodis „bankas” gali reikšti finansų įstaigą arba upės krantą – ir tik kontekstas pasako, kurią reikšmę naudoti. Žmogui tai aišku iš karto. Seniems vertimo algoritmams – ne.

Transformer’is sprendžia šią problemą per tai, kas vadinama „dėmesio mechanizmu” (attention mechanism). Grubiai tariant, sistema mokosi, kurie žodžiai sakinyje yra svarbiausi vienas kitam. Kai verčia žodį „bankas”, ji žiūri į visą sakinį ir „supranta”, ar šalia yra žodžiai susiję su pinigais, ar su vandeniu.

Dar svarbiau – šie modeliai mokosi iš astronomiškai didelių tekstų kiekių. „GPT” tipo modeliai buvo treniruoti su šimtais milijardų žodžių. Tai reiškia, kad jie „matė” tiek daug kalbos pavyzdžių, kad sugeba atpažinti net subtilias frazeologines konstrukcijas.

Bet čia yra ir spąstai. Modelis mokosi iš to, kas buvo internete ar tekstų duomenų bazėse. Jei tam tikra kalba yra mažiau reprezentuota internete – o lietuvių kalba tikrai nėra tarp dominuojančių – tai modelis ją „pažįsta” prasčiau. Todėl vertimas iš anglų į prancūzų bus statistiškai geresnis nei iš anglų į lietuvių, tiesiog dėl duomenų kiekio skirtumo.

Klaidos, kurios kartojasi, ir kodėl jos tokios specifinės

Čia tampa tikrai įdomu. Mašininio vertimo klaidos nėra atsitiktinės – jos yra sisteminės, ir kai supranti kodėl, gali jas numatyti ir pataisyti.

Idiomų problema. „It’s raining cats and dogs” – joks normalus vertėjas neišvers šito pažodžiui. Bet mašina gali. Arba išvers netiksliai, prarasdama spalvingumą. Idiomų problema egzistuoja todėl, kad jų reikšmė nėra žodžių suma – tai kultūrinis konstruktas. Geriausi šiuolaikiniai modeliai jau atpažįsta daugumą dažnų idiomų, bet retesnės vis dar kelia problemų.

Gramatinė lytis ir linksniai. Lietuvių kalba yra ypač sudėtinga šiuo atžvilgiu – turime septynis linksnius, ir tai mašinoms yra tikras galvos skausmas. Kai verčiama iš anglų kalbos, kuri yra gramatiškai daug paprastesnė, modelis turi „nuspėti” tinkamą formą iš konteksto. Ir kartais klysta – ypač ilgesniuose sakiniuose, kur kontekstas yra toliau.

Kultūriniai niuansai ir „tu” vs „jūs”. Anglų kalboje „you” – ir tiek. Lietuviškai reikia nuspręsti: ar tai oficialus kontekstas, ar neformalus? Mašina dažnai renkasi vieną variantą ir jo laikosi per visą tekstą, net jei kontekstas keičiasi.

Ilgi, sudėtingi sakiniai. Kuo sakinys ilgesnis ir kuo jame daugiau šalutinių sakinių, tuo didesnė tikimybė, kad mašina „pasimes”. Tai yra žinoma problema, ir praktinis sprendimas yra paprastas: jei verčiamas tekstas yra svarbus, rašyk trumpesniais sakiniais. Tai padeda ir žmogui skaitant, ir mašinai verčiant.

Terminija be konteksto. Jei verčiamas specialistinis tekstas – medicinos, teisės, IT – mašina gali supainioti terminus, kurie skirtingose srityse reiškia skirtingus dalykus. „Protocol” IT srityje ir „protocol” diplomatijoje – skirtingi dalykai. Be aiškaus konteksto, mašina gali rinktis netinkamą variantą.

DeepL prieš Google Translate: kas iš tikrųjų geriau ir kada

Šis klausimas internete sukelia beveik religinius karus, bet pabandysiu būti sąžiningas.

„DeepL” dažnai laikomas kokybės lyderiu, ypač europietiškoms kalboms. Jų modelis buvo treniruotas su ypatingai kruopščiai atrinktais tekstais – ne bet kokiu interneto šiukšlynu, o kokybiškai išverstais dokumentais. Rezultatas – sklandesnis, natūralesnis tekstas. Jei verčiamas verslo dokumentas, el. laiškas ar kažkas, kur svarbu skambesys, „DeepL” dažnai laimi.

„Google Translate” turi vieną milžinišką pranašumą: jis palaiko daugiau nei 130 kalbų. „DeepL” – kur kas mažiau. Jei reikia išversti kažką iš swahili ar tagalog, „Google” yra vienintelė reali parinktis. Be to, „Google” nuolat atnaujina savo modelius, ir atotrūkis tarp jų vis mažėja.

Lietuvių kalbos atveju – abu įrankiai veikia pakenčiamai, bet nei vienas nėra tobulas. Mano asmeninis patyrimas: „DeepL” vertimai iš lietuvių į anglų dažnai skamba natūraliau angliškai, bet kartais praranda niuansus. „Google” kartais yra tiksliau, bet skamba mechaniškai.

Praktinė rekomendacija: naudok abu ir palygink. Tai skamba kaip papildomas darbas, bet kai tekstas svarbus, 30 sekundžių palyginimui gali sutaupyti daug gėdos vėliau.

Taip pat verta žinoti apie „Microsoft Translator” – jis integruotas į „Office” produktus ir kai kuriose kalbų porose veikia labai gerai. Ir apie „Yandex Translate” – jei reikia versti iš/į rusų kalbą, jis vis dar yra vienas geriausių.

Paslėptos galimybės, apie kurias retai kalba

Čia norisi kalbėti apie tai, ką dauguma žmonių praleidžia pro šalį, nors tai gali reikšmingai pakeisti, kaip naudoji šiuos įrankius.

Vertimas kaip rašymo pagalbininkas. Tai mano mėgstamiausias triukas. Jei rašai angliškai ir nesi tikras, kaip suformuluoti mintį – suformuluok ją lietuviškai, išversk, ir tada redaguok rezultatą. Dažnai mašininis vertimas duoda gerą pradinį variantą, kurį tereikia šiek tiek patobulinti. Tai daug greičiau nei bandyti sugalvoti formuluotę nuo nulio svetima kalba.

Terminologijos tikrinimas. Jei esi specialistas ir nori žinoti, kaip tam tikras terminas verčiamas į kitą kalbą, mašininis vertimas yra greitas pirminis filtras. Žinoma, po to reikia patikrinti specializuotuose šaltiniuose, bet kaip pradinė orientacija – puikiai tinka.

Supratimo pagalba, ne pakeitimas. Kai gauni dokumentą svetima kalba ir nori greitai suprasti, apie ką jis – mašininis vertimas yra neįkainojamas. Net jei vertimas nėra tobulas, tu gauni kontekstą. Tai ypač naudinga su techniniais dokumentais, instrukcijomis, naujienomis.

API integracija. Tai labiau kūrėjams, bet verta paminėti: tiek „Google”, tiek „DeepL” turi API, per kurį galima integruoti vertimą į savo programas ar darbo procesus. Jei dirbi su dideliais tekstų kiekiais, tai gali sutaupyti daug laiko. „DeepL” API turi nemokamą planą su 500,000 simbolių per mėnesį – to daugeliui asmeniniam naudojimui visiškai pakanka.

Glosariai ir konteksto nustatymas. „DeepL Pro” leidžia kurti savo glosarius – žodžių sąrašus, kur nurodai, kaip konkretus terminas turi būti verstas. Jei dirbi tam tikroje srityje ir turi specifinę terminiją, tai yra labai naudinga funkcija. „Google Cloud Translation” API turi panašias galimybes.

Kaip naudoti mašininį vertimą protingai: konkreti metodika

Gerai, pereikime prie praktikos. Nes žinoti, kaip kažkas veikia, yra viena. Bet žinoti, kaip tą kažką naudoti efektyviai – visai kitas lygis.

Prieš vertimą:

Supaprastink originalų tekstą, jei gali. Trumpesni sakiniai, mažiau sudėtingų konstrukcijų – geresnio vertimo garantija.
Patikrink, ar tekste nėra specifinių terminų, kurie gali būti suprasti dvejopai. Jei yra – pabandyk juos paaiškinti kontekste.
Jei verčiamas specialistinis tekstas, nurodyk kontekstą – kai kurie įrankiai leidžia pasirinkti sritį (teisė, medicina, technologijos).

Vertimo metu:

Neversk per ilgų tekstų vienu ypu. Geriau dalimis – taip lengviau pastebėti klaidas.
Jei galima, naudok du skirtingus įrankius ir palygink rezultatus.
Atkreipk dėmesį į skaičius, vardus ir datas – mašinos kartais jas „interpretuoja” netiksliai.

Po vertimo:

Visada perskaityk rezultatą. Net jei nesupranti kalbos gerai, galima pastebėti akivaizdžias nesąmones.
Jei tekstas svarbus, paprašyk gimtakalbio peržiūrėti. Mašininis vertimas + gimtakalbio redagavimas yra daug pigesnis ir greitesnis nei pilnas žmogaus vertimas.
Išsaugok gerus vertimus kaip pavyzdžius – jei reguliariai verčiamas panašus turinys, turėti pavyzdžių yra labai naudinga.

Dar vienas dalykas, apie kurį retai kalba: mašininis vertimas yra puiki mokymosi priemonė. Jei mokaisi kalbos, galite versti tekstus ir tada lyginti savo vertimą su mašinos variantu. Tai ne apgaudinėjimas – tai papildomas mokymosi įrankis.

Kai mašina klysta – ir tai yra gerai

Norisi baigti kiek paradoksaliai. Mašininio vertimo klaidos – tai ne tik problema. Jos yra ir galimybė.

Pirma, jos moko mus kritiškai mąstyti apie kalbą. Kai matai, kaip mašina supainiojo idiomą ar neteisingai parinko linksnį, pradedi geriau suprasti, kodėl kalba yra tokia, kokia yra. Tai tarsi žiūrėti į kalbą iš šono.

Antra, jos primena, kad vertimas nėra tik techninis procesas. Geras vertimas reikalauja kultūrinio supratimo, empatijos, konteksto jausmo – dalykų, kurie kol kas yra labai žmogiški. Mašinos artėja prie šio idealo, bet dar nepasiekė.

Trečia – ir tai gal svarbiausia – mašininio vertimo klaidos yra nuspėjamos. Tai reiškia, kad jei supranti, kur sistema klysta, gali ją naudoti protingiau. Gali patikrinti tas vietas, kurios yra rizikingos, ir pasitikėti tomis, kurios paprastai veikia gerai.

Automatinis vertimas internete nėra magija ir nėra stebuklas. Tai labai sudėtinga matematika, paremta milžiniškais duomenų kiekiais, kuri labai gerai imituoja kalbinį supratimą. Ir tai yra nuostabu savaime – net jei kartais rezultatas skamba juokingai. Naudok šiuos įrankius, bet naudok juos su akimis atvertomis. Žinok jų ribas, žinok jų stiprybes, ir tada jie taps tikrai naudinga darbo priemone – ne kliūtimi.

Category: Laisvos žinios, Paslaugos, Žinios