Automatinis vertimas

Automatinis vertimas – teksto vertimas iš vienos kalbos į kitą, kurį automatiškai atlieka kompiuteris, naudodamas specializuotą programinę įrangą.

Automatinius vertimus tiria atskira kompiuterinės lingvistikos sritis. Paprasčiausias automatinio vertimo būdas – tiesioginis vienos kalbos žodžių keitimas kitos kalbos žodžiais, toks būdas buvo būdingas ankstyvosioms vertimo sistemoms. Naudojant įvairių technikų rinkinius galima bandyti sudėtingesnius vertimus, apimant skirtingas lingvistines tipologijas, frazių atpažinimą, idiomų vertimą bei anomalijų izoliaciją.

Šiuolaikinė automatinio vertimo programinė įranga dažnai leidžia nurodyti verčiamo teksto sritį (pvz., orų prognozės), taip sumažinant galimų keitimų sritį ir pagerinant rezultatą. Tokia technika ypač efektyvi tose srityse, kurioms būdinga formali ar šabloniška kalba. Todėl automatinis vertimas labiau tinkamas versti valstybinius ar teisinius dokumentus, nei pokalbius, grožinę literatūrą ar mažai standartizuotą tekstą.

Pagerinti rezultatų kokybę taip pat galima įsikišant žmogui – kai kurios sistemos verčia tekstą daug tiksliau, jei vartotojas aiškiai pažymi, kurie žodžiai tame tekste yra pavadinimai. Naudojant šias technikas įrodyta automatinio vertimo nauda padedant vertėjams ir kai kuriais atvejais net pilnai panaudojant jų pateiktą rezultatą. Visgi tokios sistemos dar negali pateikti tokio pat rezultato, kaip žmogus vertėjas, ypač kai verčiamas tekstas yra kasdieninė kalba.

Vertimo procesas gali būti apibrėžtas kaip:

  1. Pirminio teksto prasmės iššifravimas;
  2. Šios reikšmės perkodavimas į galutinę kalbą.

Už šios, tariamai paprastos procedūros, slypi sudėtinga pažinimo operacija. Kad iššifruotų pirminio teksto prasmę, vertėjas turi suprasti ir išanalizuoti visas teksto ypatybes, privalo gerai žinoti tos kalbos gramatiką, semantiką, sintaksę, idiomas ir t. t. bei kalbėtojų kultūrą. Tokias pat žinias vertėjas privalo turėti ir apie kalbą, į kurią verčia pirminį tekstą.

Čia ir glūdi automatinio vertimo iššūkis: kaip užprogramuoti kompiuterį, kad šis „suprastų“ tekstą kaip žmogus ir „sukurtų“ naują tekstą kita kalba, kuris „skambėtų“ taip, tarsi jį būtų parašęs žmogus. Ši problema gali būti sprendžiama įvairiais būdais.

Požiūriai

redaguoti

Automatinis vertimas gali naudoti metodą, paremtą lingvistinėmis taisyklėmis. Tai reiškia, kad žodžiai bus verčiami lingvistiniu būdu – patys tinkamiausi adresato kalbos žodžiai pakeičia atitinkamus žodžius pirminėje kalboje.

Dažnai diskutuojama dėl to, kad automatinio vertimo sėkmė priklauso nuo to ar pirmiausia bus išspręsta natūralios kalbos supratimo problema. Bendromis taisyklėmis paremti metodai išnagrinėja tekstą, dažniausiai sukurdami tarpinį, simbolinį vaizdą, iš kurio sugeneruojamas adresato kalbos tekstas. Pagal tarpinio vaizdo prigimtį, toks požiūris apibūdinamas kaip „tarpinės kalbos automatinis vertimas“ arba „perkėlimu paremtas automatinis vertimas“. Šie metodai reikalauja plataus leksikono, turinčio morfologinės, semantinės ir sintaksinės informacijos bei didelio taisyklių rinkinio.

Gavusios pakankamai duomenų automatinio vertimo programos dažnai pakankamai gerai atlieka darbą ir pateikia artimą variantą to, kas buvo parašyta kita kalba. Sunkumas yra gauti pakankamai reikiamų duomenų padedančių atitinkamam metodui. Pavyzdžiui, didelis įvairiakalbis rinkinys duomenų, reikalingų statistiniams metodams, nebūtinas gramatika paremtiems metodams. Tačiau gramatiniai metodai reikalauja patyrusio lingvisto tiksliai sudaryti gramatikai, kurią jie naudoja.

Versti tarp labai panašių kalbų naudojama technika, vadinama paviršutiniško perdavimo automatiniu vertimu.

Paremtas žodynu

redaguoti

Automatinis vertimas gali naudoti metodą paremtą žodyno įrašais. Tai tiesioginis automatinis vertimas. Tai reiškia, kad žodžiai bus verčiami kaip žodyne – žodis po žodžio, dažniausiai be jokio prasminio jų susiejimo. Toks būdas buvo būdingas pirmosioms mašininio vertimo sistemoms.

Statistinis

redaguoti

Statistinis automatinis vertimas bando sugeneruoti vertimus naudodamas statistinius metodus paremtus dvikalbio teksto rinkiniais. Jei tokie rinkiniai egzistuoja, pasiekiami nuostabūs rezultatai verčiant panašaus tipo tekstus. Pirmoji statistinė automatinė vertimo programa buvo CANDIDE sukurta IBM. Šiuo metu Google naudoja SYSTRAN, bet ateityje siekia visas mašinas pervesti prie statistinio metodo. Neseniai jie pagerino savo vertimo galimybes įvesdami apie 200 milijardų žodžių iš Jungtinių Tautų šaltinių. Dėl to vertimo tikslumas smarkiai pagerėjo.

Paremti pavyzdžiais

redaguoti

Pavyzdžiais paremtas automatinio vertimo būdas dažnai apibūdinamas pagal dvikalbio lygiagretaus tekstyno naudojimą veikimo metu. Iš esmės tai vertimas pagal analogijas.

Tarpinės kalbos

redaguoti

Tarpinės kalbos automatinis vertimas yra vienas iš taisyklėmis paremtų automatinio vertimo variantų. Taikant šį metodą verčiamas tekstas transformuojamas į tarpinę kalbą, o po to sugeneruojamas tekstas adresato kalba.

Esminiai klausimai

redaguoti

Daugiaprasmiškumo pašalinimas

redaguoti

Daugiaprasmiškumo pašalinimas reiškia tinkamo vertinio paiešką, kai žodis gali turėti daugiau nei viena reikšmę. Pirmą kartą šią problemą iškėlė Yehoshua Bar-Hillel 1950 m. Jis pažymėjo, kad be „universalios enciklopedijos“ mašina niekada nesugebės atsirinkti tarp kelių žodžio reikšmių. Šiais laikais sukurta daug metodų spręsti šiai problemai. Jie gali būti padalinti į paviršutiniškus ir giliosios analizės metodus.

Paviršutiniški metodai nekreipia dėmesio į teksto prasmę. Jie paprasčiausiai naudoja statistinius metodus aplinkiniams žodžiams. Giliosios analizės metodai daro visapusišką žodžio prasmės prielaidą. Kol kas sėkmingiau naudojami paviršutiniški metodai.

Istorija

redaguoti

Automatinio vertimo istorija prasidėjo šeštajame dešimtmetyje. Džordžtauno eksperimento (1954 m.) metu 60 rusiškų sakinių buvo automatiškai išversti į anglų kalbą. Eksperimentas buvo labai sėkmingas ir pradėjo automatinio vertimo tyrinėjimų finansavimo erą. Mokslininkai teigė, kad per 3-5 metus automatinis vertimas bus išspręsta problema. Tačiau tikrasis progresas buvo kur kas lėtesnis ir po ALPAC ataskaitos (1966 m.), kuri parodė, kad dešimtmetį trukęs tyrimas nepateisino vilčių, finansavimas buvo smarkiai sumažintas. Vėliau sumažėjus lūkesčiams, padidėjus ir atpigus skaičiavimo pajėgumams, vėl buvo atsigręžta į automatinio vertimo sistemas.

Lietuvių kalbai automatinio vertimo sistemos pradėtos kurti dar 2002 m. Kauno technologijos universiteto (KTU) magistro M. Žemaičio tuomet sukurta LAAL anglų-lietuvių kalbos vertimo programa dar neatliko visų vertimui reikalingų funkcijų ir neturėjo tinkamo morfologijos įrankio. 2002 m. G. Barisevičiaus, E. Černio ir A. Veiverio pradėta kurti automatinio vertimo žodynų duomenų valdymo bazė. 2004 m. šis projektas G. Barisevičiaus ir E. Černio perprojektuotas ir sukurtas patobulintas šios sistemos variantas, bei pateiktas kaip baigiamasis bakalauro darbas.

2005–2006 m. Valstybinės lietuvių kalbos komisijos (VLLK) užsakymu pradėta kurti automatinio vertimo sistema iš anglų į lietuvių kalbą. Projektui vadovavo KTU doc. B. Tamulynas, o projektavimo ir kūrimo darbus atliko G. Barisevičius. 2006 m. buvo pateiktas galutinis taisyklėmis paremtas vertimo sistemos variantas. Dėl per menkos žodynų bazės (~10 tūkst. žodžių) vertimas nebuvo tikslus. Tiesa, sistema turėjo savybę nudaugiareikšminti daugiaprasmius vertimus ir surasti labiausiai tinkamą. Šios problemos sprendimas buvo pateiktas G. Barisevičiaus baigiamajame magistro darbe. Kadangi aukščiau aprašyti KTU darbai niekada nebuvo pateikti viešai prieigai kalbos technologų arba visuomenės įvertinimui, galima teigti, kad tai buvo tąsos neįgijusios mašinio vertimo užuomazgos Lietuvoje.

2007 m. pabaigoje, finansuojama Europos Sąjungos lėšomis, Vytauto Didžiojo universitete (VDU) buvo sukurta pirmoji internetinė anglų-lietuvių automatinio vertimo sistema (http://vertimas.vdu.lt/twsas/). Ši sistema vertimą atlieka taisykliniais metodais.

2008 m. į Google Translate paslaugas buvo įtrauktas automatinis vertimas anglų-lietuvių ir lietuvių-anglų kryptimis. Šios sistemos vertimas grįstas statistiniais metodais.

2010–2014 m. Lietuvių kalbos instituto svetainėje veikė Tildės IT kompanijos sukurta „Mašininio vertimo laboratorija“.

2014 m. Tildė IT kompanijos svetainėje paleista internetinė vertyklė. Apie naudojamus vertimo metodus tikslios informacijos nėra.

2015 m. finansuojama Europos Sąjungos lėšomis pagal priemonę „Lietuvių kalba informacinėje visuomenėje“ VP2-3.1-IVPK-12K buvo sukurta anglų-lietuvių-anglų ir prancūzų-lietuvių-prancūzų automatinė vertimo sistema (https://www.versti.eu/lt https://www.xn--ratija-ckb.lt/vu-ma%C5%A1ininis-vertimas/vilniaus-universiteto-ma%C5%A1ininis-vertimas-/16 Archyvuota kopija 2016-06-02 iš Wayback Machine projekto.). Šios sistemos vertimas grįstas statistiniais metodais.

Taikomosios programos

redaguoti

Sukurta daug taikomųjų programų natūraliai kalbai versti, kai kurios veikia internete, kaip SYSTRAN sistema, kuria remiasi ir Google, ir AltaVista vertimų programos. Nors nei viena sistema negali pasigirti tobulu vertimu, daugelis jų pateikia tenkinamą rezultatą. Nepaisant jų paveldėtų apribojimų, automatinio vertimo programos naudojamos visame pasaulyje. Tikriausiai didžiausia institucija, naudojanti vieną tokių, yra Europos Komisija. Jos poreikiams yra pritaikyta komercinė SYSTRAN sistemos versija, kuri gali automatiškai išversti didelius kiekius preliminarių dokumentų šablonų vidiniam naudojimui.

Viena JAV vertimo agentūra (Global Translations) kuria specialius žodynus automatiniam vertimui, sudarytus iš telekomunikacijų kompanijų pasiūlymų. Dėl didelio tokių dokumentų techninio žodyno lygio, kuris dažnai yra ir didelės apimties, automatinio vertimo kokybė gerėja proporcingai teksto rinkiniams, kurie įtraukiami į tuos žodynus.

Danų vertimo agentūra (Lingtech) verčia patentų paraiškas iš anglų kalbos į danų nuo 1993 m. naudodama firminę taisyklėmis paremtą automatinio vertimo sistemą PaTrans, veikiančią kartu su komerciniu atmintimi paremtu vertimo įrankiu Trados CAT.

Ispanų dienraštis „Periodico de Catalunya“ yra verčiamas iš ispanų į katalonų kalbą naudojat automatinio vertimo sistemą. Internetinė programa „Toggletext“ naudoja perdavimais paremtą vertimo sistemą Kataku versti tarp anglų ir indoneziečių kalbų. Google tvirtina, kad gauti daug žadantys rezultatai naudojantis jų firminiu statistiniu automatinio vertimo varikliu. Jis buvo panaudotas Google kalbų įrankiuose verčiant tarp arabų – anglų ir kinų – anglų kalbų bei surinko 0,4281 balo, o tai daugiau nei IBM įrankis BLEU-4, kurio rezultatas tik 0,3954 balo, pasiektas Nacionaliniame Standartų ir Technologijų institute testų metu. Uwe Muegge sukūrė demonstracinį tinklalapį, kuris naudoja apribotą kalbą kartu su Google įrankių, kad pateikti visiškai automatizuotą, aukštos kokybės jo angliškų, vokiškų ir prancūziškų tinklalapių vertimą.

Daug dėmesio paskutiniu metu skiriant kovai su terorizmu, Jungtinės Valstijos investuoja didelius pinigus į natūralios kalbos inžineriją. Šiuo metu karinė valdžia domisi vertimu ir apdorojimu tokių kalbų kaip: arabų, pashto ir dari. Informacijos Apdorojimo Technologijų Biuras taiko tokias programas kaip TIDES ir „Babylon Translator“. Jungtinių Valstijų oro pajėgos skiria 1 milijono dolerių kontraktą kurti kalbos vertimo technologijoms.

Įvertinimas

redaguoti

Automatinio vertimo sistemas galima vertinti įvairiais būdais. Seniausias būdas – vertimo kokybę vertina žmogus. Šiomis dienomis vertinama įrankiais: BLEU, NIST ir METEOR.

Pasikliaujant vien automatiniu vertimu ignoruojama tai, kad žmogaus kalba paremta kontekstu ir kad reikia būti žmogumi, norint adekvačiai suvokti originalaus teksto prasmę. Netgi tobulai žmogų imituojantis kompiuterinis vertėjas yra linkęs į klaidas. Todėl, kad būtų užtikrinta automatinio vertimo sugeneruoto teksto kokybė ir nauda žmogui, vertimą turi peržiūrėti ir pakoreguoti gyvas žmogus.

Visgi tvirtinama, kad kai kurių taikomųjų programų išverstas tekstas nereikalauja žmogaus įsikišimo. Tais atvejais, kai verčiami produktų aprašymai ir naudojamas ribotas žodžių kiekis, sistema turi žodynu paremtą įrankį ir gamybinę aplinką.

Nuorodos

redaguoti

Lietuvių «» anglų

redaguoti

Lietuvių «» prancūzų

redaguoti

Daugiakalbės vertyklės

redaguoti