Kaip DI supranta ir kalba lietuviškai
Lietuvių kalba – viena seniausių gyvų indoeuropiečių kalbų, kuria šiandien kalba apie 3 milijonus žmonių. Ilgus metus dirbtinio intelekto kalbos technologijos buvo orientuotos pirmiausia į anglų kalbą, o lietuvių kalba likdavo nuošalyje. Tačiau 2026-ieji atnešė esminį pokytį: šiuolaikiniai didieji kalbos modeliai (LLM) supranta lietuviškai stebėtinai gerai. Ką tai reiškia Lietuvos verslui ir kokie sprendimai jau veikia praktikoje?
Lietuvių kalba — unikali ir sudėtinga
Lietuvių kalba DI sistemoms kelia nemažai iššūkių, kurių anglų kalboje tiesiog nėra.
Turtinga morfologija. Lietuvių kalboje yra 7 linksniai, sudėtingos linksniavimo ir asmenavimo paradigmos. Vienas žodis gali turėti dešimtis formų — pavyzdžiui, daiktavardis „namas" virsta „namo", „namui", „namą", „name", „namu", „name", o dar pridėjus daugiskaitą — variantų dvigubai daugiau. Anglų kalboje to tiesiog nėra.
Laisva žodžių tvarka. Lietuvių kalbos sakinys gali būti sudaromas įvairia žodžių tvarka, išlaikant tą pačią prasmę: „Jonas nupirko automobilį", „Automobilį nupirko Jonas", „Nupirko Jonas automobilį". DI sistema turi suprasti, kad visos šios formos reiškia tą patį.
Mažesnis skaitmeninis tekstynas. Internete lietuviško teksto yra nepalyginamai mažiau nei angliško. Tai reiškia, kad modeliai turėjo mažiau duomenų, iš kurių mokytis lietuviškai.
Tačiau yra ir privalumų: lietuvių kalbos gramatika yra labai reguliari ir logiška. Taisyklės turi mažiau išimčių nei, tarkime, anglų kalboje. Tai padeda DI sistemoms greičiau „sugauti" kalbos dėsningumus.
Kaip šiuolaikiniai modeliai supranta lietuviškai
Šiuolaikiniai didieji kalbos modeliai — GPT-4, Claude, Gemini — mokomi iš didžiulių daugiakalbių duomenų rinkinių. Nors lietuviški tekstai sudaro tik nedidelę dalį visų mokymo duomenų, modeliai sugeba perkelti žinias tarp kalbų. Tai vadinamas daugiakalbis perdavimo mokymasis (cross-lingual transfer learning).
Praktikoje tai reiškia, kad šie modeliai lietuvių kalba jau gali:
- Suprasti klausimus ir užklausas — net sudėtingus, kontekstinius klausimus lietuviškai
- Generuoti atsakymus — rašyti gramatiškai taisyklingus tekstus lietuvių kalba
- Versti — tarp lietuvių ir kitų kalbų, išlaikant prasmę ir kontekstą
- Apibendrinti dokumentus — sutraukti ilgus lietuviškus tekstus į pagrindinius punktus
- Klasifikuoti ir analizuoti — atpažinti tematiką, sentimentą, intenciją lietuviškuose tekstuose
Ar tai tobula? Ne. Kartais pasitaiko gramatinių netikslumų, o labai specifinėje srityje (pvz., teisinėje ar medicininėje terminologijoje) modeliai gali klysti. Tačiau praktiniam naudojimui versle tai jau visiškai pakankama kokybė.
Balso atpažinimas lietuvių kalba
Kalbos atpažinimas (speech-to-text) lietuvių kalba per pastaruosius kelerius metus padarė didžiulę pažangą. Pagrindinės platformos, palaikančios lietuvių kalbą:
- OpenAI Whisper — atviro kodo modelis, puikiai atpažįstantis lietuvišką kalbą
- Google Speech-to-Text — integruotas lietuvių kalbos palaikymas
- Microsoft Azure Speech — lietuvių kalba tarp palaikomų kalbų
Kokybė priklauso nuo keleto faktorių: garso aiškumo, kalbėtojo artikuliacijos ir temos sudėtingumo. Aiškiame pokalbyje tikslumas siekia 90–95 proc., o tai jau visiškai pakankama daugeliui verslo scenarijų.
Praktiniai naudojimo atvejai:
- Skambučių transkripcija — automatinis pokalbių su klientais perrašymas tekstine forma
- Balso komandos — vidinių sistemų valdymas lietuviškomis komandomis
- Susitikimų protokolai — automatinis susitikimų turinio fiksavimas ir apibendrinimas
Likusieji iššūkiai: tarmės vis dar kelia sunkumų — žemaičių ar aukštaičių tarmės atpažįstamos prasčiau nei bendrinė kalba. Triukšmingoje aplinkoje tikslumas taip pat mažėja. Tačiau technologijos sparčiai tobulėja.
Kalbos sintezė (text-to-speech)
Lietuviška kalbos sintezė 2026-aisiais pasiekė kokybiškai naują lygį. Neuroniniais tinklais paremtos TTS sistemos generuoja balsą, kuris skamba natūraliai — su tinkama intonacija, kirčiavimu ir ritmu.
Dar prieš kelerius metus sintetinis lietuviškas balsas skambėjo mechaniškai ir robotiškai. Šiandien daugelis žmonių telefonu neskiria, ar kalba žmogus, ar DI sistema.
Kur tai naudojama:
- IVR sistemos — automatinės telefono sistemos, kalbančios natūraliu lietuvišku balsu
- Prieinamumas — tekstų skaitymas balsu regos negalią turintiems žmonėms
- Turinio pasakojimas — straipsnių, ataskaitų ar instrukcijų garsinė versija
- Virtualūs asistentai — balsu bendraujantys pokalbių robotai
Svarbu paminėti, kad lietuviška TTS kokybė vis dar atsilieka nuo anglų kalbos, tačiau atotrūkis nuolat mažėja.
Praktiniai pritaikymai Lietuvos verslui
DI lietuvių kalbos galimybės atveria konkrečias verslo galimybes, kurios dar prieš porą metų buvo neįmanomos arba labai brangios.
Pokalbių robotai, kalbantys lietuviškai. Šiuolaikiniai pokalbių robotai, paremti LLM, gali natūraliai bendrauti su klientais lietuviškai. Ne iš anksto parašytais scenarijais, o tikrai suprasdami klausimą ir sugeneruodami tinkamą atsakymą. Tai keičia klientų aptarnavimo efektyvumą.
Skambučių centro pokalbių analizė. Automatinis tūkstančių pokalbių perrašymas ir analizė: kokios problemos dažniausios, kaip jaučiasi klientai, ar laikomasi aptarnavimo standartų. Tai, kas anksčiau reikalavo didelės komandos, dabar atliekama automatiškai.
Dokumentų apdorojimas lietuvių kalba. Sutarčių, sąskaitų, laiškų ir kitų dokumentų automatinis nuskaitymas, klasifikavimas ir informacijos ištraukimas. Ypač naudinga teisinėje, finansų ir valstybės sektoriuose.
Daugiakalbis klientų aptarnavimas. Lietuvos įmonės, aptarnaujančios tiek lietuviškai, tiek angliškai kalbančius klientus, gali naudoti DI sistemas, kurios sklandžiai perjungia kalbą pagal kliento poreikį.
Balsu valdomi vidiniai asistentai. Darbuotojai gali balsu lietuviškai užduoti klausimus vidinėms sistemoms — pasitikrinti sandėlio likučius, gauti ataskaitų santraukas ar valdyti užduotis.
Iššūkiai ir apribojimai
Būtų nesąžininga teigti, kad DI lietuvių kalba jau tobula. Yra keletas svarbių apribojimų, kuriuos verta žinoti.
Specializuota terminologija. Siaurose srityse — medicinoje, teisėje, specifinėse inžinerinėse disciplinose — modeliai dažniau klysta. Trūksta kokybiškų lietuviškų mokymo duomenų šiose srityse.
Gramatinės klaidos generuojant. Nors kokybė labai pagerėjo, DI modeliai vis dar kartais padaro gramatinių klaidų lietuviškai — neteisingą linksnį, netinkamą prielinksnio valdymą ar kirčiavimo klaidas TTS sistemose.
Mažiau mokymo duomenų. Lietuviški mokymo duomenys sudaro tik mažą dalį visų duomenų, ant kurių mokomi LLM. Tai reiškia, kad kai kuriais atvejais atsakymų kokybė lietuviškai bus prastesnė nei angliškai.
Tarmės ir šnekamoji kalba. DI sistemos geriausiai supranta bendrinę lietuvių kalbą. Tarmės, žargonas ir labai šnekamoji kalba atpažįstami prasčiau.
Šiuos apribojimus svarbu suprasti planuojant DI diegimą, tačiau jie neturėtų atbaidyti — daugeliui verslo scenarijų esama kokybė jau yra visiškai pakankama.
Ateities perspektyvos
Lietuvių kalbos palaikymas DI technologijose sparčiai gerėja, ir tam yra kelios priežastys.
ES finansavimas mažų kalbų technologijoms. Europos Sąjunga skiria reikšmingą dėmesį mažų kalbų skaitmeniniams ištekliams. Programos kaip „European Language Grid" ir „Digital Europe" remia lietuvių kalbos technologijų plėtrą.
Atviro kodo lietuviški modeliai. Lietuvos mokslininkai ir programuotojai kuria specializuotus lietuviškus kalbos modelius. Šie modeliai, nors mažesni už GPT-4 ar Claude, gali būti pritaikyti konkrečioms užduotims ir veikti vietinėje infrastruktūroje — tai svarbu duomenų saugumui.
Didėjantis lietuviško turinio kiekis. Kuo daugiau kokybiško lietuviško turinio atsiranda internete, tuo geriau DI modeliai mokosi lietuviškai. Tai savaiminis teigiamas ciklas.
Modelių architektūros tobulėjimas. Naujos kartos modeliai vis geriau mokosi iš mažesnio kiekio duomenų. Tai ypač svarbu mažoms kalboms — net su ribotais duomenimis pasiekiama vis geresnė kokybė.
Apibendrinimas
2026-aisiais Lietuvos verslui nebereikia rinktis tarp pažangių DI technologijų ir lietuvių kalbos. Šiuolaikinės sistemos supranta, kalba ir rašo lietuviškai pakankamai gerai, kad būtų naudingos realiose verslo situacijose — nuo klientų aptarnavimo iki dokumentų analizės, nuo balso atpažinimo iki automatizuotos komunikacijos.
Taip, tobulėjimo erdvės dar yra. Tačiau laukti, kol technologija bus tobula, reiškia prarasti konkurencinį pranašumą jau šiandien.
Jeigu svarstote, kaip DI lietuvių kalba galėtų padėti jūsų verslui — susisiekite su WiseMonks komanda. Padėsime įvertinti galimybes ir rasti tinkamiausius sprendimus būtent jūsų situacijai.