Latxa - euskararentzat inoiz eraikitako hizkuntza eredurik handiena
2024ko urtarrilak 26an
Pozarren aurkezten dugu Latxa eredu irekien familia, euskarazko hizkuntza eredurik handiena eta hoberena duena.
Latxa Hizkuntza Eredu Handien (HEH) familia da, Meta-ren LLaMA ereduetan oinarritutakoa eta 7-70 mila miloi parametro arteko ereduak biltzen dituena. Gaur egungo HEHek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingeleserako ChatGPT edo Bard-ek dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua ausazko asmatzetik hurbil dago. Honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten du, tresna digitalei dagokionez behinik behin. Horretarako aurkezten dugu Latxa hain zuzen ere, muga horiek gainditu eta HEH-etan oinarritutako euskaraz dabiltzan ikerketa, berrikuntza eta produktuen garapena sustatzeko. Lan hau Eusko Jaurlaritzak lagundu du (IKER-GAITU proiektuaren barruan).
Latxa ereduak aldez aurretik trebatutako oinarrizko ereduak dira, erabiltzaileari zuzendutako jarraibide edo hobespenetan findu ez direnak. Eredu hauek ez dira, beraz, publiko orokorrak zuzenean erabiltzeko. Alabaina, eredu hauek funtsezkoak dira euskararako hizkuntza-teknologia darabilten tresna arrakastatsuak eraikitzeko. Eredu ireki hauek kaleratzen ditugu teknikari adituek produktuak garatzeko erabil ditzaten edo eredua bera aplikazio jakinetara doitu dezaten. Dagoeneko erabiltzaileen jarraibideak segitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago garbi publiko orokorrak GPTrekin gazteleraz edo ingelesez lortzen den adinako kalitatea duten ereduak eraiki daitezkeenik euskararentzat. Hori da, hain zuzen, gure ikerketen jomuga eta hortaz oraingo hau lehen bertsio bat bezala hartu daiteke, ikerketaren ondorioz eredu hobeak sortu nahi ditugu eta. Ereduak gure GPU motako zerbitzariak erabiliz garatu ditugu, eta azken ereduak CINECAko Leonardo superordenagailuan entrenatu ditugu EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).
Eredua eraikitzeko testu multzoari dagokionez, EusCrawl erabili dugu, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.
Ereduen kalitatea ebaluatzeko, ataza ezberdin eta askotarikoak erabili ditugu. Ataza horiek hainbat gaitasun linguistikotan ereduek duten gaitasuna neurtzen dute, hala nola, irakurketen ulermena, sen ona eta arrazoibidea, sentimenduen analisia, jarreren hautematea, gaien sailkapena, korreferentzia, inferentzia eta hitzen adierak. Ikus HuggingFace-eko eredu-txartelak ebaluazioan erabili diren datu multzoei buruzko xehetasun gehiagorako. Beheko irudiko emaitzek eredu ezberdinen errendimendua erakusten dute atazaz ataza, eta emaitzen batez bestekoa eskuineko aldean. Ingelesezko LLaMA ereduak eta orain arteko euskara biltzen duten hizkuntza eredu onenetariko batzuk probatu ditugu, gure ereduekin buruz buruko alderaketa ahalbidetzen dutenak (hiru barra moreak). Bertan argi ikusten da gure hiru ereduak direla hoberenak, eta tamaina handitu ahala emaitzak ere hobetzen doazela.
Latxa ereduek LLaMA-2 License delakoa heredatzen dute, ikerkuntzarako eta jarduera komertziala baimentzen duena. Nahiz eta ingelesezko ereduetan egon oinarrituta, gure ereduak euskaraz erabiltzeko pentsatu dira, eta hortaz, beste hizkuntzatan duten kalitatea ez dugu bermatzen.
Ereduak HuggingFace-en daude eskuragarri, begiratu mesedez “model card” delakoa informazio teknikorako eta ereduak erabiltzen hasteko argibideetarako.
Testuaren egileak: Eneko Agirre. Julen Etxaniz, Oscar Sainz