ikerkuntza proiektuak

DOMINO: Itzulpen automatiko neuronala, domeinuan, eta ez-gainbegiratua.
(2019 - 2021)
2018an kalitatezko itzulpen automatikoa (IA) hizkuntza-pare gehienentzat erronka izaten jarraitzen zuen, baina azken urteotan alor honen garapena errealitate bihurtu da. Ikasketa sakona erabiliz (Deep Learning), embedding-en ekarpen argiarekin eta neurona-tekniken bidez, duela hiru urte pentsaezinak ziruditen emaitzak lortu ditu Itzulpen Automatiko neuronalak (NMT).
Bestalde, enpresa erabiltzaileek eta erabiltzaile partikularrek teknologia honen erabilpenaren abantailak eta mugak ezagutu dituzte. Lehenengoek produktibitatea nabarmen handitzen dute, itzulpen-memoriak, Itzulpen Automatikoaren erremintak eta postediziorako inguruak konbinatuz; partikularrek, aldiz, intentsiboki erabiltzen dute IA, nahiz eta kasu askotan baliabide mugatuak dituzten hizkuntzetarako eskaintzen duten kalitatea ezin den itzulpen profesionalarekin alderatu. Hori dela eta, eskaria, profesional zein gizarte arlokoa (agenda digitala), handitzen ari da.
TADEEP proiektuan eta MODELA proiektuan egin duguna lagungarri zaigu orain,noski, teknika horiek ikertzea proposatzen dugu, ikasketa sakonaren eta neurona-sistemen artearen egoera hobetuko duten teknikak ikertzea, hiru alderdi oso garrantzitsu hauetan zentratuta:
- NMT itzulpenaren kalitatea hobetzea eta ebaluazio fidagarriak lortzea. Hainbat gabezia daude hor, batez ere sortutako testuaren fideltasunari begira. Aztertu eta konpondu beharrekoak hauek dira: itzuli gabeko segmentuak, terminologia-arazoak, izendaturiko entitateak, kopuruak eta adjektiboak. Era berean, garrantzitsua da sistema horiek ikasteko eta inplementatzeko denborak hobetzea.
- Baliabide gutxi dituzten hizkuntzetarako ekarpen berriak itzulpen automatikoan. TADEEP proiektuaren emaitzen barruan, ikerketa-lerro honek lortu duen eragin handia azpimarratzekoa da, argitalpenen bidez (ACL, EMNLP, AAAI, ICLR). Ildo horretan sakontzea da proiektuaren giltzarrietako bat, inpaktudun argitalpenak lortzeko.
- Domeinu espezifikoetara egokitu eta enpresa-ingurunera transferitzea. NMT paradigma beste arazo batzuei aplikatzeaz gain (zuzenketa gramatikala, adibidez). Proiektuaren zatirik aplikatuena da, eta hurbileko enpresa eta gizarte inguruneko benetako beharrak konpontzen saiatzen da. UPV/EHUko IXA taldeak proiektu honi aurre egiteko behar duen know-how-a eta esperientzia du, eta, gainera, morfologian, sintaxian, semantikan eta ikaskuntza automatikoan adituak diren hainbat adituk osatzen dute.
IXA ikerketa-taldearen oinarriarekin, Elhuyar Fundazioarekin lankidetzan aritzeak zenbait ezaugarri garrantzitsu gehitzen dizkio proiektuari, baliabideak, gertutasuna merkatuarekin eta emaitzen ebaluazioan izandako esperientzia ekarriz.
Bestalde, Santiagoko Unibertsitateak parte hartzeak aukera ematen digu ikaskuntza-lerroak baliabide gutxi dituzten hizkuntzetarako eta emaitzen hizkuntza-motibaziorako duen eragina handitzeko.
I+G+b arloan Itzulpen Automatikoak sorrarazten duen interesari buruzko hainbat adierazle aipa daitezke:
- Hizkuntza-Teknologiak Bultzatzeko Plana (Espainiarako Agenda Digitala)
- Strategic Research Agenda For Multilingual Europe 2020, METANET-ek sortua
- Europako Parlamentuaren ebazpena hizkuntzen eta merkatu digitalaren gainean (Report on language equality in the digital age).
Webgunea: http://ixa2.si.ehu.es/domino/
Erakundea: Ministerio de Ciencia, Innovación y Universidades.
Ikerlari nagusia: Kepa Sarasola, Eneko Agirre
Partaideak:
Zuhaitz Beloki, Pablo Gamallo., Eneko Agirre, Iñaki Alegria, Nora Aranberri, Mikel Artetxe, Kike Fernandez, Uxoa Iñurrieta, Gorka Labaka, Mikel Lersundi, Maite Oronoz, Olatz Perez de Viñaspre, Kepa Sarasola, Xabier Soto, Ruben Urizar


