ikerkuntza proiektuak
TRAIN (PID2021-123988OB-C31) MCIN/AEI/10.13039/501100011033 eta FEDER Una manera de hacer Europa-k finantzatuta
(2022 - 2025)
Azken urteotan, gainbegiratu gabeko itzulpen automatikoak itzulpen automatikoko sistemak garatzea posible dela, baita informazio elebidunik (hiztegi elebidunak eta corpus paraleloak) ez dagoen testuinguruetan ere. Baina praktikan beti dago informazio elebidunen bat eskuragarri. [Conneau, 2020] bezalako azken lanak datu elebakarrak eta paraleloak emaitza onekin konbinatzen hasi dira.
Proiektu honetan, transferentzia eleaniztuneko ikasketa-teknikei buruzko metodo berritzaileak aztertu nahi ditugu, eta gainbegiratutako eta gainbegiratu gabeko teknikak konbinatu, teknika horien oso baliabide gutxiko hizkuntzen itzulpenean onura izan ditzaten. Gure hipotesia da gainbegiratu gabeko itzulpen automatikorako garatutako teknikak modu eraginkorrean egokitu daitezkeela hizkuntza pare baterako dagoen informazio elebiduna txertatzeko eta, hala, itzulpen-sistema erabilgarriak lortzeko, baita baliabide paralelo gutxi daudenean ere, eta baita zeinu-hizkuntzen itzulpen multimodalaren kasuan ere.
Datu paraleloak eta elebakarrak arrakastaz konbinatzen hasi diren arren, hipotesi hori ez da frogatu proiektuko xede diren hizkuntzetan. Hau da, oso baliabide paralelo gutxi dituzten hizkuntzak, eta idatzizko kodifikazio bidez adierazi ohi ez diren zeinu-hizkuntzen kasuan.
Planteatutako hipotesia egiaztatzeko, proiektuak gaztelaniaren eta baliabide gutxi dituzten hizkuntza espezifikoen arteko itzulpen-sistemak garatuko ditu: migratzaileen hizkuntzak (amazigh, pastún eta wolof), gutxiengo etnikoenak (romaní) eta espainiar zeinu-hizkuntza ere. Horrela, talde zaurgarri horiek (migratzaileak, errefuxiatuak eta pertsona gorrak edo entzumen-arazoak dituztenak) integratzen lagunduko dugu.
Webgunea: https://ixa2.si.ehu.eus/train
Erakundea: Ministerio de Ciencia e Innovación
Ikerlari nagusia: Gorka Labaka eta Eneko Agirre
Partaideak:
Ander Corral, Eneko Agirre, Bittor Alkain, Nora Aranberri, Maxux Aranzabe, Xabier Arregi, Kepa Bengoetxea, Gorka Labaka, Mikel Lersundi, Adrian Nuñez, Olatz Perez de Viñaspre, Ander Soraluze, Ruben Urizar