proyectos de investigación


DOMINO: Traducción Automática Neuronal, en DOMInio, NO supervisada.
(2019 - 2021)

Aunque en 2018 la traducción automática (TA) de calidad siguía siendo un reto para la mayoría de pares de idiomas, el desarrollo de este campo en los últimos años hace que este cerca de ser una realidad. La conjunción dentro de NMT (Traducción automática neuronal) del aprendizaje profundo (Deep Learning), con la clara aportación de los embeddings, y de las técnicas neuronales ha conseguido unos resultados que parecían impensables hace tres años.

Por otro lado las empresas usuarias y los usuarios particulares se han familiarizado con las ventajas y limitaciones del uso de esta tecnología. Mientras las primeras focalizan en aumentar la productividad, combinando las memorias de traducción, las herramientas de TA y los entornos de postedición; los segundos la usan intensivamente a pesar de que en muchos casos, sobre todo para idiomas con recursos limitados, la calidad que ofrecen no es comparable a la traducción profesional. Esto hace que la demanda, tanto profesional como social (agenda digital), vaya en aumento.

Apoyándonos en los trabajos previos del grupo de investigación y resultados del proyecto TADEEP y de nuestra participación en el proyecto del Gobierno Vasco Modela proponemos investigar en técnicas que mejoren el estado del arte de los sistemas de TA de aprendizaje profundo y neuronales, centrándonos en tres aspectos muy importantes:
- Mejora de la calidad de la traducción NMT y obtención de evaluaciones fiables. Hay diversas carencias, sobre todo de cara a la fidelidad del texto generado, que deben ser estudiadas y solucionadas: segmentos sin traducir, problemas con terminología, entidades nombradas, cantidades y adjetivos. También es importante mejorar los tiempos de aprendizaje y ejecución de estos sistemas.
- Nuevas aportaciones para traducción automática para idiomas con pocos recursos. Dentro de los resultados del proyecto TADEEP es de resaltar el alto impacto que ha obtenido esta linea de investigación, con publicaciones en los foros más importantes del área (ACL, EMNLP, AAAI, ICLR). Profundizar en esta linea es una de las claves de este proyecto para conseguir publicaciones de impacto.
- MT adaptado a dominios específicos y transferencia al entorno empresarial, además de la aplicación del paradigma NMT a otros problemas seq2seq (corrección gramatical, por ejemplo). Es la parte más aplicada del proyecto que se presenta pero que intenta resolver necesidades reales de entorno empresariales y sociales cercanos.
El grupo IXA de la UPV/EHU tiene el know-how y la experiencia necesaria para hacer frente a este proyecto ya que además de los expertos en diversos aspectos de TA disponemos de expertos en morfología, sintaxis, semántica y aprendizaje automático.

Con la base del grupo de investigación IXA la colaboración con la Fundación Elhuyar añade unas características importantes al proyecto, aportando recursos, su Cercanía del mercado y su experiencia en evaluación de resultados.
Por otro lado la participación de la Universidad de Santiago nos permite aumentar el impacto de la líneas de aprendizaje para lenguas con pocos recursos y la motivación lingüística de los resultados.

Se pueden citar varios indicadores sobre el interés que despierta la TA en el ámbito de I+D+i:
- Plan de Impulso de las Tecnologías del Lenguaje (Agenda Digital para España)
- En la Strategic Research Agenda For Multilingual Europe 2020 de METANET
- La resolución del Parlamento Europeo sobre el las lenguas y el mercado digital (REPORT on language equality in the digital age.
Página web: http://ixa2.si.ehu.es/domino/
Organización:  Ministerio de Ciencia, Innovación y Universidades.
Investigador principal: Kepa Sarasola, Eneko Agirre
Participantes
Eneko Agirre, Iñaki Alegria, Nora Aranberri, Mikel Artetxe, Kike Fernandez, Uxoa Iñurrieta, Gorka Labaka, Mikel Lersundi, Maite Oronoz, Olatz Perez de Viñaspre, Kepa Sarasola, Xabier Soto, Ruben Urizar


Más proyectos