proyectos de investigación

UnsupNMT: Traducción Automática Neuronal no Supervisada: un nuevo paradigma basado solo en textos monolingües.


UnsupNMT: Traducción Automática Neuronal no Supervisada: un nuevo paradigma basado solo en textos monolingües

(2018 - 2020)

La traducción automática es una tecnología madura y de gran importancia económica, que todavía tiene un considerable margen de mejora cuando se dispone de pocos textos bilingües. Este proyecto propone un método radicalmente diferente de traducción automática: la traducción no supervisada, es decir, basada exclusivamente en textos monolingües sin recursos bilingües. El método se basa en aprendizaje profundo de secuencias y en los últimos avances embeddings crosslingues de palabras.

Además de ser una propuesta altamente innovadora, abre un nuevo paradigma de traducción automática con ramificaciones en otras disciplinas. Puesto que proponemos representar frases de dos idiomas utilizando el mismo codificador. Esto tiene implicaciones en la forma en que se entrenan los procesadores lingüísticos actuales, lo que puede cambiar por completo el procesamiento multilingüe del lenguaje natural e impactar en las industrias del lenguaje.

La traducción automática actual tiene problemas para traducir pares de idiomas con poco contacto (por ejemplo, alemán y ruso), y dominios específicos con pocos textos bilingües (por ejemplo, médicos o jurídicos). Dado que el sistema de traducción no supervisada propuesto se mejora aún más con recursos bilingües, este proyecto mejorará la calidad de la traducción automática en tales casos, con un impacto real en la industria de la traducción.
Página web:
Organización:  Ministerio de Economía, Industria y Competitividad. (Explora)
Investigador principal: Eneko Agirre
Participantes
Eneko Agirre, Itziar Aldabe, Nora Aranberri, Mikel Artetxe, Xabier Artola , Ander Barrena, Arantza Díaz de Ilarraza, Gorka Labaka, Mikel Lersundi, Oier López de Lacalle , Olatz Perez de Viñaspre


Atrás

HiTZ lo conforman los siguientes grupos de investigación: