2023 – 2025

Investigando en tecnología del lenguaje para aumentar la presencia del euskera en el entorno digital

Impulsando el euskera en la era digital

El objetivo general del proyecto IKER-GAITU es investigar en tecnología del lenguaje para aumentar la presencia del euskera en el entorno digital. El proyecto se ha llevado a cabo entre 2023 y 2025 gracias a la subvención del Departamento de Cultura y Política Lingüística del Gobierno Vasco.

Las tecnologías actuales y futuras requieren enormes cantidades de datos textuales y orales para cada idioma, pero los datos que el euskera y otros idiomas más pequeños pueden ofrecer en la actualidad no son suficientes para que estas tecnologías tengan la calidad necesaria. Por lo tanto, es fundamental investigar en tecnología del lenguaje para que el euskera tenga presencia en esa tecnología que será cada vez más común y así alcanzar el nivel de otros idiomas.

Objetivos alcanzados

1

Desarrollar un sistema que reconozca automáticamente el nivel de competencia del euskera, tanto escrito como oral

2

Acercar la tecnología de voz personalizada a personas con discapacidad

3

Desarrollar un sistema de transcripción de voz espontánea, incluso cuando se mezclan el euskera y el castellano y hay varios hablantes

4

Lograr que los sistemas de conversación textuales más potentes (como ChatGPT o Gemini) funcionen en euskera al mismo nivel que en otros idiomas

Resultados

En el centro HiTZ hemos creado modelos, código y datos para el euskera que están disponibles para todos. Los hemos organizado en tres categorías según el perfil del usuario. Salvo que se indique lo contrario, todos tienen licencias abiertas (incluyendo uso comercial).

🏠 Para usar en casa y en el trabajo

Demo

Reconocimiento y síntesis de voz

Demos de sistemas de reconocimiento y generación de voz

Ver demos →

🏢 Para crear productos innovadores en la industria y administración

Demos

Demos y APIs de voz

Demos de productos que combinan nuestras tecnologías

HiTZketan →
Demo

Demostradores ILENIA

Demostradores del proyecto ILENIA

Ver demos →

Modelos públicos

Familia Latxa

Modelos de diferentes tamaños. El 70B es el mejor; el 8B es más rápido.

ASR - Reconocimiento de voz

Sistema de reconocimiento automático del habla

TTS - Síntesis de voz

Sistema de generación de voz

¿Necesitas acceso por API? Contacta: transfer.hitz@ehu.eus

🔬 Para investigación y desarrollo avanzado

Además de lo anterior, todos nuestros modelos, código y datos especializados están en repositorios públicos:

Datasets destacados

Datos para Latxa

Datos utilizados para construir Latxa

Ver datos →

Datos ASR (abiertos)

Datos para crear sistemas de reconocimiento de voz

Ver datos →

Datos TTS (abiertos)

Datos para crear sistemas de síntesis de voz

Ver datos →

Publicaciones científicas: www.hitz.eus/publications

Novedades

Subvencionado por

Departamento de Cultura y Política Lingüística del Gobierno Vasco