IKER-GAITU | Investigando en Tecnología del Lenguaje

Sobre el proyecto

Impulsando el euskera en la era digital

El objetivo general del proyecto IKER-GAITU es investigar en tecnología del lenguaje para aumentar la presencia del euskera en el entorno digital. El proyecto se ha llevado a cabo entre 2023 y 2025 gracias a la subvención del Departamento de Cultura y Política Lingüística del Gobierno Vasco.

Las tecnologías actuales y futuras requieren enormes cantidades de datos textuales y orales para cada idioma, pero los datos que el euskera y otros idiomas más pequeños pueden ofrecer en la actualidad no son suficientes para que estas tecnologías tengan la calidad necesaria. Por lo tanto, es fundamental investigar en tecnología del lenguaje para que el euskera tenga presencia en esa tecnología que será cada vez más común y así alcanzar el nivel de otros idiomas.

Logros 2023-2025

Objetivos alcanzados

Desarrollar un sistema que reconozca automáticamente el nivel de competencia del euskera, tanto escrito como oral

Acercar la tecnología de voz personalizada a personas con discapacidad

Desarrollar un sistema de transcripción de voz espontánea, incluso cuando se mezclan el euskera y el castellano y hay varios hablantes

Lograr que los sistemas de conversación textuales más potentes (como ChatGPT o Gemini) funcionen en euskera al mismo nivel que en otros idiomas

Recursos disponibles

Resultados

En el centro HiTZ hemos creado modelos, código y datos para el euskera que están disponibles para todos. Los hemos organizado en tres categorías según el perfil del usuario. Salvo que se indique lo contrario, todos tienen licencias abiertas (incluyendo uso comercial).

🏠 Para usar en casa y en el trabajo

Chatbot

Latxa Chatbot

Chatbot general en euskera disponible para probar

latxa.hitz.eus → ⚠️ Pronto disponible para uso masivo

Demo

Reconocimiento y síntesis de voz

Demos de sistemas de reconocimiento y generación de voz

Ver demos →

🏢 Para crear productos innovadores en la industria y administración

Demos

Demos y APIs de voz

Demos de productos que combinan nuestras tecnologías

HiTZketan →

Demo

Demostradores ILENIA

Demostradores del proyecto ILENIA

Ver demos →

Modelos públicos

Familia Latxa

Modelos de diferentes tamaños. El 70B es el mejor; el 8B es más rápido.

Colección 70B 8B

ASR - Reconocimiento de voz

Sistema de reconocimiento automático del habla

Demo Modelos libres

TTS - Síntesis de voz

Sistema de generación de voz

Demos Sistema

¿Necesitas acceso por API? Contacta: transfer.hitz@ehu.eus

🔬 Para investigación y desarrollo avanzado

Además de lo anterior, todos nuestros modelos, código y datos especializados están en repositorios públicos:

🤗 HuggingFace 📦 GitHub

Datasets destacados

Datos para Latxa

Datos utilizados para construir Latxa

Ver datos →

Datos ASR (abiertos)

Datos para crear sistemas de reconocimiento de voz

Ver datos →

Datos TTS (abiertos)

Datos para crear sistemas de síntesis de voz

Ver datos →

Publicaciones científicas: www.hitz.eus/publications

Impulsando el euskera en la era digital

Objetivos alcanzados

Desarrollar un sistema que reconozca automáticamente el nivel de competencia del euskera, tanto escrito como oral

Acercar la tecnología de voz personalizada a personas con discapacidad

Desarrollar un sistema de transcripción de voz espontánea, incluso cuando se mezclan el euskera y el castellano y hay varios hablantes

Lograr que los sistemas de conversación textuales más potentes (como ChatGPT o Gemini) funcionen en euskera al mismo nivel que en otros idiomas

Resultados

🏠 Para usar en casa y en el trabajo

Latxa Chatbot

Reconocimiento y síntesis de voz

🏢 Para crear productos innovadores en la industria y administración

Demos y APIs de voz

Demostradores ILENIA

Modelos públicos

Familia Latxa

ASR - Reconocimiento de voz

TTS - Síntesis de voz

🔬 Para investigación y desarrollo avanzado

Datasets destacados

Datos para Latxa

Datos ASR (abiertos)

Datos TTS (abiertos)

Novedades

El centro HiTZ descubre una nueva manera de crear chatbots para lenguas pequeñas

Ya está en marcha 'ebaluatoia', una iniciativa de dos semanas para mejorar el chatbot abierto en euskera

¿Cuál es el mejor modelo de lenguaje en euskera? El centro HiTZ confronta la nueva Latxa con otros como GPT

Premio internacional al trabajo sobre Latxa del centro HiTZ, aumentando el peso del euskera en la investigación

Disponible el Sistema de Reconocimiento de Habla en Euskera

El centro HiTZ mejora Latxa, el mayor modelo de lenguaje para el euskera, y ya supera al ChatGPT original

Presentamos la familia de modelos de lenguaje abiertos Latxa, con el mayor y mejor modelo lingüístico para el euskera

Presentación del acuerdo entre HiTZ zentroa y Departamento de Cultura y Política Lingüística del Gobierno Vasco

Subvencionado por