Latxa - el mayor modelo de lenguaje jamás creado para el euskera

26 de enero de 2024

HiTZ Zentroa desarrolla el mayor modelo del lenguaje para el euskera: Latxa.

Nos complace presentar la familia de modelos Latxa, los LLM (Modelos de Lenguaje a Gran Escala) más grandes y de mejor rendimiento disponibles para el euskera. Latxa es una raza de oveja doméstica nativa del País Vasco, famosa por su queso.

Nuestra Latxa es una familia de modelos con parámetros LLM que varían entre 7 a 70 mil millones, y que estan basadas en los modelos LLaMA de Meta. Los LLM actuales exhiben un rendimiento increíble para idiomas de alto recurso como el inglés, siendo ChatGPT el ejemplo más popular. Pero, en el caso del euskera y otros idiomas de bajo recurso, su rendimiento es significativamente menor, lo que amplia la brecha tecnológica entre los idiomas de alto y bajo recurso en cuanto a herramientas digitales. Presentamos Latxa para superar estas limitaciones y promover el desarrollo de investigación, innovación y productos basados en LLM para el euskera. Este trabajo ha sido parcialmente apoyado por el Gobierno Vasco (proyecto IKER-GAITU).

La familia de modelos Latxa son modelos base de LLM preentrenados, sin un ajuste adicional en instrucciones o preferencias orientadas al usuario. Por lo tanto, estos modelos no son para uso directo por el público en general. Sin embargo, estos modelos son clave para construir herramientas de PNL exitosas para el euskera. Ponemos a disposición estos modelos abiertos para ser utilizados por técnicos que saben cómo incluir tales LLM base en aplicaciones para usuarios finales, o saben cómo adaptarlos mediante un ajuste fino. Estamos trabajando en modelos que sigan instrucciones, pero construir modelos para el euskera que sean aptos para el uso diario con una calidad similar a GPT continuá siendo un problema de investigación abierto si se pueden construir. Los modelos latxa se han desarrollado utilizando GPUs popias, pero los modelos finales se han entrenado en el superordenador Leonardo de CINECA bajo el proyecto de tipo "EuroHPC Joint Undertaking" (proyecto EHPC-EXT-2023E01-013).

Para entrenar latxa utilizamos EusCrawl, un corpus de alta calidad para el euskera que comprende 1.72 millones de documentos y 288 millones de palabras, con un total de 2.1GiB de texto sin comprimir. EusCrawl se construyó utilizando rastreadores ad-hoc y extrayendo texto con licancias abiertas y acceso públco de 33 sitios web vascos con contenido de alta calidad, resultando en un texto más limpio en comparación con los enfoques de propósito general.

Hemos evaluado los modelos latxa en un conjunto de tareas diversas y desafiantes. Las tareas evalúan el rendimiento de los modelos para una variedad de competencias lingüísticas como la comprensión lectora, el razonamiento de sentido común, el análisis de sentimientos, stance detection, la clasificación de documentos, la correlación, la inferencia y los sentidos de las palabras (ver las fichas de los modelos en HuggingFace para obtener más detalles sobre los conjuntos de datos de evaluación y el procedimiento). Los resultados indican claramente la superioridad de nuestros tres modelos, así como la mejora de los resultados a medida que aumentamos el tamaño del modelo.

Los modelos Latxa heredan la Licencia LLaMA-2, que permite su uso para investigación y también fines comerciales. Aunque basado en un LLM en inglés, latxa está pensado para ser utilizado con textos en euskera, y por lo tanto su rendimiento en otros idiomas no está garantizado. Los modelos están disponibles públicamente en la plataforma HuggingFace (ver ficha técnica para obtener más información técnica y para comenzar a trabajar con los modelos).

Esta primera versión será esencial para construir herramientas para el gran público como chatbots.

Más información: