Síntesis y Reconocimiento del Habla

El grupo está comprometido con las tecnologías de procesado de voz y sus aplicaciones, con especial atención en las siguientes áreas:

  • Conversión de texto en habla: El grupo ha desarrollado su propio conversor de texto en habla multilenguaje, en Inglés, Castellano y Euskera. Nuestro sistema AhoTTS para el euskera (aholab.ehu.es/TTS) es el único desarrollado íntegramente en el País Vasco y públicamente disponible. También tiene capacidad de generar habla emocional.

  • Síntesis de voz: Se ha dedicado un gran esfuerzo investigador al desarrollo de algoritmos y tecnologías de generación de voces sintéticas, para incorporarlas en AhoTTS y evaluarlas. Durante los últimos 15 años se han desarrollado sistemas basados en, virtualmente, todas las tecnologías pinteras de generación de voz.

  • Música y canto: Se han explorado las aplicaciones de la síntesis de voz en este campo, desarrollando síntesis de voz cantada y una herramienta de procesado de señal para la enseñanza musical.
  • Modelado prosódico: Se han desarrollado modelos prosódicos y técnicas de generacion de prosodia específicos para el euskera, con especial atención a las técnicas de análisis y conversión prosódicas aplicadas al habla emocional.

  • Reconocimiento de habla: El grupo ha desarrollado varias bases de datos públicas para el desarrollo y pruebas de sistemas de reconocimiento de habla en euskera, disponibles a través de ELRA. También se ha desarrollado un reconocedor de palabras aisladas y conectadas de vocabulario reducido, y se está desarrollando un reconocedor de habla continua.

  • Reconocimiento de locutor y diarización: Hemos participado en diferentes proyectos nacionales relacionados con el reconocimiento de locutor. A día de hoy es unárea de investigación muy activa, con dos proyectos nacionales activos y varias colaboraciones internacionales (ver pubicaciones de 2010). LA detección de las emociones del hablante también ha sido una campo de investigación muy activo y productivo en os últimos 4 años.

  • Escucha automática: Tenemos experiencia en la extracción de información de señales vocales y sonoras, siendo el más importante logro la detección de ruidos en vehículos.

Investigador/a principal: 

ver más

tts_tabs

Demos

Proyectos

Publicaciones

Inge Salomons, Eder del Blanco, Eva Navas, Inma Hernáez 

Electrode Setup for Electromyography-Based Silent Speech Interfaces: A Pilot Study (2025)

del Blanco, E., Salomons, I., García, V., Navas, E., Hernáez, I. 

Comparative Analysis of Mono-speaker and Multi-speaker Models for EMG-to-Speech Conversion (2024)

Salomons, I., Hernáez, I., Navas, E., Wieling, M. 

Analyzing Speech Muscle Activity Using Generalized Additive Modeling (2024)

de Zuazo, X., Verbeni, V., Ku, L.-C., Arrieta, E., Barrena, A., Klimovich-Gray, A., Saratxaga, I., Navas, E., Agirre, E., Molinaro, N. 

#neural2speech: Decoding Speech and Language from the Human Brain (2024)

Külebi, B., Hernáez, I., Fernández Rei, E., Montoyo, A., Solito, S., Armentano-Oller, C., Hernando, J., Navas, E., Magariños, C., Vladu, A., Saratxaga, I., Sánchez, J., García Romillo, V., Herranz, A., Souganidis, C., García, N., Moscoso Sánchez, A., Regueira, X.L., Dubert, F., Gutiérrez, Y. 

Speech Technologies in the ILENIA Project: Generating Resources to Develop Voice Applications in the Official Languages of Spain (2024)

Herranz, A., García-Sebastián, A., Souganidis, C., García-Romillo, V., Bellanco, A., Navas, E., Hernáez-Rioja, I., Saratxaga, I. 

HiTZ-AhoLab ASR System for the Albayzin Bilingual Basque-Spanish Speech to Text Challenge (2024)

Souganidis, C., Meseguer, G., Herranz, A., Hernáez Rioja, I., Navas, E., Saratxaga, I. 

HiTZ-Aholab Speaker Diarization System for Albayzin Evaluations of IberSPEECH 2024 (2024)

Messaoudi, A., Solito, S., Costa, F., Hernández Mena, C.D., Casals-Salvador, M., Takanori Sanchez Shiromizu, L., Cortada Garcia, M., Armentano-Oller, C., Moscoso Sánchez, A., Magariños, C., González Corbelle, J., Herranz, A., Souganidis, C., Hernáez Rioja, I., Saratxaga, I., Navas, E. 

ILENIA_VOZ ASR System Fusion for Albayzin 2024 Speech to Text Challenge (2024)

Eneko Agirre, Itziar Aldabe, Xabier Arregi, Mikel Artetxe, Unai Atutxa, Ekhi Azurmendi, Iker de la Iglesia, Julen Etxaniz, Víctor García Romillo, Inma Hernáez Rioja, Asier Herranz, Mikel Iruskieta, Oier López de Lacalle, Eva Navas, Paula Ontalvilla, Aitor Ormazabal, Naiara Pérez, German Rigau, Oscar Sainz, Jon Sánchez, Ibon Saratxaga, Aitor Soroa, Christoforos Souganidis, Jon Vadillo, Aimar Zabala. 

IKER-GAITU: Research on Language Technology for Basque and Other Low-Resource Languages. (2024)

Eneko Agirre, Olatz Arbelaitz, Olatz Arregi, Gorka Azkune, Arantza Casillas, Inma Hernáez, Mikel Iruskieta, Elena Lazkano, Eva Navas, German Rigau, Roberto Santana, Aitor Soroa, Rabih Zbib 

ENIA Chair in Artificial Intelligence and Language Technology (2024)

All HiTZ publications