Synthèse et reconnaissance vocales [FR]

Le groupe est dédié aux technologies de traitement de la parole et à ses applications, en se concentrant sur les domaines spécifiques suivants :

  • Conversion texte-parole: Le groupe dispose de son propre système de conversion texte-parole multilingue, qui fonctionne en anglais, espagnol et basque. Notre système AhoTTS pour basque (aholab.ehu.es/TTS) est le seul développé entièrement au Pays Basque et il est disponible gratuitement. Il est également capable de générer du discours synthétique émotionnel.

  • Synthèse vocale : Un grand effort de recherche est consacré aux algorithmes et technologies de génération synthétique de la parole, à intégrer dans AhoTTS pour son évaluation. Pratiquement toutes les technologies de pointe de génération de la parole ont été développées et évaluées au cours des 15 dernières années.

  • Musique et chant : On a exploré les applications de la synthèse vocale dans ce domaine, développant la synthèse de voix chantée et un outil de traitement du signal pour l'éducation musicale.

  • Modélisation de la prosodie : Des modèles de prosodie et des techniques de génération de prosodie ont été développés spécifiquement pour la langue basque. L'accent a été mis sur l'analyse de la prosodie et sur les techniques de conversion appliquées à la génération de la parole émotionnelle.

  • Reconnaissance de la parole : Le groupe a développé plusieurs banques de données vocales pour le développement et la validation de systèmes de reconnaissance de la parole en basque, tous disponibles via ELRA. Un système de reconnaissance d'un vocabulaire réduit de mots isolés et reliés entre eux a également été mis au point pour le basque, et un système de reconnaissance continue de la parole est en cours d'élaboration.

  • Reconnaissance du locuteur et diarisation du locuteur : Nous avons participé dans le passé à plusieurs projets nationaux sur le sujet de la reconnaissance du locuteur. Il s'agit actuellement d'un domaine de recherche très actif, avec 2 projets nationaux en cours et plusieurs collaborations internationales (voir publications de 2010). La reconnaissance des émotions du locuteur a également été un domaine de recherche très actif et productif au cours des 4 dernières années.

  • Écoute automatique : Nous avons de l'expérience dans l'extraction d'information à partir de signaux vocaux et sonores, la réalisation la plus importante étant la détection de bruits dans les véhicules.

Chercheur/se principal/e: 

voir plus

tts_tabs

Demos

Projects

Publications

Inge Salomons, Eder del Blanco, Eva Navas, Inma Hernáez 

Electrode Setup for Electromyography-Based Silent Speech Interfaces: A Pilot Study (2025)

del Blanco, E., Salomons, I., García, V., Navas, E., Hernáez, I. 

Comparative Analysis of Mono-speaker and Multi-speaker Models for EMG-to-Speech Conversion (2024)

Salomons, I., Hernáez, I., Navas, E., Wieling, M. 

Analyzing Speech Muscle Activity Using Generalized Additive Modeling (2024)

de Zuazo, X., Verbeni, V., Ku, L.-C., Arrieta, E., Barrena, A., Klimovich-Gray, A., Saratxaga, I., Navas, E., Agirre, E., Molinaro, N. 

#neural2speech: Decoding Speech and Language from the Human Brain (2024)

Külebi, B., Hernáez, I., Fernández Rei, E., Montoyo, A., Solito, S., Armentano-Oller, C., Hernando, J., Navas, E., Magariños, C., Vladu, A., Saratxaga, I., Sánchez, J., García Romillo, V., Herranz, A., Souganidis, C., García, N., Moscoso Sánchez, A., Regueira, X.L., Dubert, F., Gutiérrez, Y. 

Speech Technologies in the ILENIA Project: Generating Resources to Develop Voice Applications in the Official Languages of Spain (2024)

Herranz, A., García-Sebastián, A., Souganidis, C., García-Romillo, V., Bellanco, A., Navas, E., Hernáez-Rioja, I., Saratxaga, I. 

HiTZ-AhoLab ASR System for the Albayzin Bilingual Basque-Spanish Speech to Text Challenge (2024)

Souganidis, C., Meseguer, G., Herranz, A., Hernáez Rioja, I., Navas, E., Saratxaga, I. 

HiTZ-Aholab Speaker Diarization System for Albayzin Evaluations of IberSPEECH 2024 (2024)

Messaoudi, A., Solito, S., Costa, F., Hernández Mena, C.D., Casals-Salvador, M., Takanori Sanchez Shiromizu, L., Cortada Garcia, M., Armentano-Oller, C., Moscoso Sánchez, A., Magariños, C., González Corbelle, J., Herranz, A., Souganidis, C., Hernáez Rioja, I., Saratxaga, I., Navas, E. 

ILENIA_VOZ ASR System Fusion for Albayzin 2024 Speech to Text Challenge (2024)

Eneko Agirre, Itziar Aldabe, Xabier Arregi, Mikel Artetxe, Unai Atutxa, Ekhi Azurmendi, Iker de la Iglesia, Julen Etxaniz, Víctor García Romillo, Inma Hernáez Rioja, Asier Herranz, Mikel Iruskieta, Oier López de Lacalle, Eva Navas, Paula Ontalvilla, Aitor Ormazabal, Naiara Pérez, German Rigau, Oscar Sainz, Jon Sánchez, Ibon Saratxaga, Aitor Soroa, Christoforos Souganidis, Jon Vadillo, Aimar Zabala. 

IKER-GAITU: Research on Language Technology for Basque and Other Low-Resource Languages. (2024)

Eneko Agirre, Olatz Arbelaitz, Olatz Arregi, Gorka Azkune, Arantza Casillas, Inma Hernáez, Mikel Iruskieta, Elena Lazkano, Eva Navas, German Rigau, Roberto Santana, Aitor Soroa, Rabih Zbib 

ENIA Chair in Artificial Intelligence and Language Technology (2024)

All HiTZ publications