EDHIA

El proyecto EDHIA se enmarca en un esfuerzo coordinado para avanzar en la detección temprana de diversas enfermedades de alto impacto a través de la aplicación de procesamiento del lenguaje natural (PLN) e inteligencia artificial (IA) en documentos médicos. El objetivo final es desarrollar herramientas que puedan procesar grandes volúmenes de datos clínicos—como los Registros Electrónicos de Salud (EHRs), notas clínicas y literatura científica—para identificar factores de riesgo tempranos y apoyar a los profesionales de la salud en el diagnóstico e intervención precoz.

Objetivo y Alcance:

Salud Mental: Mejorar la detección temprana de problemas de salud mental, especialmente aquellos que suelen ser subreportados o estigmatizados, como las tendencias suicidas. El proyecto utiliza técnicas de PLN para procesar los registros de los pacientes y detectar riesgos potenciales que de otro modo podrían pasar desapercibidos para los médicos.

Detección de VIH: Optimizar el diagnóstico de infecciones por VIH mediante PLN, identificando oportunidades perdidas de pruebas e intervención en los registros de pacientes, apoyando el objetivo 95-95-95 de la Organización Mundial de la Salud para la gestión del VIH en 2030.

Enfermedades Raras: Enfocarse en mejorar la calidad de vida de los pacientes con enfermedades raras (ER), en particular niños. Esto implica identificar la conexión entre las malformaciones congénitas y su evolución en la salud mental, junto con otros determinantes sociales de la salud.

Complicaciones Cardiovasculares: Predecir factores de riesgo relacionados con las enfermedades cardiovasculares, especialmente tras un primer episodio de Fibrilación Auricular, utilizando IA y PLN en datos estructurados como informes de electrocardiogramas y notas clínicas no estructuradas.

Duración y Colaboración:

El proyecto tiene una duración de 36 meses y cuenta con la colaboración entre varias instituciones académicas líderes:

- HiTZ (Centro Vasco de Tecnología del Lenguaje): Se centra en modelos de lenguaje y anotación de corpus.
- UNED (Universidad Nacional de Educación a Distancia): Lidera el esfuerzo en el desarrollo de herramientas computacionales para el PLN en el ámbito médico.

Metodología:

El proyecto utilizará una combinación de datos estructurados y no estructurados, aplicando técnicas avanzadas de PLN como la detección de patrones temporales, el enriquecimiento de ontologías médicas y el ajuste de modelos de lenguaje para apoyar las tareas de detección temprana. Estas herramientas se adaptarán a entornos multilingües, lo que hará que las soluciones sean aplicables en diversos contextos lingüísticos.

Esta colaboración asegura la generalización de los sistemas desarrollados a través de diferentes conjuntos de datos del ámbito sanitario, con el objetivo de proporcionar soluciones escalables que puedan aplicarse en hospitales y sistemas de salud diversos.

Ayudas Económicas: Departamento de Cultura y Política Lingüística

Noticias

2024ko urtarrilaren 26

Pozarren aurkezten dugu Latxa eredu irekien familia, euskarazko hizkuntza eredurik handiena eta hoberena duena.

2023ko irailaren 25

HiTZ zentroa eta Eusko Jaurlaritzako Kultura eta Hizkuntza Politika sailaren arteko akordioa.

Publicaciones

Santamaria, E. A., de Lacalle, O. L., Atutxa, A., Gojenola, K.: (2025). Do Entailment Models know about Reasoning Temporal Ordering on Clinical Texts? Procesamiento del Lenguaje Natural 74: 349-362.

Lebeña, N., Blanco, A., Casillas, A., Oronoz, M., Pérez, A.: (2025). Clinical Federated Learning for Private ICD-10 Classification of Electronic Health Records from Several Spanish Hospitals. Procesamiento del Lenguaje Natural 74: 33-42.

García-Olea, A., Domingo-Aldama, A. G., Merino, M., Gojenola, K., Goikoetxea, J., Atutxa, A., Ormaetxe, J. M.: (2025). The Application of Deep Learning Tools on Medical Reports to Optimize the Input of an Atrial-Fibrillation-Recurrence Predictive Model. Journal of Clinical Medicine 14 (7): 2297.

Iker De la Iglesia, Iakes Goenaga, Johanna Ramirez-Romero, Jose Maria Villa-Gonzalez, Josu Goikoetxea, and Ander Barrena. 2025. Ranking Over Scoring: Towards Reliable and Robust Automated Evaluation of LLM-Generated Medical Explanatory Arguments. In Proceedings of the 31st International Conference on Computational Linguistics, pages 9456–9471, Abu Dhabi, UAE. Association for Computational Linguistics.

JR Martinez-Rico, L Araujo, J Martinez-Romo (2024). Building a framework for fake news detection in the health domain. Plos one 19 (7), e0305362.

Fernandez-Hernandez, J., Araujo, L., & Martinez-Romo, J. (2024). Generation of social network user profiles and their relationship with suicidal behaviour. Procesamiento del Lenguaje Natural, 72, 87-98.

Morales-Sánchez, R., Montalvo, S., Riaño, A., Martínez, R., & Velasco, M. (2024). Early diagnosis of HIV cases by means of text mining and machine learning models on clinical notes. Computers in Biology and Medicine, 179, 108830.

Lebeña, N., Pérez, A., & Casillas, A. (2024). Quantifying decision support level of explainable automatic classification of diagnoses in Spanish medical records. Computers in Biology and Medicine, 182, 109127.

Iñigo Alonso, Maite Oronoz, Rodrigo Agerri (2024). MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering. Artificial Intelligence in Medicine, 2024.

Iakes Goenaga, Aitziber Atutxa, Koldo Gojenola, Maite Oronoz, Rodrigo Agerri (2024), Explanatory argument extraction of correct answers in resident medical exams, Artificial Intelligence in Medicine Volume 157, November 2024, 102985.

Martinez-Romo, J., Huesca-Barril, J. F., Araujo, L., & Marin, E. D. L. C. (2024). UNED-UNIOVI at EmoSPeech-IberLEF2024: Emotion Identification in Spanish by Combining Multimodal Textual Analysis and Machine Learning Methods. In Proceedings of the Iberian Languages Evaluation Forum (IberLEF 2024), co-located with the 40th Conference of the Spanish Society for Natural Language Processing (SEPLN 2024), CEURWS. Org.

Sierra-Callau, M., Rodríguez-García, M. Á., Montalvo-Herranz, S., & Martínez-Unanue, R. (2024). UNED_MRES Team at MentalRiskES2024: Exploring Hybrid Approaches to Detect Mental Disorder Risks in Social Media.

Arana, J., Idoyaga, M., Urruela, M., Espina, E., Salazar, A. A., & Gojenola, K. (2024, May). A Virtual Patient Dialogue System Based on Question-Answering on Clinical Records. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 2017-2027).

Fabregat, H., Deniz, D., Duque, A., Araujo, L., & Martinez-Romo, J. (2024). NLP-UNED at eRisk 2024: approximate nearest neighbors with encoding refinement for early detecting signs of anorexia. Working Notes of CLEF, 9-12.

Sánchez de Castro, A., Araujo, L., & Martinez-Romo, J. (2024). Generative LLMs for Multilingual Temporal Expression Normalization. In ECAI 2024 (pp. 3789-3796). IOS Press.

Larrayoz, X., Casillas, A., Oronoz, M., & Pérez, A. (2024). Mental Disorder Detection in Spanish: hands on skewed class distribution to leverage training. In IberLEF (Working Notes). CEUR Workshop Proceedings.

Anar Yeginbergen, Maite Oronoz, Rodrigo Agerri (2024). Argument Mining in Data Scarce Settings: Cross-lingual Transfer and Few-shot Techniques. Proceedings of the 2024 Main Conference of the Association for Computational Linguistics (ACL 2024). August 11th to 16th, 2024. Bangkok, Thailand.

Fernandez-Hernandez, J., Fabregat, H., Duque, A., Araujo, L., & Martinez-Romo, J. (2024). UNED-GELP at MentalRiskES 2024: Transformer-Based Encoders and Similarity Techniques for Early Risk Prediction of Mental Disorders. In IberLEF (Working Notes). CEUR Workshop Proceedings.

Jordan Koontz, Maite Oronoz, Alicia Pérez: (2024). Ixa-Med at Discharge Me! Retrieval-Assisted Generation for Streamlining Discharge Documentation. BioNLP@ACL 2024: 658-663.

Maite Oronoz, Sara Gracia, Jose Mari González, Alicia Pérez (2024). Suizidio-zantzuak sare sozialetan: ingelesez eta gaztelaniaz hizkuntza-ezaugarriak berdinak al dira? EKAIA: Zientzia eta Teknologia aldizkaria. 2024ko XX alea.

Nuria Lebeña, Arantza Casillas, and Alicia Pérez. (2024). Temporal Name Entity Recognition and Relation Extraction in Clinical Electronic Health Records with Span-based Entity and Relation Transformer. In Proceedings of the 2024 14th International Conference on Bioscience, Biochemistry and Bioinformatics (ICBBB '24). Association for Computing Machinery, New York, NY, USA, 48–54. https://doi.org/10.1145/3640900.3640901.

Jordan Koontz, Maite Oronoz, Alicia Pérez: (2023). Evaluating Data Augmentation for Medication Identification in Clinical Notes. RANLP 2023: 578-585.

Recursos Creados

EriBERTa: Un Modelo de Lenguaje Preentrenado Bilingüe para el Procesamiento del Lenguaje Natural Clínico

EriBERTa es un modelo de lenguaje bilingüe especializado en los campos médico y clínico, preentrenado en amplios corpus médicos. Hemos demostrado que EriBERTa supera a los modelos de lenguaje anteriores en el dominio médico, gracias a su capacidad superior para comprender textos médicos y extraer información significativa. Además, EriBERTa muestra grandes capacidades de aprendizaje por transferencia, permitiendo transferir el conocimiento de un idioma a otro. Esto es particularmente útil dada la escasez de datos clínicos en español.

EriBERTa en Hugging Face

EDHIA

Aplicando Tecnologia del Lenguaje a la Salud

Noticias

Publicaciones

Recursos Creados

EriBERTa: Un Modelo de Lenguaje Preentrenado Bilingüe para el Procesamiento del Lenguaje Natural Clínico