EDHIA

EDHIA proiektua ahalegin koordinatu baten barruan kokatzen da, gaixotasun handien detekzio goiztiarra aurrera eramateko hizkuntzaren prozesamendua (HP) eta adimen artifiziala (AA) dokumentu medikoetan aplikatuz. Helburu nagusia tresnak garatzea da , osasun-datu klinikoen bolumen handiak prozesatzeko gai direnak —Osasun Erregistro Elektronikoak (OEE), ohar klinikoak eta literatura zientifikoa, besteak beste— arrisku faktoreak goiz detektatzeko eta osasun-profesionalei diagnostiko eta esku-hartze goiztiarrean laguntzeko.

Helburua eta Eremua:

Osasun Mentala: Osasun mentaleko arazoen detekzio goiztiarra hobetzea, bereziki gutxiago aipatzen diren edo estigmatizatuak diren kasuak, esaterako, suizidio joerak. Proiektuak HP teknikak erabiltzen ditu pazienteen erregistroak aztertzeko eta bestela medikuek nabarituko ez lituzketen arrisku potentzialak detektatzeko.

HIESaren Detekzioa: HIES infekzioen diagnostikoa hobetzea HP bidez, pazienteen erregistroetan probak egiteko eta esku-hartzeko aukerak galdu diren egoerak identifikatuz, Osasunaren Mundu Erakundearen 2030erako 95-95-95 helburuarekin bat eginez.

Gaixotasun Arraroak: Gaixotasun arraroak dituzten pazienteen, batez ere haurren, bizi kalitatea hobetzea. Malformazio kongenitoen eta haien osasun mentalaren bilakaeraren arteko lotura identifikatzea eta osasun-determinante sozialak aztertzea dakar honek.

Bihotz-Biriketako Konplikazioak: Bihotz-gaixotasunei lotutako arrisku-faktoreak aurreikustea, bereziki Fibrilazio Aurikularreko lehenengo gertaeraren ostean, adimen artifiziala eta hizkuntzaren prozesamendua aplikatuz elektrokardiograma txostenak eta ohar kliniko ez-egituratuak baliatuta.

Iraupena eta Elkarlana:

Proiektuak 36 hilabeteko iraupena du, eta bi akademia-erakunde nagusiren arteko lankidetza eskatzen du:

- HiTZ (Hizkuntza Teknologiako Euskal Zentroa): Hizkuntza-ereduak eta korpusen anotazioan espezializatua.
- UNED (Hezkuntza Distantziarako Espainiako Unibertsitatea): HP tresna konputazionalen garapenean buru den taldea.

Metodologia:

Proiektuak egituratutako eta ez-egituratutako datuak erabiliko ditu, HPren teknika aurreratuak aplikatuz, hala nola denborazko patroiak detektatzea, medikuntzako ontologien aberastea eta hizkuntza-ereduen doitzea, detekzio goiztiarraren zereginak laguntzeko. Tresna hauek ingurune eleanitzetara egokituko dira, soluzioak hainbat testuinguru linguistikotan aplika daitezen.

Lankidetza honek garatutako sistemen orokortasuna bermatzen du osasun-datu multzo desberdinetan, eta ospitale eta osasun-sistema ezberdinetan aplika daitezkeen soluzio eskalagarriak eskaintzea du helburu.

Dirulaguntza: Kultura eta Hizkuntza Politika Saila

Berriak

2024ko urtarrilaren 26

Pozarren aurkezten dugu Latxa eredu irekien familia, euskarazko hizkuntza eredurik handiena eta hoberena duena.

Gehiago irakurri

2023ko irailaren 25

HiTZ zentroa eta Eusko Jaurlaritzako Kultura eta Hizkuntza Politika sailaren arteko akordioa.

Gehiago irakurri

Argitalpenak

Santamaria, E. A., de Lacalle, O. L., Atutxa, A., Gojenola, K.: (2025). Do Entailment Models know about Reasoning Temporal Ordering on Clinical Texts? Procesamiento del Lenguaje Natural 74: 349-362.

Lebeña, N., Blanco, A., Casillas, A., Oronoz, M., Pérez, A.: (2025). Clinical Federated Learning for Private ICD-10 Classification of Electronic Health Records from Several Spanish Hospitals. Procesamiento del Lenguaje Natural 74: 33-42.

García-Olea, A., Domingo-Aldama, A. G., Merino, M., Gojenola, K., Goikoetxea, J., Atutxa, A., Ormaetxe, J. M.: (2025). The Application of Deep Learning Tools on Medical Reports to Optimize the Input of an Atrial-Fibrillation-Recurrence Predictive Model. Journal of Clinical Medicine 14 (7): 2297.

Iker De la Iglesia, Iakes Goenaga, Johanna Ramirez-Romero, Jose Maria Villa-Gonzalez, Josu Goikoetxea, and Ander Barrena. 2025. Ranking Over Scoring: Towards Reliable and Robust Automated Evaluation of LLM-Generated Medical Explanatory Arguments. In Proceedings of the 31st International Conference on Computational Linguistics, pages 9456–9471, Abu Dhabi, UAE. Association for Computational Linguistics.

JR Martinez-Rico, L Araujo, J Martinez-Romo (2024). Building a framework for fake news detection in the health domain. Plos one 19 (7), e0305362.

Fernandez-Hernandez, J., Araujo, L., & Martinez-Romo, J. (2024). Generation of social network user profiles and their relationship with suicidal behaviour. Procesamiento del Lenguaje Natural, 72, 87-98.

Morales-Sánchez, R., Montalvo, S., Riaño, A., Martínez, R., & Velasco, M. (2024). Early diagnosis of HIV cases by means of text mining and machine learning models on clinical notes. Computers in Biology and Medicine, 179, 108830.

Lebeña, N., Pérez, A., & Casillas, A. (2024). Quantifying decision support level of explainable automatic classification of diagnoses in Spanish medical records. Computers in Biology and Medicine, 182, 109127.

Iñigo Alonso, Maite Oronoz, Rodrigo Agerri (2024). MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering. Artificial Intelligence in Medicine, 2024.

Iakes Goenaga, Aitziber Atutxa, Koldo Gojenola, Maite Oronoz, Rodrigo Agerri (2024), Explanatory argument extraction of correct answers in resident medical exams, Artificial Intelligence in Medicine Volume 157, November 2024, 102985.

Martinez-Romo, J., Huesca-Barril, J. F., Araujo, L., & Marin, E. D. L. C. (2024). UNED-UNIOVI at EmoSPeech-IberLEF2024: Emotion Identification in Spanish by Combining Multimodal Textual Analysis and Machine Learning Methods. In Proceedings of the Iberian Languages Evaluation Forum (IberLEF 2024), co-located with the 40th Conference of the Spanish Society for Natural Language Processing (SEPLN 2024), CEURWS. Org.

Sierra-Callau, M., Rodríguez-García, M. Á., Montalvo-Herranz, S., & Martínez-Unanue, R. (2024). UNED_MRES Team at MentalRiskES2024: Exploring Hybrid Approaches to Detect Mental Disorder Risks in Social Media.

Arana, J., Idoyaga, M., Urruela, M., Espina, E., Salazar, A. A., & Gojenola, K. (2024, May). A Virtual Patient Dialogue System Based on Question-Answering on Clinical Records. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 2017-2027).

Fabregat, H., Deniz, D., Duque, A., Araujo, L., & Martinez-Romo, J. (2024). NLP-UNED at eRisk 2024: approximate nearest neighbors with encoding refinement for early detecting signs of anorexia. Working Notes of CLEF, 9-12.

Sánchez de Castro, A., Araujo, L., & Martinez-Romo, J. (2024). Generative LLMs for Multilingual Temporal Expression Normalization. In ECAI 2024 (pp. 3789-3796). IOS Press.

Larrayoz, X., Casillas, A., Oronoz, M., & Pérez, A. (2024). Mental Disorder Detection in Spanish: hands on skewed class distribution to leverage training. In IberLEF (Working Notes). CEUR Workshop Proceedings.

Anar Yeginbergen, Maite Oronoz, Rodrigo Agerri (2024). Argument Mining in Data Scarce Settings: Cross-lingual Transfer and Few-shot Techniques. Proceedings of the 2024 Main Conference of the Association for Computational Linguistics (ACL 2024). August 11th to 16th, 2024. Bangkok, Thailand.

Fernandez-Hernandez, J., Fabregat, H., Duque, A., Araujo, L., & Martinez-Romo, J. (2024). UNED-GELP at MentalRiskES 2024: Transformer-Based Encoders and Similarity Techniques for Early Risk Prediction of Mental Disorders. In IberLEF (Working Notes). CEUR Workshop Proceedings.

Jordan Koontz, Maite Oronoz, Alicia Pérez: (2024). Ixa-Med at Discharge Me! Retrieval-Assisted Generation for Streamlining Discharge Documentation. BioNLP@ACL 2024: 658-663.

Maite Oronoz, Sara Gracia, Jose Mari González, Alicia Pérez (2024). Suizidio-zantzuak sare sozialetan: ingelesez eta gaztelaniaz hizkuntza-ezaugarriak berdinak al dira? EKAIA: Zientzia eta Teknologia aldizkaria. 2024ko XX alea.

Nuria Lebeña, Arantza Casillas, and Alicia Pérez. (2024). Temporal Name Entity Recognition and Relation Extraction in Clinical Electronic Health Records with Span-based Entity and Relation Transformer. In Proceedings of the 2024 14th International Conference on Bioscience, Biochemistry and Bioinformatics (ICBBB '24). Association for Computing Machinery, New York, NY, USA, 48–54. https://doi.org/10.1145/3640900.3640901.

Jordan Koontz, Maite Oronoz, Alicia Pérez: (2023). Evaluating Data Augmentation for Medication Identification in Clinical Notes. RANLP 2023: 578-585.

Sortutako Baliabideak

EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing

EriBERTa osasunaren eta klinikaren alorreko hizkuntza-eredu elebiduna da, medikuntza alorreko corpus zabaletan aurrez trebatu dena. EriBERTak medikuntza domeinuko aurreko hizkuntza-ereduak gainditzen dituela frogatu dugu, testu medikoak ulertzeko eta informazio esanguratsua ateratzeko duen gaitasun nagusiari esker. Gainera, EriBERTak transferentzia-ikaskuntzaren inguruko ahalmen handiak erakusten ditu, hizkuntza batetik bestera ezagutza transferitzeko aukera emanez. Hau bereziki lagungarria da Espainiako datu klinikoen eskasia kontuan hartuta.

EriBERTa Hugging Face-en

EDHIA

Hizkuntza Teknologia Osasun Alorrean Aplikatzen

Berriak

Argitalpenak

Sortutako Baliabideak

EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing