(121) EuMediCS - Euskarazko Medikuntzaren Domeinuko Corpus Sintetikoa, Itzultzaile Automatikoen Ekarpena

Ane G. Domingo-Aldama1, Irune Palacios1, Maitane Urruela1, Iker De la Iglesia1, Ander Barrena1, Josu Goikoetxea1
1Universidad del Pais Vasco (UPV) / Euskal Herriko Unibertsitatea (EHU)

Laburpena

Laburpena: Azken urteotan, Hizkuntza Eredu Handiek (HEH) adimen artifizialaren alorra erabat irauli dute, itzulpena eta testu-sintesia bezalako zereginetan berebiziko arrakasta lortuz. Medikuntzaren domeinuan ere, eredu hauek jarduera-maila handia erakutsi dute, zenbait kasutan gizakion errendimendura hurbilduz, zeregin horietarako berariaz elikatu direnean. Hala ere, HEH espezializatuen inguruko aurrerapen gehienak baliabide ugari dituzten hizkuntzetan egin dira, hala nola, ingelesean. Azken hau euskara bezalako hizkuntza gutxituen kalterako da, hizkuntza hauetako HEHak urriak eta kalitate baxuagokoak baitira, eta medikuntza bezalako domeinu espezializatuetan sarritan existitu ere ez dira egiten. Gauzak horrela, proiektu honen helburua euskarazko medikuntzaren domeinuko lehenengo corpusa sortzea da, etorkizunean domeinu horretako HEH bat elikatuko duena. Hori lortze aldera, lehenik, medikuntzaren domeinuko hiru itzulpen-eredu aurkeztuko dira, gaztelaniazko eta ingelesezko testuak euskarara itzultzen dituztenak; ondoren, hiru itzulpen-eredu horien kalitatea ebaluatuko da; azkenik, eredurik egokiena aukeratuko da eta masiboki itzuliko dira testuak euskarara. Hala, lan hau domeinura egokitutako euskarazko HEH sorkuntzan aitzindaria da, eta, zehazki, medikuntzaren domeinuan. Abstract: In recent years, Large Language Models (LLM) have significantly transformed the field of artificial intelligence, achieving remarkable success in tasks such as translation and text synthesis. In the medical domain, these models have also demonstrated great performance, even reaching the human level in some cases, when they have been specifically trained for the task. However, most of the advancements using LLMs have been made in high-resource languages like English, which means a great disadvantage for low-resource languages like Basque, since the LLMs trained in these languages are few and of low quality in comparison, due to the lack of data. Moreover, in specific domains like medicine, these models do not even exist in most cases. To address this gap, this project aims to create the first medical-domain corpus in Basque, in order to train an LLM in that context. To achieve this, we propose three translation models capable of translating from Spanish and English to Basque. Then, the quality of these translation models will be evaluated, ultimately selecting the best of them for a large-scale translation of medical texts into Basque. This work represents a pioneering effort in developing specialized LLMs for Basque, particularly in the medical domain.

Gako-hitzak: Hizkuntza Eredu Handiak, Itzulpen Automatiko Neuronala, Euskarazko Corpusa, Medikuntza, Large Language Models, Neural Machine Translation, Basque Corpus, Medical-domain