Jaione Bengoetxea Azurmendi: "Kontra-narratiben kalitatea hobea da eskuz post-editatutako datuak erabiltzen ditugunean"
2025eko irailaren 24a

IkerGazte kongresuko ahozko aurkezpen onenaren saria jaso zuen Jaione Bengoetxea Azurmendik (Usurbil, 1998). Ingeniaritza- eta arkitektura-arloan lortu zuen saria,"Euskara eta gaztelaniazko kontra-narratiben sorkuntza: datuen sorrera eta ebaluazioa" lanarekin. Ingeles ikasketak ditu Bengoetxeak eta harekin izan gara bere ikerlanaz gehiago jakiteko.
Zer dira kontra-narratibak?
Kontra-narratibak gorroto-diskurtsoari erantzuteko erabiltzen diren erantzun ez-oldarkorrak dira. Erantzun hauek argudioetan eta gertaeretan oinarritutako feedback ez-negatiboa ematen saiatzen dira. Adibidez, gorroto-mezu bat izan liteke: “Musulmanek ez dute gure kultura aberastu dezakeen ezer erabilgarririk”. Horri erantzuten dion kontra-narratibaren adibide bat hau izango litzateke: “Zer egin dute guretzat musulmanek? Beno, kafea, erlojuak, unibertsitateak, tresna kirurgikoak, mapak, musika, aljebra, etab.” Kontra-narratibak gorroto-diskurtsoari erantzuten dio modu baketsuan, gorrotoa zabaldu duen pertsonari hausnarketara bultzatzeko asmoarekin.
Sare sozialetan gorroto-diskurtsoen presentzia handitu arren, kontra-narratiba automatikoen sorkuntzari buruz gutxi ikertu dela diozu…
Halaxe da, eta hemendik dator gure motibazioa hain zuzen ere. Bi arrazoi nagusigatik egin da hain lan mugatua kontra-narratiba automatikoen sorkuntzan. Alde batetik, kalitatezko datuak lortzea ez da erraza, normalean eskuz egin behar den lana baita. Hau askotan garestia da eta denbora asko behar duen ataza da. Bestalde, datu gehienak ingelesez bildu dira, hura baita askotan erabilgarri dagoen hizkuntza nagusia. Ondorioz, egin diren lan urriak ingelesez egin dira, duela gutxi beste hizkuntzetara zabaltzen hasi den arren apurka-apurka.
Laburbilduz, datu-bilketa prozesu konplexua da eta dauden datu gehienak ingelesez egotearen ondorioz, arlo honetako ikerketa ez da erraza.
Conan-EUS izan duzu aztergai. Zertan datza eta non jarri duzu fokua?
Conan-EUS datu-basean gorroto-diskurtsoak eta haiei erantzuten dieten kontra-narratibak daude bilduta. Ataza hau beste hizkuntza batzuetan egin den arren, ikerketa garatu genuen garaian ez zen ezer egin euskaraz eta gazteleraz. Beraz, ingelesezko datu-multzo bat hartu eta euskarara eta gaztelerara itzuli genuen, lehenengo automatikoki eta gero eskuzko post-edizio baten bitartez.
Datu-multzo hori erabili nahi izan genuen kontra-narratibak automatikoki sortu ahal izateko, gaur egungo online gorrotoa arintzeko tresna gisa. Gure kasuan, hizkuntza-eredu batzuk entrenatu genituen, automatikoki itzulitako datuekin alde batetik, eta bestetik post-editatutako datuekin. Horrela, ikus nahi genuen ea eskuzko post-edizioa beharrezko pausoa den kalitatezko kontra-narratibak sortzeko. Ataza zehatzetarako euskarazko datuak lortzea ez da lan erraza, eta gure ikerketan ikusi nahi genuen ea itzulpen automatikoa nahikoa zen kalitatezko emaitzak lortzeko.
Zer erakutsi dute emaitzek?
Emaitzetan ikusi dugu bi hizkuntzetako emaitzak hobeak zirela post-editatutako datuekin entrenatutako kasuan, hau da, kontra-narratiben kalitatea hobea dela eskuz post-editatutako datuak erabiltzen ditugunean.
Post-edizioaren estatistikak aztertu genituenean, ikusi genuen gazteleraz post-editatu zen esaldi kopurua askoz ere baxuagoa zela euskarazkoa baino. Hots, gaztelerazko itzulpen automatikoak kalitate hobeagoa zuela euskarazkoak baino. Honek, etorkizunera begira, euskarazko itzulpen automatikoan zeregina badagoela adierazten digu.
Hizkuntza anitzeko datu-gehikuntzak euskarari mesederik ez diola egiten ikusi duzu... Zergatik? Zeintzuk dira erronkak?
Gaur egun eskuragarri dauden hizkuntza-eredu handi gehienen entrenamendu-prozesuan, euskarazko oso datu gutxi erabili ohi dira. Beraz, eredu horien hiztegian euskara ez dago oso errepresentatua, eta ondorioz, euskarazko atazetan emaitza nahiko kaxkarrak lortzen dira, ez badugu guk espresuki euskaraz eredua fintzen, gure emaitzetan ikusi dugun bezala.
Honi aurre egiteko, euskarazko datuetan entrenatutako ereduak behar ditugu, baina hau ere ez da lan erraza. Datu-bilketa, ereduen entrenamendua eta honek dakarren konputazio-indarraren beharra dira muga nagusiak ildo honetan.
IkerGazten ahozko aurkezpen onenaren saria eskuratu zenuen Ingeniaritza eta Arkitektura sailean. Zorionak! Zer-nolako esperientzia izan zen?
Mila esker! Esperientzia oso polita izan zen. IkerGazteko 3 egunetan aurkezpen oso interesgarriak ikusi nituen eta mila gauza berri ikasi: borondate digitala zer den eta nola kudeatzen den, trenen piezen optimizazioa, baita trikitiaren inguruan tesiak daudela ere! Normalean bakoitza bere ikerketa-arloan murgilduta ibiltzen gara eta beste arloetan zer eta nola egiten den ikastea bereziki interesgarria izan da.
Nire aurkezpena baino lehenagoko urduritasunak behin gaindituta, hura ere oso momentu atsegina izan zen. Ez dugu askotan aukerarik izaten gure ikerketari buruz euskaraz hitz egiteko, eta IkerGaztek sortzen duen ingurune hau bikaina iruditu zait.
Zeintzuk dira esku artean dituzun erronkak?
Gaur egun daukagun erronka handienetako bat sortutako kontra-narratiben ebaluazio automatikoa da. Hau da, automatikoki sortutako testu hauen kalitatea automatikoki aztertzea, adibidez koherentzia aldetik, erantzuten ari diren gorroto diskurtsoarekiko duen erlazioa neurtzea, erantzun zehatzak sortzen diren edo generikoak, etab. Hau guztia automatikoki egitea ez da lan erraza, eta horretan gabiltza orain gehienbat.
Ni oraintxe tesiarekin hasi naiz, eta gaiaz guztiz aldatu dudan arren (euskalkiak aztertzen hasi naiz hizkuntza-teknologietan), taldean bada jendea ebaluazioaren alorrean lanean dabiltzanak, eta haien lana biziki jarraitzen dut.
