Olatz Perez de Viñaspre: "Euskararentzat teknologia garatzen ez badugu, atzean geratuko da"

Maddi Txintxurreta 2026ko otsailaren 21a

Olatz Perez de Viñaspre. (Arnaitz Rubio)

Olatz Perez de Viñasprek (Gasteiz, 1980) datuen bidez zabaltzen du euskara. Informatika eta euskalgintza uztartzen ditu Azpeitiko bizilagunak Ixa taldean, adimen artifizialaren argi-ilunetan oreka bilatzen duen bitartean. Urtarrileko Azpeitia Guka aldizkariko elkarrizketa da hau.

Sistemen Informatikan ingeniari teknikoa eta Informatikan ingeniaria zara. Nolatan aukeratu zenuen hizkuntzaren azterketa eta prozesamenduko bidexka hartzea?

Lehenbizi karrera teknikoa egin nuen, eta hirugarren mailan, karrera bukatzear nengoela, krisi existentzial horietako bat izan nuen, ez nuelako nire burua enpresa batean lanean ikusten. Zer egin nezakeen pentsatzen aritu nintzen, eta gradu amaierako lana egiteko, gogoko nuen irakasle batengana jo nuen. Hark Ixa taldean lan egiten zuen eta eskaini zidan gradu amaierako lana talde horren baitan egitea. Ixa taldeak euskara eta informatika uztartuz ikertzen du, hau da, euskararentzako tresna informatikoak ikertzen eta sortzen aritzen da, eta oso eroso ikusi nuen nire burua hor. Gainera, beti oso garbi izan nuen Informatika ikasi nahi nuela, jakin gabe oso ondo zer zen, baina momentu batean Euskal Filologia ikasteko bulkada izan nuen. Baina, ez, nire hasierako ideiari heldu nion, eta Ixa taldeari esker gustatzen zaizkidan bi alorrak uztartu ahal izan ditut. Gero goi mailako ingeniaritza egin nuen, eta aurrerago masterra, doktoretza...

Ordenagailuei hizkuntzak prozesatzeko eta ulertzeko ahalmena ematen dioten tresnak garatzen dituzue EHUko Ixa taldean, ezta?

Hori da. Ordenagailuak, funtsean, 0 eta 1ekoak dira. Guk ez ditugu 0 eta 1eko gisa ulertzen, ez garelako horrela komunikatzen. Beraz, ordenagailuei hitz egiteko programazio lengoaiak erabiltzen ditugu, horiek gertuago daudelako gure lengoaietatik; hitzak idazten ditugu, baina oso mugatuak dira. Ordenagailuari agindu zehatzak ematen dizkiogu, baina erabiltzen dugun hizkuntza oso itxia da, anbiguotasunik gabekoa. Adimen artifizialaren (AA) baitan, badago alor bat lengoaia naturalen prozesamendua esaten dioguna, eta horren helburua da ordenagailuek hizkuntza ezberdinak ulertu, prozesatu eta sortu ahal izatea. Ixa taldean, hori egiteaz gain, bereziki interesatzen zaigu euskararentzako baliabideak sortzea.

Diziplina desberdinetako hainbat ikerlari zaudete Ixan. Zeintzuk dira gaur egun esku artean dituzuen ikergai nagusiak?

Ixa taldea Aholab taldearekin batu zen. Azken horrek hizketarekin lan egiten du, ahotsak identifikatzen, ulertzen eta sortzen. Guk, aldiz, testu hutsarekin egiten dugu lan. Hortaz, bi taldeak batuta, Hitz zentroa osatu genuen. Zentroan, denok ezagutzen dugun ChatGPTren munduan sartuta gaude, hizkuntza eredu handiak deritzen horietan, eta eredu propioa sortu dugu: Latxa. Eredu librea eta irekia da, edonork erabil dezake. Horrek ez du esan nahi edonoren eskura dagoenik, baina horretarako lanean ari gara, eta dagoeneko beta bat dago erabiltzen hasteko.

Euskaraz?

Euskaraz, noski. Metak garatu zuen eredu bat, Llama izenekoa, eta nolabait esateko, Internet guztia erabili du tresna hori entrenatzeko. Eredu hori irekia dela esan daiteke, guk hartu eta entrenatzen jarraitu dezakegu. Beraz, aztertu genuen zein zen modurik onena Llama ereduan euskara ondo gorpuzteko, zeren jatorrizko ereduak euskara eskasa zuen. Horrela sortu genuen Latxa. Gaur egun, Latxa eredu onenen pare egon daitekeela esan dezakegu, eta gure erronka da hori indartzen jarraitzea nahiz modu irekian eskaintzen jarraitzea, edonoren eskura egon dadin. Gu ez gara enpresa bat, ez dugu dirurik ateratzen hortik, baina herriarentzako oso tresna baliagarria da. 

Badugu, halaber, beste proiektu potolo bat, Clariah-ren baitan jorratzen duguna. Gaur egun badago korronte bat humanitate digitaletan, defendatzen duena guk sortzen ditugun baliabideak eta tresnak humanitateetan aritzen diren ikerlarien eskura jarri behar direla. Ez ditugu sortu bakarrik hizkuntza eredu handiak, denetarik egin dugu; zuzentzaile ortografikoak, informazio linguistikoaren analizatzaileak... Garai batean, filologo baten tesi klasikoa zen Axularren obra osoa hartzea eta kontatzea zenbat aldiz erabiltzen zuen hitz jakin bat. Hori tesi oso bat zen lehen, eta orain bi astetan egin dezakegu. Horrelako baliabideak elkarbanatzen ditugu, eta horretarako erabiltzen dugu Clariah.

Osasungintzako terminologiaren itzulpen automatikoa izan da zure ikergai nagusia. Lan horretan hasi zinenean, desertu batekin egin al zenuen topo?

Tesirako gaia bilatzen ari nintzenean, zuzendariak proposatu zidan medikuntzarekin lotura zuen zerbait egitea. Nik oso garbi nuen euskararentzako egin nahi nuela lan, berdin zitzaidan zertan aplikatuta, baina euskarak izan behar zuen ildo nagusia. Horretan hasi ginen, eta kristoren desertua topatu genuen; hor ez zegoen ezer. Ez zegoen terminologia bateratu bat, ez zegoen terminoen banku handi bat... Hiztegi ezberdinak zeuden sakabanatuta, baina estandarizatuta, ezer ez.

Tresna oso interesgarri bat hartu genuen, Snomed izena duena, eta hori euskaratzeari ekin genion. Bidean, tesiak eman zigun aukera Osakidetzan kontaktu interesgarriak egiteko. Osakidetzak duen arazo nagusietako bat da profesional euskaldunak izan arren, euskarazko testuak ez dituztela sortzen. Testu itxiak, analitikak edo formularioak, adibidez, elebitan eskaintzeko bidea eginda zuten, baina testu librea beti izan da arazo bat. Guk ikerketa egin nahi genuen, probatu, eta konturatu ginen posible zela Osakidetzak erabiltzeko itzultzaile bat sortzea. Orduko euskararen zerbitzuburuak, Xabier Arauzok, lan handia egin zuen tresna bideragarria izan zedin, eta tartean sare neuronalen boom-a etorri zen; horri esker, euskaratik gaztelerara eta kontrako norabidean kalitate handiz itzultzeko gai den tresna oso indartsu bat garatzea lortu genuen: Itzulbide.

(Arnaitz Rubio Aprea)

Osakidetzan erabiltzen al dute jadanik?

Donostiako ESIan erabiltzen dute gaur egun, eta lanean ari dira gainerako ESIetara ere zabaltzeko.

Ikerketak, beraz, balio du praktikan eragiteko ere.

Bai. Guk nahi genuena zen profesional euskaldunek euskaraz idatzi ahal izatea. Medikuarenera baldin bazoaz eta harekin euskaraz egiten baduzu, hark txostena euskaraz idaztea litzateke naturalena. Askotan, baina, gazteleraz idazten dute, eta hori ez da naturala, ez da egoera normalizatu baten erakusle. Kristoren arazoa dugu, zeren mediku gutxi daude, eta gainera, denak ez dira euskaldunak. Epe luzera, egokiena litzateke profesionalen portzentaje oso altu batek euskaraz jakitea, baina gaur egungo errealitatea ez da hori. Medikuek kontatzen ziguten karrera bukatzen dutela euskaraz txostenak nola idazten diren jakinda, baina lauzpabost urteko espezialitatea amaitzerako, ahaztu egiten zaiela, urte horietan ez dutelako euskaraz ezer idazten. Horrekin lehenbailehen moztu behar zela uste genuen, eta horregatik sortu genuen Itzulbide.

Euskalgintzak kableetan, datuetan eta sistema informatikoetan zehar bidaia dezake, beraz?

Euskararentzat teknologia garatzen ez badugu, euskara atzean geratuko da; hori oso garbi genuen Ixan. Duela urte batzuk, Islandian, konturatu ziren gazteek ingelesez hitz egiten zutela beraien artean, Interneten teknologia ez zegoelako beraien hizkuntzarako egokituta. Eta hori haiek estatu bat dutela beraien hizkuntza babesteko! Beraz, honetan aritzea garrantzitsua da, eta enpresa handi bati emango diogu dirua auskalo zer egin dezan? Hobe da gu ahalduntzea eta gure tresnak sortzea. 

Itzultzaile automatikoek bilakaera harrigarria izan dute azken urteetan. Zer faktore izan dira erabakigarriak hori horrela izan dadin?

Itzulpen automatikoan, baina baita orokorrean ere, hizkuntzaren prozesamenduaren alor guztietan, antzeko bilakaera gertatu da. AA garatzen hasi zen orain dela denbora pila bat, baina hasieran, batez ere oinarritzen zen guk dugun ezagutza erregelen bidez ordenagailuari transmititzean; dena idaztean, nolabait esateko. Horrek muga handiak zituen, zeren gauza bat esateko mila milioi modu egon daitezke. Guztiak eskuz idatzi behar badituzu, ez duzu inoiz bukatuko, sekulako lana da. 1990eko hamarkadan paradigma aldaketa bat egon zen, sistema estatistikoetara pasatu ginelako. Salto hori eman ahal izan zuten datu bilduma handiak zituztelako, eta aurrerantzean, ereduei erakusten zieten datu pila bat emanda, beraiek probabilitatean oinarritutako erantzunak ematen; adibidez, zein den esaldi bat amai dezakeen hitz probableena. 2017 inguruan, beste paradigma aldaketa bat egon zen: sare neuronalen eztanda. Berez, sare neuronalaren algoritmoa oso zaharra da, hasieratik dago hor. Baina eztanda egin zuen, batetik, datu kopuru ikaragarriak izaten hasi ginelako, eta itzulpenaren ikuspegitik, corpus elebidun pila bat daude, hau da, itzulitako testu pila bat. Bestetik, hardware-a esaten zaion hori asko garatu da. Ikusi zen gaitasuna zegoela datu horiek guztiak arrazoizko denbora batean prozesatzeko. Itzulpengintzan, eredu estatistikoak entrenatzeko corpusa sobran genuen jada, eta momentu batetik aurrera ez zuen gehiago ikasten. Eredu neuronalak, aldiz, etengabe elikatzen jarraitzen du, eta nolabait orokortzeko gaitasuna duela erakutsi du. Beraz, datu kopuru handiek eta ordenagailu garatuek ekarri dute eztanda. 

Euskara alor desberdinetara zabaltzeko orduan, askotan erresistentziak aurkitzen dira. Eremu digitalean ere aurki daitezke erresistentziak? Zer itxura hartzen dute?

Ez nuke esango halakorik nabaritzen denik. Ikerketaren munduan nabaritu dugu jendeak euskararekiko interesa duela. Harrigarria da, aurki baitezakezu Pragako norbait euskararentzat tresnak sortzen. Interesa pizten du, hizkuntza isolatu bat delako, eta gaztelerak edo frantsesak adina ez, baina baditu baliabideak, beraz, aukera dago gauzak egiteko. Bestalde, estatu mailan, Ilenia eta Alia proiektuen bitartez, lan handia egin da hizkuntza koofizial guztiek gaztelerak dituen baliabide berdinak izan ditzaten. Proiektu horretan estatuko talde ezberdinak ari gara elkarlanean, eta hurrengo urteetan ez dakigu zer gertatuko den, baina orain arte dirua jarri dute, adibidez, Latxa bezalako tresnak garatu ahal izateko. 

Medikuntzari dagokionez, kontrakotasun handienak, tamalez, euskaldunen partetik antzeman ditugu. Haietako batzuek Osakidetza zuritzeko tresna balitz bezala ikusten dute Itzulbide, diote hori ez dela irtenbidea. Sinadura bilketa bat ere egin zuten horren kontra. Gu saiatu ginen azaltzen asmoa ez dela inondik inora hau izatea helburua, baizik tresna bat gehiago izatea, besterik ez. Teknologia hor baldin badago, zergatik ez dugu erabiliko? Noski, edozein tresna bilaka daiteke arma, hori egia da, gure esku dago erabakitzea nola erabili nahi dugun, eta Osakidetzaren barruan lana egiteko egongo da oraindik, hau ez delako nahikoa. Berriro diot, ez da helburua, tresna bat baizik, eta euskararen kontrako oldarraldi betean gauden honetan, tresna guztiak behar ditugu euskara ahalik eta gehiena hauspotzeko.

(Arnaitz Rubio Aprea)

Azpeitian, arnasgune batean bizi zara. Eremu digitalean badago arnasgunerik?

Zaila da arnasgune digitalei buruz hitz egitea.

Definitu beharko litzateke zer den arnasgune digital bat?

Hori da. Kontua da mundu digitalean ez dagoela mugarik, beraz, ezin da arnasgune bat zedarritu. Aldi berean, aukera duzu Japonian idatzi den zerbait euskarara itzulita irakurtzeko, zure hizkuntzan munduan zehar mugitzeko. Ez dakit mundu digitalean arnasgunerik egon daitekeen, baina mundu fisikoko arnasguneetan bizi direnak digitalean ere babestuta egon daitezen baliagarriak dira horrelako tresnak.

.EUS fundazioak banatzen duen II. Gladys saria jaso zenuen duela hiru urte, "emakume teknologoen ikusgarritasunaren eredu" izateagatik. Lanean segitzeko indarra eman al zizun horrek?

Txute bat izan zen. Ikerketaren mundua oso lehiakorra da, kontuan hartzen da non argitaratzen dituzun lanak, zer ospe duten... Zurrunbilo horretan sartzea arriskutsua da. Sartzen bazara, gainera, gizartearekin lotura galtzeko arriskua duzu. Horrelako sariek lurreratzen laguntzen dizute, fokua gizartean jartzea ondo dagoela berresten. Horrez gain, informatikarena oso mundu maskulinoa da. Gure ikasleen artean, hamabost lagunen artean neska bakarra egon da aurten; ikasleen %14 dira emakumeak, oso gutxi da. Erreferente berriak sortu behar ditugu eta ikusgarritasuna eman, esateko "ei, hau denon mundua da". Karen Spärck Jonesek esaten zuen: "Informatika garrantzitsuegia da gizonen esku bakarrik uzteko". Arrazoi osoa du. Zentzu horretan ere, sariak indarra eman zidan.

AA tresna neutro bat balitz bezala irudikatzen da askotan. Horrela al da?

Objektibotasuna ez da existitzen, eta gainera, ez dugu nahi. Hori onartu behar dugu. ChatGPTren eta antzeko tresnen ideologia beraien garatzaileek dutena da. Nik tresna bat garatu behar badut, nahi dudana da niretzat ongi dagoen horrekin lerratuta egotea, eta jakina, Elon Muskek egingo duena eta guk egingo duguna ez da berdina izango. Uste dut ez dugula objektibotasuna bilatu behar, baizik gardentasuna: esatea zer ezaugarri zehatz dituen tresna batek, horien artean, ideologia. Politikoki zuzena den hori neurri batean onartuta dago gizartean, nahiz eta orain onarpen horiek ere apurtzen ari diren, eta arrazakeriaren edo emakumeen sexualizazioaren inguruan, adibidez, ChatGPT oso zuzena izan daiteke, lan asko egin dutelako zenbait gauza saihesteko. Hala ere, momenturen batean, zantzu arrazistak-eta atera egiten dira. Zergatik? Testuak eman dizkiogulako jateko, eta testu horietan daude pertsonek idatzi dituzten ideiak. Testu batzuk historikoak dira, beraz, garai batean zeuden alborapenak jasotzen dira, eta beste batzuetan gaur egungoak. Euskararen kasuan, normalean, euskaraz idazten den gehiena ideologia ezkertiarrago batekin lerratuta dago, eta hori ere nabarituko da.

Ez da neutroa, beraz... eta jasangarria al da?

Egungo sistemak ez du etorkizun luzerik. ChatGPTri egiten diozun galdera bakoitzak duen energia kontsumoa oso handia da, ez da jasangarria. Doan eskaintzen dute, gu harrapatzeko. Baina ordaindu beharko bagenu galdera horrek balio duena, ez genuke ezer galdetuko. Lanbide batzuetan halako tresnek ikaragarrizko abantailak eskaintzen dituzte. Neuri gertatu zait; AA erabili gabe hilabete batean egingo nukeen lana bi astetan egin nuen AArekin. Horrelako lanbideetako jendeari galdetuz gero ordainduko al luketen 1.500 euroko lizentzia bat tresna horiek erabiltzeko, ziur aski baietz esango lukete. Baina beste edozeinek zer esango luke? Ezetz, noski. Honek ezin du luze iraun, halako tresnek daukaten kostua izugarria baita. Pentsa, ari dira zentral nuklearrak irekitzen ondoan datu zentroak jartzeko. Bestalde, tresna hauek testu pila bat behar dute, baina, gaur egun, zenbat testu sortzen dituzten beraiek, eta zenbat guk? Imajinatu hemendik hamar urtera; beraien burua elikatzen hasiko dira, eta horrek ikasketa okertuko du. Beraz, honek ez du etorkizun luzerik, eta dagoen bezala segituko badu, noizbait eztanda egingo du.

Euskalgintza bezala, informatikaren bidez burujabetza ere susta daiteke, software libreen aferarekin. Zer garrantzi du lubaki horretan aritzeak?

Ikerketaren munduan, duela urte batzuk, dena irekia zen. Google zegoen hor sartuta, potentzia bat izan da ikerketaren alorrean. Baina une batetik aurrera, OpenAI, AA sustatzeko sortu zuten enpresa, ateak ixten hasi zen, ahaltsuegia zelako edozeinen esku uzteko. Aitzakia horrekin, dena ixten hasi ziren eta egiten ari zirena ezkutatzen. Dena belztu zen, eta gaur egun, ez dakigu ChatGPTk nondik hartzen dituen datuak, nola entrenatzen duten tresna hori, zerk funtzionatzen duen, zerk ez... Jadanik ez dute kontatzen. Googlek ere antzeko bidea egin zuen, bere eredu indartsuenak itxi zituen, eta beste batzuk irekita utzi, "ez gara hain gaiztoak" esateko edo. Metaren kasua desberdina da. Ez dakigu zer daturekin entrenatzen dituzten Llamak, ez dutelako dena kontatzen, baina ereduak publikoak dira; horrek esan nahi du zuk eredu hori hartu eta alda dezakezula. Garrantzitsua da eredu libreak eta irekiak izatea, bestela sekulako menpekotasuna sortzen da munstro teknologiko horiekiko. Ez dakizu zer egiten duten datuekin, saldu egiten dituzten ala ez... gure datuen gaineko kontrola galtzen dugu. Eta konturatu naiz gure herrian jendeari berdin diola horrek. Alemanian, adibidez, askoz kontzienteagoak dira zentzu horretan, erabaki nahi dute beraien datuak zertarako erabiliko dituzten eta zertarako ez. Bestetik, dena irekia denean, askoz errazago batu ditzakegu indarrak aurrera egiteko, ez dugu gurpila behin eta berriro asmatu behar. Beraz, burujabetza teknologikoa izatea oso garrantzitsua da ikuspegi askotatik. Orain inoiz baino gehiago, zeren tresna hauek gurean daude jada, eta etorkizun hurbilean ziur kameretan ere jarriko digutela AA, baina ez dugu jakingo zer egingo duten horrekin.

Erritmo bizian garatzen da mundu digitala, ondorioz, zaila da aurreikustea noraino iritsiko den. Imajinazioak distopiara eraman gaitzake, eta imajinatzen hasita, agian sistema informatiko bat euskaltzain oso izendatuko dute! Zer esaten dizu zure imajinazioak?

Oso ona [barrez]! Ez dakit. Zaila da esatea nora iritsiko garen. Ez dut asko pentsatzen horren inguruan, agian neure burua babesteko. Zeren guk hori ikertzen dugu, eta beldurra ematen du, badugu kezka bat, gizartea zertan dabil? Nora doa hain azkar? Dakigun gauza bakarra da ez baditugu euskararentzat tresnak sortzen, euskara atzean geratuko dela. Beraz, hori da gure lehentasuna.

Azpeitia Gukak zu bezalako irakurleen babesa behar du tokiko informazioa euskaraz eta modu profesionalean lantzen jarraitzeko.


Izan Gukakide