XX. mendeko Euskararen Corpus estatistikoa

Testuingurua

Oraingoz 12 Testuen itzulpen-unitateen paralelizazio automatikorako programeria gaurko ikerkuntzaren gaia denaren ezaguera izan, eta beste hizkuntza-pare batzutan horretarako aplikazioak badirela jakin arren. horrelako lanik egiteko tresna automatikorik ezagutzen ez dugunez, banan banan egin behar izan dugu, segmentuak mugatzeko irizpideak taxutzea bilatuaz. Irizpide formalik ezean, traduktologian eta semantikan oinarritu behar izan dugu erdal terminoak garraiatzen duen balio nozionala euskarazko zein testu-segmentutan dagoen zehazteko.

Baliokidetzaren supostua egiaztatuz, paralelizatutako testuotan, ordena-zenbaki bereko paragrafoetan, ia hutsik gabe aurkitu dugu erdal terminoen eduki nozionalari dagokion euskal testu-segmentua. Besterik da, oraino egin gabe dagoen azterketa, itzulpen-zehaztasunari dagokion balorazioa.

Ez estatistika eta ez azterketa filologikorik hemen interesatzen ez zaigunez, segmentu baliokideetan desberdinak bakarrik jaso ditugu. Xehetasunezko desberdintasun formalak, euskara batuari eta azken arauetakoko normalizazioari dagozkionak bezalakoak, ez ditugu kontuan hartu. Bai, ordea, gure ustez, lexikalizazio-mailari buruz zeresana duten kasuetan. Esate baterako hitz-elkarteen artean jarraian idatzitakoak eta bereiz edo marratxoarekin idatzitakoak, agintemende eta aginte-mende, lege-gizon eta legegizon.

Zailtasun asko aurkitu ditugu euskal segmentuak mugatzerakoan. Izan ere, hainbat kasutan, euskal testuan, izen-sintagma-mailakorik gabe, esaldi-mailako ala paragrafo-mailako baliokidetza (Zierer: 1979) aurkitzen dugu. Esan nahi baita, IS egitura sinpleko erdal terminoaren ordainetan, erlatibozko perpausadun ISak, aditz-sintagmak edo esaldiak aurkitzen ditugula hainbat kasutan. Balio nozional hura garraiatzen duen segmentu laburrena mugatzea batzutan ezinezkoa da, bereziki beste informazio gehigarririk ez eramatea nahi bada; esaterako, transposizioak eta modulazioak (Vinay J.P., Darbelnet J.: 1977) dauzkaten itzulpen-baliokideetan. Adibidez, administración de justicia-ren euskal baliokidetzat zuzenbidea eragiten dutenak segmentua aurkitzen dugunean, edo contrato de adhesión nozioa adierazteko euskaraz amore emate hutseraino iristen den moduz eroste itzuli denean.

Euskal segmentuak jasotzeko eta lantzeko lematizatu egin ditugu. Izen-sintagma deklinatuak nor kasu mugagabera bihurtzeko lana baina zailagoa suertatu zaigu maiz. Izen-sintagmara erreduzitzeko aukerarik ez dagoenean gehienbat.

Azkenik, erdal termino bakoitza, dauzkan euskal baliokide desberdin guztiekin, berauetako bakoitza iturri-datuak (dokumentu-izena eta paragrafo-zenbakia) alboan daramatzala gorde dugu. Mugapen-arazoak dauden kasuetan testuingurua ere gorde dira, ez ordea, euskal segmentuak izen-sintagma-egitura ongi mugatua duenean.

Hona hustuketa-fase honen ondoren lehen fasean eman dugun erdal terminoaren emaitza.