XX. mendeko Euskararen Corpus Estatistikoa

Zer da?

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena.

Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu zen, mende oso baten erakusgarri. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute bere lekua, baina transkribatu eta argitaratu diren neurrian jaso dira.

Bigarren fase batean (1987-2001), Euskaltzaindiaren Egungo Euskararen Bilketa-lan Sistematikoa izeneko batzordearen gidaritzapean UZEI Terminologia eta Lexikografia Zentroak corpusa garatzeko aholkularitza teknikoa, tratamendu informatikoa eta lan lexikografikoa burutu ditu.

Sailkapen-irizpideak:

Epea, garaia: lau garai nagusitan banatzen dira XX. mendeko argitalpenak:

1900-1939: mende-hasieratik gerrak artekoa.
1940-1968: gerraostean abiatu eta euskara batuaren sorrera artekoa.
1969-1990: euskara batuak ekarritako aldaketarekin hasi eta Euskaltzaindiaren gomendioak eta arauak artekoa (eta Ibon Sarasolaren Hauta-Lanerako Euskal Hiztegia argitaratu artekoa).
1991-1999: araugintza berriaren ondokoa.

Euskalkia:

Bizkaiera
Gipuzkera
Zuberera
Lapurtera-Nafarrera: biak bakarrean bilduta
Euskara batua
Sailkatu gabeak: atal honetan egunkari eta astekarietako artikuluak jasotzen dira, horien inbentarioa ez baita artikuluka egin, bestelako aldizkariekin egin den bezala, baizik argitalpena bere osoan harturik. Honela sailkatu dira, halaber, askoren jardunak jasotzen dituzten bertso-bildumak ere.

Testu-mota:

Saio-artikuluak: Euskera, Egan, Euzko Gogoa, Jakin bezalako aldizkarietako artikuluak banaka fitxatu dira inbentarioan, eta horietakoek osatzen dute multzo hau.
Administrazio-idazkiak
Ikasliburuak
Saio-liburuak
Literatur prosa
Poesia
Antzerkia
Bertsoak
Ikerketa-lanak
Haur- eta gazte-literatura
Ahozkoak: ahozko jardunen transkripzioak
Liturgia
Egunkariak
Aldizkariak

Sailkapen hauek, unibertsoaren berri eman eta lagin erakusgarria aukeratzeko oinarri izateaz gain, lagungarri izan litezke oraingo kontsultetan. Alegia, forma bat euskalki, epe edo testu-mota batean (edo gehiagotan) nola erabili den ikus liteke, bilaketa murriztuz. Adibidez, pastoral lema begira dezakegu, baina zubererazko testuetara mugatua, edo erdu bizkaieraz ez bestekoetan.

Autoreak eta izenburuak ere ageri dira, bai liburuen kasuan eta bai aldizkarietako artikuluenean, artikulua eta aldizkariaren fitxa jaso baita. Dena den, hauen araberako kontsultarik ez da oraingoz eskaintzen, besteak beste ausaz aukeratutako obra-zatiak jaso direlako, zati txikiak eta jarraikitasunik gabeko orrialdeak, eta, horren ondorioz, autore eta izenburu asko daude bertan, baina ez dute laguntza handirik eskaintzen bilaketan.

Testu-zatiak SGML (Standard Generalized Mark-up Language) formatu estandarrean ezarri dira. Erabiltzaileak testuak kurtsibaz, lodiz edo azpimarratuak aurkituko ditu, testu originalean zegoen bezala. Baina, hauez gain, erdarak, aipamenak, metahizkuntza eta bestelakoak ere markatuta aurkituko ditu, egilearen erabilera bereziak edo beste norbaiti hartuak agerian utziz.

Hauek dira corpusaren ezaugarriak; baina badu balio erantsi bat: lematizatua da. Alegia, testu-hitz bakoitzari forma estandar bat erantsi zaio, hiztegi-sarrera moduko bat, eta horrek, besteak beste, erraztu egingo du kontsulta. Adibide batekin esateko, forma deklinatuei eta aldaerei lema bakarra ezarri zaienez, helduleku erosoa dugu orain lema hori: etxe. Etxe, etxea, etxien, echeco, etchetik bezalako testu-hitzak etxe galdetuz ikus daitezke, aldaeraren bat ahazteko arriskurik gabe.

Lematizazio hau, bestalde, ez da hitz bakunetara mugatzen; hitz soilez gain, hitz elkartuak, eratorriak eta bestelako hitz anitzeko unitate lexikalak ere markatu dira: etxe lema soilaren ondoan, etxe orratz, etxe-abere, etxe-tresna, etxeko, etxeko jaun, etxekoandre, etxepe, etxetxo, etxezain bezalako lemak ere adieraziz. Edo, hala soilaz gain, hala ere, hala eta guztiz ere, hala... nola, hala nola modukoak ere zehaztuz.

Horiek horrela, 106.179 lema desberdin aurkituko ditu erabiltzaileak, bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak.

XX. mendeko Euskararen Corpus Estatistikoa

Zer da?

Sailkapen-irizpideak:

Euskaltzaindia · Real Academia de la Lengua Vasca · Académie de la Langue Basque