XX. mendeko Euskararen Corpus estatistikoa

Testuingurua

1. SARRERA

Ingelesak flexiorako duen sinpletasunagatik edo, ordenadorezko analisi morfologikoak ez du aparteko interesik piztu ikertzaileen artean.

Ingelesez, forma flexionatu guztiak biltzen dituzten lexikoak erabiltzen dira normalean, edo erregela morfologiko gutxi batzuk bestela [Winograd 83].

Honen kariaz, hizkuntzarekiko independente diren analisi sintaktiko nahiz semantikorako tresna linguistikoak ugaldu diren bitartean, tresna morfologikoek ez dute ia batere atentziorik erakarri.

Nolanahi ere, badira ingelesa ez bezalako hizkuntzentzat garatu diren ordenadorezko analisi morfologikorako sistemak, hala nola, GETAko ATEF [GETA 82], suomierarako sistemak [Broda et al. 80] eta beste batzuk.

1981ean Kaplan eta Kay-ek [Kaplan eta al. 81] sorkuntza fonologikorako formalismoa diseinatu zuten.

Formalismo honek automatetara konpilatzen diren erregelak darabiltza eta, ideia interesgarri honi jarraikiz, Koskenniemi-k hemen aztertuko dugun bi mailako formalismoa diseinatu zuen.

Azken urteotan analisi morfologikorako beste zenbait formalismo ere garatu da.

Gaztelaniarako, esate baterako, MARS [Meya 87], deskonposaketa morfologikoan egoera finituzko automata erabiltzen duena, eta AM [Martí 87], baldintzez osatutako automata Markoviarraz baliatzen dena.

Artikulu honetan bi mailako morfologiaren formalismoa eta euskararentzat egindako egokitzapena deskribatzen dira.

2. BI MAILAKO MORFOLOGIA

1983an Koskenniemi-k [Koskenniemi 83] bi mailako morfologiaren eredu konputazionala definitu zuen.

Eredu honek harrera bikaina izan du ondorengo urteetan, besteak beste, dituen ezaugarri hauengatik:

- Eredu orokorra da; edozein hizkuntzari aplika dakiokeena.

- Hitzen analisi morfologikorako zein hitz-sorkuntzarako da baliagarria.

- Ezagutza linguistikoa eta algoritmoa bereizi egiten ditu eta, ondorioz, programa berak edozein hizkuntzatarako balio dezake.

- Analizatu edo sortuko den hitzaren azaleko maila eta hiztegiko sisteman (sistema lexikoan) errepresentatzen den maila lexiko edo sakonekoa argi eta garbi bereizten ditu.

Hau dela eta, ez dago aldaketa morfofonologikoengatik sortutako morfema baten forma desberdinak gorde beharrik.

- Fonologia sortzaileko berridazketa-erregelen ordez erregela paraleloak erabiltzen ditu, sistema kontzeptual zein konputazionalki errazago bihurtuz.

Morfologia honek oinarrizko bi osagai ditu: erregelak eta sistema lexikoa.

2.1. ERREGELAK

Bi mailako ereduak errepresentazio lexikoa eta azalekoa erabiltzen ditu.

Lexikoak erroen eta afixuen errepresentazio morfofonologikoak dauzka.

Bi errepresentazioen artean ez dago tarteko egoerarik, eta hauxe da fonologia sortzailearekiko diferentzia nagusia.

Beraz, hitzen azterketa azaleko formari dagozkion errepresentazio lexiko onargarriak aurkitzean datza.

Alderantziz gertatzen da sorkuntzan; errepresentazio lexiko ezagunetik abiatu eta berari dagozkion azaleko errepresentazioak bilatzen bait dira.

Erregelek hiru zati dituzte:

- Korrespondentzia, edo karaktere-bikote bat, non lehenengoa lexiko-mailakoa bait da eta bigarrena azaleko mailan aurrekoari dagokiona.

Karaktere hauek konkretu nahiz abstraktuak izan daitezke, azken hauek erregelen jeneralizazioa ahalbidetzen dutelarik.

Karaktere abstraktuen adibide gisa aipa litezke C edozein kontsonante adierazteko, V edozein bokal adierazteko, etab.

- Testuingurua, korrespondentzia gertatzen deneko kasuak aurreko eta ondorengo karaktereen arabera mugatzen dituena.