Theses

Jura Šlosel
Model koherentnosti tekstova na hrvatskome jeziku temeljen na analizi entiteta
Entity-Based Coherence Model for Croatian Texts
2015
Undergraduate
Jan Šnajder
FER
FER2
4272
42
HR
Koherentnost je značajka prirodnog testka koja direktno utječe na razumljivost teksta, a opisuje povezanost djelova teksta u cjelinu. U radu je prezentiran model lokalne koherentnosti temeljen na rešetci entiteta za tekstove na hrvatskom jeziku. Algoritam iz tekstova vadi entitete i njihove gramatičke uloge te apstrahira tekst u rešetku prijelaza uloga entiteta te na sintetički označenom korpusu uči raspodjelu prijelaza karakterističnu za koherentne tekstove. Rezultantni model rangira ulazne tekstove po koherentnosti. Model postiže visoku točnost na zadatku određivanja poretka rečenice, 87%-93% na kratkim novinskim člancima.
Coherence is a feature of natural texts that directly influences its understandability and corresponds to the level of connectedness of parts of texts into a logical whole. This thesis presents an entity grid based model of local coherence for Croatian texts. The algorithm extracts entites and their grammatical roles from texts and abstracts the text into a grid of entity role transitions. The model learns distributions of transitions characteristic for coherent texts on synthetically annotated corpora. The resulting mo-del rangs input texts by coherence. A high performance is achieved by the model on the sentence ordering task, 87%-93% on short newspaper articles.
obrada prirodnog jezika, hrvatski jezik, diskurs, rešetka entiteta, lokalna koherentnost, entitet
natural language processing, Croatian language, discourse, entity grid, local coherence, entity-based
7.7.2015.
Koherentnost je bitna diskursna značajka teksta budući da izravno utječe na njegovu razumljivost. Računalno modeliranje i analiza koherentnosti teksta u domeni je diskursne analize, sve značajnijeg područja u okviru obrade prirodnog jezika. Tipične su primjene automatsko generiranje teksta, sažimanje dokumenata te ocjenjivanje eseja. U literaturi postoji niz teorija tzv. lokalne koherentnosti, od kojih se mnoge temelje na načinu spominjanja diskursnih entiteta u tekstu, te su predloženi odgovarajući računalni modeli koji vrlo uspješno određuju stupanj koherentnosti teksta. U okviru završnoga rada potrebno je proučiti pristupe za računalno modeliranje i računalnu analizu koherentnosti s naglaskom na pristupe za modeliranje lokalne koherentnosti. Proučiti pristupe temeljene na analizi entiteta, posebice model temeljen na rešetci entiteta (engl. entity grid) Barzilay i Lapate (2008). Razviti programsku implementaciju tog postupka i primijeniti ga na tekstove na hrvatskome jeziku, odnosno na postojeće novinske korpuse s označenim diskursnim entitetima. Razmotriti proširenja modela predložena u literaturi. Primijeniti model na zadatak određivanja poretka rečenice te razmotriti mogućnost primjene modela na zadatak određivanja razumljivosti teksta. Provesti iscrpno vrednovanje, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.