Theses

Hrvoje Peradin
Sintaktička analiza tekstova na hrvatskom jeziku temeljena na gramatici ograničenja
Constraint Grammar-based Parsing of Croatian Texts
2012
Graduate
Jan Šnajder
PMF-MO
56
HR
U ovome radu opisana je problematika označavanja vrste riječi, dan je pregled standardnih metoda i opisan razvoj morfosintaktičkog označivača na temelju gramatike ograničenja, a razmotren je i problem označavanja na razini sintaktičkih funkcija. Gramatika ograničenja (engl. Constraint Grammar, CG) jest model koji koristi kontekstno ovisna ručno pisana pravila za razrješavanje gramatičkih višeznačnosti u tekstu. Označivač na temelju gramatike ograničenja koristi morfološki leksikon dobiven poluautomatskom akvizicijom iz neoznačenog korpusa, opširan skup oznaka zasnovan na normi MULTEXT-East, valencijski leksikon hrvatskih glagola i leksikon glagola iz jezičnog para apertium-sh-mk , iz sustava Apertium. Gramatika sadrži 290 pravila, koja su organizirana u odjeljke za čišćenje, razrješavanje morfosintaktičkih višeznačnosti i heuristike. Gramatika je implementirana u formalizmu CG3 i prevedena open-source prevodiocem vislcg3. Preliminarni rezultati označivača iznose P: 96.1%, R: 99.8% za označavanje vrste riječi i P: 88.2%, R: 98.1% za morfosintaktičko oznaačvanje.
This thesis gives a description of the tasks of part-of-speech and morphosyntactic tagging, gives an overview of standard methods used, and describes the development of a Constraint Grammar-based morphological tagger for the Croatian language. A brief discussion on syntactic function tagging for Croatian is given as well. A Constraint Grammar (CG) uses context-dependent hand-crafted rules to disambiguate the possible grammatical readings of words in running text. The CG tagger uses a morphological analyzer based on an automatically acquired inflectional lexicon and an elaborate tagset based on MULTEXT-East, the Croatian Verb Valence Lexicon, and the verb lexicon from the Apertium language pair apertium-sh-mk . The grammar consists of 290 rules, organized into cleanup and mapping rules, disambiguation rules, and heuristic rules. The grammar is implemented in the CG3 formalism and compiled with the vislcg3 open-source compiler. The preliminary tagging performance is P: 96.1%, R: 99.8% for POS tagging and P: 88.2%, R: 98.1% for complete morphosyntactic tagging.
CG, gramatika ograničenja, vrste riječi, označavanje vrste riječi, hrvatski jezik, obrada prirodnog jezika, računalna lingvistika, morfosintaktičko označavanje, sintaktičko označavanje, razrješavanje morfoloških višeznačnosti
CG, Constraint Grammar, POS, part-of-speech tagging, Croatian, natural language processing, computational linguistic, morphosyntactic tagging, syntactic tagging, morphological disambiguation