Theses

Petra Bevandić
Optimizacija parametara ovisnosnog parsera za hrvatski jezik
Optimizing Dependency Parsing Parameters for Croatian Language
2014
Graduate
Jan Šnajder
FER
FER2
773
78
HR
Strojna sintaktička analiza rečenice ili parsanje preduvjet je za više razine strojne analize teksta. Postavlja se pitanje kako uspješno provesti parsanje morfosintaktički složenih jezika poput hrvatskog jezika. U sklopu diplomskog rada provedeno je istraživanje utjecaja morfološke analize riječi u rečenici na rad postojećih ovisnosnih parsera te je implementiran sustav koji omogućava optimizaciju morfološkog skupa značajki. Implementirani je sustav primijenjen na hrvatski jezik kod kojeg se pokazalo da je moguće značajno smanjiti veličinu skupa morfoloških značajki bez narušavanja kvalitete rada parsera. Razvijeni model ispitan je na hrvatskom srodnim jezicima slovenskom i češkom koji pokazuju slično ponašanje.
Parsing is the neccessary step in any kind of higher-level text analysis. However, it is still unclear how to improve parsing of morphologically rich languages such as Croatian. This works presents the analysis of the impact different morphological features have on the success of parsing and describes the system implemented in order to optimize the set of morphological features which improves the quality of parsing. The implemented system was then used to optimize the morphological feature set for parsing of Croatian language. This works shows that it is possible to significantlly reduce the size of the morphological feature set while still maintaining the quality of parsing. The model was then tested on Czech and Slovene language, and these test show similar results.
ovisnosno parsanje, optimizacija parametara, ovisnosne gramatike, morfološke značajke
dependency parsing, dependency grammar, featura optimization, morphological features
7.7.2014.
Parsanje ili sintaktička analiza jest postupak analize rečenica prirodnog jezika sa svrhom određivanja njihove strukture u odnosu na skup pravila odnosno formalnu gramatiku. Strojna sintaktička analiza rečenice preduvjet je za više razine strojne obrade teksta, poput semantičke analize ili ekstrakcije informacija. Za parsanje morfološki složenih jezika poput hrvatskoga posebno se uspješnom pokazala paradigma temeljena na ovisnoj gramatici. Unatoč tome, zbog visoke morfološke složenosti, kvaliteta parsanja hrvatskoga jezika i dalje je lošija nego kvaliteta parsanja drugih, morfološki jednostavnijih jezika. Ovaj bi se problem mogao ublažiti odgovarajućom optimizacijom parametara ovisnosnog parsera, ponajviše morfoloških značajki riječi na ulazu u parser. U okviru diplomskoga rada potrebno je proučiti način rada postojećih ovisnosnih parsera temeljenih na postupcima strojnoga učenja, s naglaskom na parsere za morfološki složene jezike. Eksperimentalno ispitati kako različiti načini prikaza morfoloških značajki pojavnica utječu na točnost parsera. U obzir uzeti nekoliko javno dostupnih modela statističkih parsera, poput modela MSTParser, MaltParser i Mate. Razraditi postupak za heurističku optimizaciju parametara ovisnosnog parsera, uključivo morfoloških značajki na ulazu u parser, a koji je vođen točnošću parsera na ispitnome skupu kao ciljnom funkcijom. Razviti programsku implementaciju postupka i primijeniti ga na odgovarajuću, javno dostupnu banku stabala hrvatskoga jezika. Provesti eksperimentalno vrednovanje razvijenog modela, usporedbu s najsuvremenijim raspoloživim parserima te analizu pogreška. Ispitati primjenjivost i učinkovitost razvijenog modela na srodnim jezicima. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.