Theses

Vjeran Crnjak
Označavanje vrste riječi u hrvatskome jeziku modelom uvjetnih slučajnih polja
Part-of-Speech Tagging for Croatian using Conditional Random Fields
2014
Undergraduate
Jan Šnajder
FER
FER2
3793
49
HR
Označavanje vrste riječi jedan je od osnovnih zadataka u obradi prirodnog jezika i preduvjet za mnoge druge zadatke. U ovome radu opisana je problematika označavanja vrste riječi i dan je pregled osnovnih i naprednih stohastičkih grafičkih modela te njihova primjena na označavanje vrste riječi visokoflektivnih jezika. Opisan je razvoj morfosintaktičkog označivača temeljen na modelu uvjetnih slučajnih polja s ograničenjima i pažljivo su analizirane sve poteškoće prisutne u razvoju.
Part-of-speech tagging is one of the fundamental tasks in natural language pro- cessing and a prerequisite for many others. In this thesis the problem of POS and morphosyntactic tagging was described. Overview of basic and advanced stochastic graphical models was given and their application to the tagging problem of highly- inflectional languages. Description of the development of the morphosyntactic tagger based on constrained conditional random fields is provided and detailed analysis of all the problems encountered during development.
obrada prirodnog jezika, označavanje vrste riječi, uvjetna slučajna polja, hrvatski jezik
natural language processing, morphosyntactic tagging, conditional random fields, Croatian
3.7.2014.
Označavanje vrste riječi jedan je od osnovnih zadataka u obradi prirodnog jezika i preduvjet za mnoge druge zadatke. Uobičajeno se za označavanje vrste riječi koriste probabilistički modeli strojnog učenja za označavanje slijedova. Posebice se uspješnim pokazao model uvjetnih slučajnih polja (engl. Conditional Random Field, CRF). Međutim, za visokoflektivne jezike poput hrvatskoga označavanje vrste riječi i dalje je izazovan problem. U okviru završnoga rada potrebno je proučiti postupke za označavanje vrste riječi temeljene na strojnom učenju s naglaskom na postupke temeljene na probabilističkim modelima. Proučiti model uvjetnih slučajnih polja (CRF) i njegovo proširenje, model uvjetnih slučajnih polja s domenski-ovisnim ograničenjima (CCRF), predložen u (Waszczuk, 2012). Razraditi postupak označavanje vrste riječi u tekstovima na hrvatskome jeziku temeljen na modelu CCRF. Razviti programsku implementaciju postupka, po potrebi se oslanjajući na postojeća rješenja. Provesti iscrpno eksperimentalno vrednovanje modela na ispitnim skupovima podataka te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.