Theses

Student

Vjeran Crnjak

Title HR

Označavanje vrste riječi u hrvatskome jeziku modelom uvjetnih slučajnih polja

Title EN

Part-of-Speech Tagging for Croatian using Conditional Random Fields

Year

2014

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

3793

Number of pages

Language

Abstract HR

Označavanje vrste riječi jedan je od osnovnih zadataka u obradi prirodnog jezika i preduvjet za mnoge druge zadatke. U ovome radu opisana je problematika označavanja vrste riječi i dan je pregled osnovnih i naprednih stohastičkih grafičkih modela te njihova primjena na označavanje vrste riječi visokoflektivnih jezika. Opisan je razvoj morfosintaktičkog označivača temeljen na modelu uvjetnih slučajnih polja s ograničenjima i pažljivo su analizirane sve poteškoće prisutne u razvoju.

Abstract EN

Part-of-speech tagging is one of the fundamental tasks in natural language pro- cessing and a prerequisite for many others. In this thesis the problem of POS and morphosyntactic tagging was described. Overview of basic and advanced stochastic graphical models was given and their application to the tagging problem of highly- inflectional languages. Description of the development of the morphosyntactic tagger based on constrained conditional random fields is provided and detailed analysis of all the problems encountered during development.

Keywords HR

obrada prirodnog jezika, označavanje vrste riječi, uvjetna slučajna polja, hrvatski jezik

Keywords EN

natural language processing, morphosyntactic tagging, conditional random fields, Croatian

Defense date

3.7.2014.

Thesis task HR

Označavanje vrste riječi jedan je od osnovnih zadataka u obradi prirodnog jezika i preduvjet za mnoge druge zadatke. Uobičajeno se za označavanje vrste riječi koriste probabilistički modeli strojnog učenja za označavanje slijedova. Posebice se uspješnim pokazao model uvjetnih slučajnih polja (engl. Conditional Random Field, CRF). Međutim, za visokoflektivne jezike poput hrvatskoga označavanje vrste riječi i dalje je izazovan problem. U okviru završnoga rada potrebno je proučiti postupke za označavanje vrste riječi temeljene na strojnom učenju s naglaskom na postupke temeljene na probabilističkim modelima. Proučiti model uvjetnih slučajnih polja (CRF) i njegovo proširenje, model uvjetnih slučajnih polja s domenski-ovisnim ograničenjima (CCRF), predložen u (Waszczuk, 2012). Razraditi postupak označavanje vrste riječi u tekstovima na hrvatskome jeziku temeljen na modelu CCRF. Razviti programsku implementaciju postupka, po potrebi se oslanjajući na postojeća rješenja. Provesti iscrpno eksperimentalno vrednovanje modela na ispitnim skupovima podataka te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2014-VjeranCrnjak.pdf