Theses

Student

Zoran Medić

Title HR

Ekstrakcija navoda iz novinskih objava na hrvatskome jeziku

Title EN

Quotation Extraction from News Stories in Croatian Language

Year

2014

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

3806

Number of pages

Language

Abstract HR

Završni rad opisuje izgradnju sustava za ekstrakciju navoda iz novinskih objava na hrvatskome jeziku. Model za ekstrakciju navoda i povezivanje navoda s entitetima koji su izrekli navod temeljen je na pravilima. Temelj izgrađenih pravila jest potraga za navodima unutar rečenice, predikatom kojim se povezuje navod s imenovanim entitetom, te subjektom koji je prepoznat kao imenovani entitet. Postignuta preciznost izgrađenog sustava iznosi 97%, dok je odziv 72%. Proučeni su i relevantni radovi iz područja ekstrakcije navoda pomoću metoda temeljenih na pravilima i metoda strojnog učenja. Izgrađeno je i jednostavno grafičko korisničko sučelje kojim se pretražuje baza navoda i pripadnih govornika. U sklopu rada predloženi su i brojni načini poboljšanja i proširenja sustava.

Abstract EN

Bachelor’s thesis describes an implementation of rule-based, news-wire quotation extraction system for Croatian language. Quotation extraction model is based on rules, each of which tries to find a quote inside a sentence, as well as a predicate which is contained in a set of reported speech verbs and a subject labeled as named entity - person. Precision of implemented quotation extraction system is currently equal to 97%, while recall has value of 72%. Different methods based on rules and machine learning have been studied during the work on the thesis. A simple graphical user interface has been created, for user to search through quotes database. Many ways of system improvement and expansion have been suggested as future work ideas.

Keywords HR

ekstrakcija navoda, povezivanje navoda s entitetom, ekstrakcija informacija pomoću pravila

Keywords EN

quotation extraction, quote attribution, rule-based information extraction

Defense date

4.7.2014.

Thesis task HR

Novinske su objave primaran izvor informacija o događajima, stoga sustavi ekstrakciju informacija iz novinskih tekstova pobuđuju veliko zanimanje. Mnogo je informacija u novinskim objavama izraženo u obliku navoda. Analiza takvih navoda ima niz primjena, od analize događaja do analize medija i komunikološke analize. U literaturi je predloženo nekoliko postupaka za automatsku ekstrakciju navoda i njihovih izvora. U okviru završnoga rada potrebno je proučiti postupke za ekstrakciju navoda iz tekstova, uključivo postupke temeljene na pravilima i postupke temeljene na strojnom učenju. Razraditi postupak za ekstrakciju navoda iz novinskih objava na hrvatskome jeziku koji će ekstrahirati navode izražene u obliku upravnoga govora te ih povezivati s imenovanim entitetima kao izvorima navoda. Izgraditi prikladnu zbirku novinskih tekstova s ručno označenim navodima i njihovim izvorima. Implementirati sustav za ekstrakciju i pregledan prikaz navoda i njihovih izvora. Provesti iscrpno vrednovanje sustava na ispitnoj zbirci te detaljnu analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2014-ZoranMedic.pdf