
Theses
Theses
Zoran Medić
Ekstrakcija navoda iz novinskih objava na hrvatskome jeziku
Quotation Extraction from News Stories in Croatian Language
2014
Undergraduate
Jan Šnajder
FER
FER2
3806
31
HR
Završni rad opisuje izgradnju sustava za ekstrakciju navoda iz novinskih objava na hrvatskome jeziku. Model za ekstrakciju navoda i povezivanje navoda s entitetima koji su izrekli navod temeljen je na pravilima. Temelj izgrađenih pravila jest potraga za navodima unutar rečenice, predikatom kojim se povezuje navod s imenovanim entitetom, te subjektom koji je prepoznat kao imenovani entitet. Postignuta preciznost izgrađenog sustava iznosi 97%, dok je odziv 72%. Proučeni su i relevantni radovi iz područja ekstrakcije navoda pomoću metoda temeljenih na pravilima i metoda strojnog učenja. Izgrađeno je i jednostavno grafičko korisničko sučelje kojim se pretražuje baza navoda i pripadnih govornika. U sklopu rada predloženi su i brojni načini poboljšanja i proširenja sustava.
Bachelor’s thesis describes an implementation of rule-based, news-wire quotation extraction system for Croatian language. Quotation extraction model is based on rules, each of which tries to find a quote inside a sentence, as well as a predicate which is contained in a set of reported speech verbs and a subject labeled as named entity - person. Precision of implemented quotation extraction system is currently equal to 97%, while recall has value of 72%. Different methods based on rules and machine learning have been studied during the work on the thesis. A simple graphical user interface has been created, for user to search through quotes database. Many ways of system improvement and expansion have been suggested as future work ideas.
ekstrakcija navoda, povezivanje navoda s entitetom, ekstrakcija informacija pomoću pravila
quotation extraction, quote attribution, rule-based information extraction
4.7.2014.
Novinske su objave primaran izvor informacija o događajima, stoga sustavi ekstrakciju informacija iz novinskih tekstova pobuđuju veliko zanimanje. Mnogo je informacija u novinskim objavama izraženo u obliku navoda. Analiza takvih navoda ima niz primjena, od analize događaja do analize medija i komunikološke analize. U literaturi je predloženo nekoliko postupaka za automatsku ekstrakciju navoda i njihovih izvora.
U okviru završnoga rada potrebno je proučiti postupke za ekstrakciju navoda iz tekstova, uključivo postupke temeljene na pravilima i postupke temeljene na strojnom učenju. Razraditi postupak za ekstrakciju navoda iz novinskih objava na hrvatskome jeziku koji će ekstrahirati navode izražene u obliku upravnoga govora te ih povezivati s imenovanim entitetima kao izvorima navoda. Izgraditi prikladnu zbirku novinskih tekstova s ručno označenim navodima i njihovim izvorima. Implementirati sustav za ekstrakciju i pregledan prikaz navoda i njihovih izvora. Provesti iscrpno vrednovanje sustava na ispitnoj zbirci te detaljnu analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.