Theses

Student

Matija Hanževački

Title HR

Razrješavanje koreferencije u tekstovima na hrvatskome jeziku

Title EN

Coreference Resolution in Croatian Texts

Year

2013

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Goran Glavaš

Study Programme

FER

Programme

FER2

Thesis ID

605

Number of pages

Language

Abstract HR

Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacije. Radi se o izrazito semantičkom problemu koji je težak kako za označavanje podataka, tako i za automatizirano rješavanje i vrednovanje. U okviru ovog rada proučeni su postupci i sustavi za razrješavanje koreferencije u tekstu. Razrađen je postupak za otkrivanje referentnih spominjanja i razrješavanje koreferencije u tekstovima na hrvatskome jeziku. Postupak se temelji na metodama strojnog učenja te kombinira klasifikaciju parova spominjanja i grupiranje referentnih spominjanja. Razvijena je programska implementacija postupka i primjenjena na označenom novinskom korpusu tekstova na hrvatskome jeziku. Provedeno je eksperimentalno vrednovanje točnosti ekstrakcije, analiza značajki i detaljna analiza pogrešaka. Ukupni rezultat grupiranja spominjanja koristeći službeni evaluator s CoNLL 2011 iznosi 73.9% F1-mjere.

Abstract EN

Coreference resolution is a process of determining which expressions in a textual document refer to the same real-world entity. Corefering expressions can be names, noun phrases, or pronouns. Coreference resolution is an important task in scope of Natural Language Processing and a necessary step in solving many Information Extraction tasks. It is a semantically difficult problem that is both difficult for annotation as it is for automatic solving and evaluation. In the scope of this paper different methods and systems for coreference resolution in text were studied. A method for extracting mentions and coreference resolution in Croatian texts was developed. The method is based on a supervised machine learning model and it combines mention-pair classification and clustering of corefering mentions. A software implementation was developed and applied on an annotated newspaper corpus in Croatian. Experimental evaluation of extraction accuracy, feature analysis, and a detailed error analysis were conducted. The final coreference resolution evaluation result is 73.9% F1, using the official CoNLL 2011 scorer.

Keywords HR

obrada prirodnog jezika, ekstrakcija informacija, strojno učenje, razrješavanje koreferencije, stroj s potpornim vektorima

Keywords EN

natural language processing, information extraction, machine learning, coreference resolution, support vector machine

Defense date

27.6.2013.

Thesis task HR

Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacija. Radi se o izrazito semantičkom problemu koji je težak kako za označavanje podataka, tako i za automatizirano rješavanje i vrednovanje. U okviru diplomskog rada potrebno je proučiti postupke i sustave za razrješavanje koreferencija u tekstu. Razraditi postupak za otkrivanje referentnih spominjanja i razrješavanje koreferencije u tekstovima na hrvatskome jeziku, uzimajući u obzir nedostatak dostupnih jezičnotehnoloških alata za hrvatski jezik. Postupak se treba temeljiti na metodama strojnog učenja te kombinirati klasifikaciju parova spominjanja i grupiranje referentnih spominjanja. Razviti programsku implementaciju postupka i primijeniti ga na označenom novinskom korpusu tekstova na hrvatskome jeziku. Provesti eksperimentalno vrednovanje točnosti ekstrakcije, analizu značajki te detaljnu analizu pogrešaka. Radu priložiti izvorni programski kod, programsku dokumentaciju i označene skupove podataka.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2013-MatijaHanzevacki.pdf