
Theses
Theses
Matija Hanževački
Razrješavanje koreferencije u tekstovima na hrvatskome jeziku
Coreference Resolution in Croatian Texts
2013
Graduate
Jan Šnajder
Goran Glavaš
FER
FER2
605
48
HR
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacije. Radi se o izrazito semantičkom problemu koji je težak kako za označavanje podataka, tako i za automatizirano rješavanje i vrednovanje. U okviru ovog rada proučeni su postupci i sustavi za razrješavanje koreferencije u tekstu. Razrađen je postupak za otkrivanje referentnih spominjanja i razrješavanje koreferencije u tekstovima na hrvatskome jeziku. Postupak se temelji na metodama strojnog učenja te kombinira klasifikaciju parova spominjanja i grupiranje referentnih spominjanja. Razvijena je programska implementacija postupka i primjenjena na označenom novinskom korpusu tekstova na hrvatskome jeziku. Provedeno je eksperimentalno vrednovanje točnosti ekstrakcije, analiza značajki i detaljna analiza pogrešaka. Ukupni rezultat grupiranja spominjanja koristeći službeni evaluator s CoNLL 2011 iznosi 73.9% F1-mjere.
Coreference resolution is a process of determining which expressions in a textual document refer to the same real-world entity. Corefering expressions can be names, noun phrases, or pronouns. Coreference resolution is an important task in scope of Natural Language Processing and a necessary step in solving many Information Extraction tasks. It is a semantically difficult problem that is both difficult for annotation as it is for automatic solving and evaluation. In the scope of this paper different methods and systems for coreference resolution in text were studied. A method for extracting mentions and coreference resolution in Croatian texts was developed. The method is based on a supervised machine learning model and it combines mention-pair classification and clustering of corefering mentions. A software implementation was developed and applied on an annotated newspaper corpus in Croatian. Experimental evaluation of extraction accuracy, feature analysis, and a detailed error analysis were conducted. The final coreference resolution evaluation result is 73.9% F1, using the official CoNLL 2011 scorer.
obrada prirodnog jezika, ekstrakcija informacija, strojno učenje, razrješavanje koreferencije, stroj s potpornim vektorima
natural language processing, information extraction, machine learning, coreference resolution, support vector machine
27.6.2013.
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacija. Radi se o izrazito semantičkom problemu koji je težak kako za označavanje podataka, tako i za automatizirano rješavanje i vrednovanje.
U okviru diplomskog rada potrebno je proučiti postupke i sustave za razrješavanje koreferencija u tekstu. Razraditi postupak za otkrivanje referentnih spominjanja i razrješavanje koreferencije u tekstovima na hrvatskome jeziku, uzimajući u obzir nedostatak dostupnih jezičnotehnoloških alata za hrvatski jezik. Postupak se treba temeljiti na metodama strojnog učenja te kombinirati klasifikaciju parova spominjanja i grupiranje referentnih spominjanja. Razviti programsku implementaciju postupka i primijeniti ga na označenom novinskom korpusu tekstova na hrvatskome jeziku. Provesti eksperimentalno vrednovanje točnosti ekstrakcije, analizu značajki te detaljnu analizu pogrešaka. Radu priložiti izvorni programski kod, programsku dokumentaciju i označene skupove podataka.