
Theses
Theses
Zoranj Hranj
Razrješavanje koreferencije metodom nenadziranog strojnog učenja
Unsupervised Coreference Resolution
2011
Graduate
Jan Šnajder
FER
FER2
285
54
HR
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacija. U okviru ovog rada proučeni su različiti postupci razrješavanja koreferecije temeljeni na strojnom učenju. Razrađena je metoda nenadziranog strojnog učenja za razrješavanje koreferencije u tekstovima na hrvatskom jeziku u kojima su prethodno označeni referirajući izrazi. Razvijena je i programska implementacija tog postupka te je provedeno iscrpno vrednovanje na tekstovima iz novinskih članaka.
Coreference resolution is a process of determining whether two phrases in text refer to the same real-world entity. Coreferent phrases can be proper names, noun phrases, or pronouns. Coreference resolution is an important task in scope of natural language processing and a necessary step in many information extraction problems. In scope of this work different machine learning-based methods of coreference resolution were examined, and an unsupervised coreference resolution method to work with Croatian langugae texts with annotated mentions is proposed.
koreferentnost, razrješavanje koreferencije, strojno učenje, obrada prirodnog jezika, ekstrakcija informacija, grupiranje
coreference, coreference resolution, machine learning, natural language processing, information extraction, clustering
27.6.2011.
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade pridodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacija.
U okviru diplomskog rada potrebno je proučiti postupke za razrješavanje koreferencije temeljene na metodama strojnog učenja. Razraditi nenadzirani postupak za razrješavanje koreferencije u tekstovima na hrvatskome jeziku u kojima su prethodno označeni referirajući izrazi. Razviti programsku implementaciju postupka te provesti vrednovanje na novinskim tekstovima. Radu priložiti izvorni programski kod i ispitne uzorke.