
Theses
Theses
Ivan Kmetović
Uparivanje koreferentnih imenovanih entiteta metodama strojnog učenja
Matching Co-referent Named Entities Using Machine Learning
2011
Graduate
Jan Šnajder
FER
FER2
287
49
HR
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacija.
U okviru ovog diplomskog rada proučeni su postupci za uparivanje koreferentnih imenovanih entiteta. Razrađen je postupak za uparivanje koreferentnih imenovanih entiteta u tekstovima na hrvatskom jeziku temeljen na nadziranom strojnom učenju. Razvijena je programska implementacija postupka i vrednovana na odgovarajućem ispitnom uzorku.
Coreference resolution is the process in which we identify the mentions that are referring to a same real-world entity. Coreferent mentions can be either named, nominal or pronominal. Coreference resolution is a important task in the field of natural language processing and necessary prerequisite for many information extraction tasks.
In this diploma thesis we study techniques for matching coreferent named entities. Technique is developed for matching coreferent named entities in texts on Croatian language based on supervised machine learning. Programming implementation of procedure is made and evaluated on proper testing corpus.
razrješavanje koreferencije, uparivanje koreferentnih imenovanih entiteta, učenje temeljeno na pravilima
coreference resolution, matching coreferent named entities, rule based learning
28.6.2011.
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade pridodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacija.
U okviru diplomskog rada potrebno je proučiti postupke za uparivanje koreferentnih imenovanih entiteta, s naglaskom na vlastita imena i imeničke fraze. Razraditi postupak za uparivanje koreferentnih vlastitih imena i imeničkih fraza u tekstovima na hrvatskome jeziku temeljen na nadziranom strojnom učenju. Razviti programsku implementaciju postupka te provesti vrednovanje na odgovarajućem ispitnom uzorku. Radu priložiti izvorni programski kod i ispitne uzorke.