
Theses
Theses
Marko Bekavac
Model za otkrivanje i razgraničavanje značenja višeznačnih riječi hrvatskoga jezika
Word Sense Induction and Discrimination Model for Croatian Words
2014
Graduate
Jan Šnajder
FER
FER2
772
89
HR
Automatsko otkrivanje značenja višeznačnih riječi korak je prema izgradnji kvalitetnog sustava za razrješavanje višeznačnosti u situacijama kada nije dostupan adekvatan skup značenja ili dovoljan broj njihovih konteksta. Otkrivanje značenja ovdje se obavlja nenadzirano, korištenjem grafa supojavljivanja koji modelira semantičke odnose između riječi na temelju njihovih distribucija u korpusu. U okviru ovog rada predstavljen je pregled nekoliko algoritama za grupiranje vrhova grafa, analizirane su njihove prednosti i mane te ponu dena usporedba njihovih rezultata. Graf je grupiran na kontekste višeznačne riječi, gdje svaki kontekst predstavlja jedno značenje. Također je ponuđen i jednostavan model za razrješavanje višeznačnosti koristeći prethodno određen skup značenja. Na kraju, predstavljeni su postupci evaluacije grupiranja posebno namijenjeni evaluaciji otkrivanja značenja koji ne zahtijevaju vrednovanje kroz primjenski sustav.
Automatic word sense induction is a step towards obtaining a good-quality word sense disambiguation system. It is to be used when no adequate sense inventories or their example contexts is available. Word sense induction is done using unsupervised methods, in this particular case by using a cooccurrence graphs which model semantic relations between words based on their distributions throughout the document corpora. This thesis presents a number of graph–vertice clustering algorithms, the analysis of their perks and flaws, along with the comparison of their results. The graph was clustered to represent different contexts of an ambiguous word, each context describing a usage of a single word sense. A simple word disambiguation model which uses the inducted set of senses if then presented. Methods aimed specifically to evaluate a word sense induction without any need for an indirect evaluation through application system are presented.
obrada prirodnog jezika, višeznačnost riječi, otkrivanje značenja riječi, razgraničavanje značenja riječi, graf supojavljivanja
natural language processing, word sense ambiguity, word sense induction, word sense discrimination, cooccurence graph
7.7.2014.
Leksička višeznačnost jezika predstavlja ozbiljnu prepreku u strojnoj obradi teksta. Razvijen je niz postupaka za razrješavanje višeznačnosti riječi temeljenih na statističkoj obradi korpusa i strojnome učenju. Postupci se većinom oslanjaju na unaprijed definiran skup značenja riječi (tzv. rječnik smislova), dok postupci temeljeni na nadziranom strojnom učenju dodatno iziskuju i veliku količinu ručno označenih podataka, koji za mnoge jezike nisu raspoloživi. Dodatan problem predstavlja zrnatost značenja: uobičajeno korišteni rječnici smislova kao što je WordNet za mnoge su primjene suviše detaljni, što nepotrebno usložnjuje model te smanjuje točnost postupaka razrješavanja višeznačnosti.
U okviru diplomskoga rada potrebno je proučiti postupke za razrješavanje višeznačnosti, posebice postupke za nenadzirano otkrivanje i razgraničavanje značenja. Razraditi model nenadziranog otkrivanje značenja riječi hrvatskoga jezika temeljen na statističkoj analizi supojavljivanja riječi u korpusu. Razraditi postupak vrednovanja takvog modela koji ne ovisi o unaprijed definiranom rječniku smislova. Izgraditi odgovarajući ispitni skup višeznačnih riječi s ručno označenim značenjima. Razviti programsku implementaciju modela te provesti iscrpno eksperimentalno vrednovanje na zadatcima otkrivanja i razgraničavanja značenja, uključivo detaljnu analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.