
Theses
Theses
Filip Čulinović
Primjena nadziranog strojnog učenja za akviziciju glagolskih razreda iz korpusa
Acquisition of Verb Classes from Corpus using Unsupervised Machine Learning
2015
Undergraduate
Jan Šnajder
FER
FER2
4276
36
HR
Problem sličnosti riječi težak je problem područja analize prirodnog jezika. U ovom radu opisano je stvaranje glagolskih razreda pomoću metoda nenadziranog strojnog učenja. Korišten je algoritam grupiranja MCL te je rad modela isproban na podacima korpusa hrWaC. Implementacija modela je ostvarena u programskom jeziku Python.
Word similarity is a difficult natural language processing task. In this paper, verb class acquisition problem is solved using unsupervised machine learning methods. For the clustering parts, MCL algorithm has been used and the model has been tested on data from hrWaC corpus. The model described in this paper has been implemented in Python programming language.
nenadzirano strojno učenje, analiza prirodnog jezika, glagolski razredi, grupiranje, sličnost riječi, semantika
unsupervised machine learning, natural language processing, verb classes, clustering, word similarity, semantics
7.7.2015.
Glagoli su glavni nosioci značenja rečenice i stoga su od posebnog značaja za semantičku analizu teksta. Pritom su se vrlo korisnima pokazali leksičkosemantički resursi koji glagole grupiraju u sintaktičke i semantičke razrede (npr. FrameNet, VerbNet). Takvi resursi međutim postoje samo za manji broj jezika, a njihova je izrada skupa i dugotrajna. Zbog toga je u literaturi predloženo više postupaka za automatsku akviziciju glagolskih razreda iz korpusa. Većina takvih postupaka temelji se na nenadziranom strojnom učenju odnosno grupiranju.
U okviru završnoga rada potrebno je upoznati se s teorijskom podlogom za grupiranje glagola u glagolske razrede te odgovarajućim jezičnim resursima kao što su FrameNet i VerbNet. Proučiti postupke nenadziranog strojnog učenja, s naglaskom na postupke grupiranja, uključivo i mekog grupiranja, te proučiti postupke za vrednovanje grupiranja. Razraditi postupak za grupiranje glagola iz korpusa na hrvatskome jeziku u glagolske razrede prema sintaktičkim i semantičkim svojstvima glagola, po uzoru na postupak Kawahare i dr. (2014). Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje postupka. Razviti programsku implementaciju postupka te ga primijeniti na hrvatski web-korpus. Provesti iscrpno eksperimentalno vrednovanje postupka, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.