Theses
Theses
Filip Čulinović
Ispitivanje vektorskih reprezentacija riječi hrvatskoga jezika
Evaluating Croatian Language Word Representations
2017
Graduate
Jan Šnajder
Martin Tutek
FER
FER2
1526
49
HR
U ovom radu ispitani su različiti modeli za vektorsku reprezentaciju riječi na više skupova za učenje na hrvatskom jeziku. Dobiveni vektori evaluirani su na dva ispitna skupa odabira sinonima te analogija. Također ispitan je i model ekstrakcije značenja iz vektora pomoću algoritma k-SVD te njegova primjena na određivanje značenja riječi.
In this paper different models for word representations have been tested on multiple training corpora for Croatian language. Result vectors have been evaluated on two different test sets which consisted of synonym choices and analogies. Another task was to extract meanings from the vectors through k-SVD algorithm and it's application to word sense disambiguation.
vektori riječi hrvatskog jezika, vektorske reprezentacije riječi, atom diskursa, polisemija
Croatian word vectors, word representations, discourse atom, polisemy
13.7.2017.
Glagoli su glavni nosioci značenja rečenice i stoga su od posebnog značaja za semantičku analizu teksta. Pritom su se vrlo korisnima pokazali leksičkosemantički resursi koji glagole grupiraju u sintaktičke i semantičke razrede (npr. FrameNet, VerbNet). Takvi resursi međutim postoje samo za manji broj jezika, a njihova je izrada skupa i dugotrajna. Zbog toga je u literaturi predloženo više postupaka za automatsku akviziciju glagolskih razreda iz korpusa. Većina takvih postupaka temelji se na nenadziranom strojnom učenju odnosno grupiranju.
U okviru završnoga rada potrebno je upoznati se s teorijskom podlogom za grupiranje glagola u glagolske razrede te odgovarajućim jezičnim resursima kao što su FrameNet i VerbNet. Proučiti postupke nenadziranog strojnog učenja, s naglaskom na postupke grupiranja, uključivo i mekog grupiranja, te proučiti postupke za vrednovanje grupiranja. Razraditi postupak za grupiranje glagola iz korpusa na hrvatskome jeziku u glagolske razrede prema sintaktičkim i semantičkim svojstvima glagola, po uzoru na postupak Kawahare i dr. (2014). Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje postupka. Razviti programsku implementaciju postupka te ga primijeniti na hrvatski web-korpus. Provesti iscrpno eksperimentalno vrednovanje postupka, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.