Theses

Student

Filip Čulinović

Title HR

Ispitivanje vektorskih reprezentacija riječi hrvatskoga jezika

Title EN

Evaluating Croatian Language Word Representations

Year

2017

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Martin Tutek

Study Programme

FER

Programme

FER2

Thesis ID

1526

Number of pages

Language

Abstract HR

U ovom radu ispitani su različiti modeli za vektorsku reprezentaciju riječi na više skupova za učenje na hrvatskom jeziku. Dobiveni vektori evaluirani su na dva ispitna skupa odabira sinonima te analogija. Također ispitan je i model ekstrakcije značenja iz vektora pomoću algoritma k-SVD te njegova primjena na određivanje značenja riječi.

Abstract EN

In this paper different models for word representations have been tested on multiple training corpora for Croatian language. Result vectors have been evaluated on two different test sets which consisted of synonym choices and analogies. Another task was to extract meanings from the vectors through k-SVD algorithm and it's application to word sense disambiguation.

Keywords HR

vektori riječi hrvatskog jezika, vektorske reprezentacije riječi, atom diskursa, polisemija

Keywords EN

Croatian word vectors, word representations, discourse atom, polisemy

Defense date

13.7.2017.

Thesis task HR

Glagoli su glavni nosioci značenja rečenice i stoga su od posebnog značaja za semantičku analizu teksta. Pritom su se vrlo korisnima pokazali leksičkosemantički resursi koji glagole grupiraju u sintaktičke i semantičke razrede (npr. FrameNet, VerbNet). Takvi resursi međutim postoje samo za manji broj jezika, a njihova je izrada skupa i dugotrajna. Zbog toga je u literaturi predloženo više postupaka za automatsku akviziciju glagolskih razreda iz korpusa. Većina takvih postupaka temelji se na nenadziranom strojnom učenju odnosno grupiranju. U okviru završnoga rada potrebno je upoznati se s teorijskom podlogom za grupiranje glagola u glagolske razrede te odgovarajućim jezičnim resursima kao što su FrameNet i VerbNet. Proučiti postupke nenadziranog strojnog učenja, s naglaskom na postupke grupiranja, uključivo i mekog grupiranja, te proučiti postupke za vrednovanje grupiranja. Razraditi postupak za grupiranje glagola iz korpusa na hrvatskome jeziku u glagolske razrede prema sintaktičkim i semantičkim svojstvima glagola, po uzoru na postupak Kawahare i dr. (2014). Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje postupka. Razviti programsku implementaciju postupka te ga primijeniti na hrvatski web-korpus. Provesti iscrpno eksperimentalno vrednovanje postupka, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2017-FilipCulinovic.pdf