Theses

Student

Filip Čulinović

Title HR

Primjena nadziranog strojnog učenja za akviziciju glagolskih razreda iz korpusa

Title EN

Acquisition of Verb Classes from Corpus using Unsupervised Machine Learning

Year

2015

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

4276

Number of pages

Language

Abstract HR

Problem sličnosti riječi težak je problem područja analize prirodnog jezika. U ovom radu opisano je stvaranje glagolskih razreda pomoću metoda nenadziranog strojnog učenja. Korišten je algoritam grupiranja MCL te je rad modela isproban na podacima korpusa hrWaC. Implementacija modela je ostvarena u programskom jeziku Python.

Abstract EN

Word similarity is a difficult natural language processing task. In this paper, verb class acquisition problem is solved using unsupervised machine learning methods. For the clustering parts, MCL algorithm has been used and the model has been tested on data from hrWaC corpus. The model described in this paper has been implemented in Python programming language.

Keywords HR

nenadzirano strojno učenje, analiza prirodnog jezika, glagolski razredi, grupiranje, sličnost riječi, semantika

Keywords EN

unsupervised machine learning, natural language processing, verb classes, clustering, word similarity, semantics

Defense date

7.7.2015.

Thesis task HR

Glagoli su glavni nosioci značenja rečenice i stoga su od posebnog značaja za semantičku analizu teksta. Pritom su se vrlo korisnima pokazali leksičkosemantički resursi koji glagole grupiraju u sintaktičke i semantičke razrede (npr. FrameNet, VerbNet). Takvi resursi međutim postoje samo za manji broj jezika, a njihova je izrada skupa i dugotrajna. Zbog toga je u literaturi predloženo više postupaka za automatsku akviziciju glagolskih razreda iz korpusa. Većina takvih postupaka temelji se na nenadziranom strojnom učenju odnosno grupiranju. U okviru završnoga rada potrebno je upoznati se s teorijskom podlogom za grupiranje glagola u glagolske razrede te odgovarajućim jezičnim resursima kao što su FrameNet i VerbNet. Proučiti postupke nenadziranog strojnog učenja, s naglaskom na postupke grupiranja, uključivo i mekog grupiranja, te proučiti postupke za vrednovanje grupiranja. Razraditi postupak za grupiranje glagola iz korpusa na hrvatskome jeziku u glagolske razrede prema sintaktičkim i semantičkim svojstvima glagola, po uzoru na postupak Kawahare i dr. (2014). Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje postupka. Razviti programsku implementaciju postupka te ga primijeniti na hrvatski web-korpus. Provesti iscrpno eksperimentalno vrednovanje postupka, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2015-FilipCulinovic.pdf