Theses

Student

Leo Zuanović

Title HR

Jezični model hrvatskoga jezika zasnovan na povratnim neuronskim mrežama

Title EN

Recurrent Neural Network Based Model of Croatian Language

Year

2014

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

775

Number of pages

Language

Abstract HR

Jezični modeli procjenjuju vjerojatnost pripadanja nekog slieda rieči u neki jezik. Tradicionalni se modeli temelje na prebrojavanju pojavljivanja nizova od n rieči (n-rječja), no ti modeli pate od nedostatka podataka, nemogućnosti modeliranja udaljenih odnosa, nemogućnosti poobćavanja itd. Alternativa su modeli temeljeni na živčanim mrežama koji prikazivanjem rieči pomoću vektora rješavaju glavninu problema tradicionalnih modela. Ti rječni prikazi mogu se izkoristiti i u drugim zadatcima obrade prirodnog jezika. U radu su izrađeni rječni prikazi za hrvatske rieči pomoću naputka word2vec te su izpitani na zadatcima prepoznavanja suznačnica, ocjenjivanja značbene povezanosti i sličnosti, skladnjanih i značbenih nalika te na sustavu za prepoznavanje imenovanih sućaka u hrvatskom jeziku CroNER-u. U svim je slučajevima (osim kod CroNER-a) došlo do znatnog poboljšanja točnosti u odnosu na sustav bez vektorskih prikaza rieči.

Abstract EN

Language models are used to estimate the probability of a word sequence belonging to some language. Traditional models are based on counting the number of occurrences of n-word long sequences (n-grams). These models, however, suffer from insufficient data, inability to model distant relations or to generalize etc. An alternative approach are neural network based models which use vector representations of words to solve most of the traditional model’s problems. These word representations can also be used in other natural language processing tasks. In this thesis we built word representations of Croatian words using word2vec software and tested them on the tasks of synonym detection, semantic similarity and relatedness judgment, syntax and semantic analogies and named entity recognition in Croatian using CroNER. In all the cases (except CroNER) we observed significant increase in accuracy as compared to the systems without vector representations of words.

Keywords HR

obrada prirodnog jezika, jezični modeli, živčane mreže, rječni prikazi, hrvatski jezik

Keywords EN

natural language processing, language models, neural networks, word representations, Croatian language

Defense date

8.7.2014.

Thesis task HR

Jezični modeli služe za procjenu vjerojatnosti riječi u danom kontekstu i jedan su od osnovnih alata u obradi prirodnog jezika i raspoznavanju govora. Tradicionalni jezični modeli oslanjaju se na statistiku o pojavljivanju n-grama u korpusu. Takvi modeli u pravilu iziskuju velike količine podataka te loše modeliraju odnose između udaljenih riječi. U novije su se vrijeme kao uspješna alternativa nametnuli jezični modeli temeljeni na neuronskim mrežama. Osim za jezično modeliranje, jezični modeli temeljeni na neuronskim mrežama mogu se koristiti i za semantičku reprezentaciju riječi, pri čemu se skriveni sloj neuronske mreže koristi kao vektorska reprezentacija. Takve su se distribuirane reprezentacije pokazale korisnima na nizu zadataka obrade prirodnog jezika, uključivo leksičkosemantičkim zadatcima iz ekstrakciji informacija. U okviru diplomskoga rada potrebno je proučiti jezične modele temeljene na neuronskim mrežama s naglaskom na jezični model temeljen na rekurentnim neuronskim mrežama (RNN-LM) opisan u radu Mikolova i dr. (2010). Proučiti alternativne modele distribuirane i distribucijske semantičke reprezentacije riječi i njihovu primjenu u zadatcima obrade prirodnog jezika. Razviti programsku implementaciju modela RNN-LM, po potrebi se oslanjajući na javno dostupne alate i biblioteke. Primijeniti model RNN-LM na prikladan korpus hrvatskoga jezika. Provesti eksperimentalno vrednovanje jezičnog modela u smislu udjela pogrešnih riječi (engl. word-error-rate) i perpleksije te načiniti usporedbu s tradicionalnim modelima temeljenima na n-gramima. Izgraditi semantičke reprezentacije najčešćih riječi hrvatskoga jezika, primijeniti ih na zadatcima leksičkosemantičke sličnosti i ekstrakcije imenovanih entiteta te ih usporediti sa sličnim, javno dostupnim reprezentacijama. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2014-LeoZuanovic.pdf