Theses

Student

Goran Gašić

Title HR

Duboko učenje vektorskih reprezentacija riječi za modele označavanja tekstova na hrvatskome jeziku

Title EN

Deep Learning of Word Embeddings for Tagging Models for Croatian Texts

Year

2015

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

1155

Number of pages

Language

Abstract HR

Vektorske reprezentacije riječi prikazuju riječi niskodimenzijskim vektorima realnih vrijednosti u svrhu matematičkog zapisa sintaktičkih te semantičkih informacija. Nenadziranim učenjem na skupu teksta hrWaC od 1.4 milijardu pojavnica izgrađujemo 4 tipa reprezentacija za rječnik od 200 000 riječi. Pomoću njih dubokim učenjem izgrađujemo modele označavanja tekstova zasnovane na umjetnim neuronskim mrežama. Kombiniramo dostupne označene skupove podataka. Ostvarujemo vrhunsku ili točnost blisku vrhunskoj za označavanje vrsta riječi (96.40%), morfosintaktičkih deskriptora (89.95%) te imenovanih entiteta (98.61%) na ispitnim skupovima. Javno objavljujemo sve korištene skupove podataka.

Abstract EN

Word embeddings represent words using low-dimensional real-valued vectors to mathematically express their syntactic and semantic information. We use unsupervised learning on the hrWaC dataset containing 1.4 billion tokens to build 4 types of word embeddings for a dictionary of 200 000 words. Then we leverage deep learning to build tagging models based on artifical neural networks. We combine available labelled datasets. We achieve state-of-the-art or near state-of-the-art accuracy for part-of-speech tagging (96.40%), morphosyntactic tagging (89.95%) and named entity recognition (98.61%) on test datasets. We make all used datasets publicly available.

Keywords HR

obrada prirodnog jezika, duboko učenje, vektorske reprezentacije, neuronske mreže, označavanje vrsta riječi, morfosintaktički deskriptori, prepoznavanje imenovanih entiteta, POS, MSD, NER, NLP

Keywords EN

natural language processing, deep learning, word embeddings, neural networks, part-of-speech tagging, morphosyntactic descriptors, named entity recognition, POS, MSD, NER, NLP

Defense date

13.7.2015

Thesis task HR

Semantičke reprezentacije riječi svaku riječ prikazuju niskodimenzijskim vektorom tako da semantički slične riječi imaju slične vektore. Takve su se reprezentacije pokazale iznimno korisnima u nizu zadataka obrade prirodnog jezika, uključivo leksičkosemantičkim zadatcima i ekstrakciji informacija. U posljednje vrijeme osobito su se uspješnima pokazale semantičke reprezentacije generirane nadziranim modelima strojnog učenja (engl. word embeddings), posebice neuronskim mrežama i modelima dubokoga strojnog učenja. U okviru diplomskoga rada potrebno je proučiti semantičke reprezentacije generirane neuronskim mrežama i modelima dubokoga učenja. Izgraditi semantičke reprezentacije za riječi hrvatskoga jezika korištenjem javno dostupnih korpusa. Proučiti pristupe integriranja semantičkih reprezentacija u modele za polunadzirano slijedno označavanje tekstova, uključivo modele višezadaćnog učenja. Razviti odgovarajuću programsku implementaciju modela za označavanje vrsta riječi i označavanje imenovanih entiteta u tekstovima na hrvatskome jeziku. Provesti iscrpno eksperimentalno vrednovanje modela na ispitnim skupovima podataka te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2015-GoranGasic.pdf