
Theses
Theses
Goran Gašić
Duboko učenje vektorskih reprezentacija riječi za modele označavanja tekstova na hrvatskome jeziku
Deep Learning of Word Embeddings for Tagging Models for Croatian Texts
2015
Graduate
Jan Šnajder
FER
FER2
1155
42
HR
Vektorske reprezentacije riječi prikazuju riječi niskodimenzijskim vektorima realnih vrijednosti u svrhu matematičkog zapisa sintaktičkih te semantičkih informacija. Nenadziranim učenjem na skupu teksta hrWaC od 1.4 milijardu pojavnica izgrađujemo 4 tipa reprezentacija za rječnik od 200 000 riječi. Pomoću njih dubokim učenjem izgrađujemo modele označavanja tekstova zasnovane na umjetnim neuronskim mrežama. Kombiniramo dostupne označene skupove podataka. Ostvarujemo vrhunsku ili točnost blisku vrhunskoj za označavanje vrsta riječi (96.40%), morfosintaktičkih deskriptora (89.95%) te imenovanih entiteta (98.61%) na ispitnim skupovima. Javno objavljujemo sve korištene skupove podataka.
Word embeddings represent words using low-dimensional real-valued vectors to mathematically express their syntactic and semantic information. We use unsupervised learning on the hrWaC dataset containing 1.4 billion tokens to build 4 types of word embeddings for a dictionary of 200 000 words. Then we leverage deep learning to build tagging models based on artifical neural networks. We combine available labelled datasets. We achieve state-of-the-art or near state-of-the-art accuracy for part-of-speech tagging (96.40%), morphosyntactic tagging (89.95%) and named entity recognition (98.61%) on test datasets. We make all used datasets publicly available.
obrada prirodnog jezika, duboko učenje, vektorske reprezentacije, neuronske mreže, označavanje vrsta riječi, morfosintaktički deskriptori, prepoznavanje imenovanih entiteta, POS, MSD, NER, NLP
natural language processing, deep learning, word embeddings, neural networks, part-of-speech tagging, morphosyntactic descriptors, named entity recognition, POS, MSD, NER, NLP
13.7.2015
Semantičke reprezentacije riječi svaku riječ prikazuju niskodimenzijskim vektorom tako da semantički slične riječi imaju slične vektore. Takve su se reprezentacije pokazale iznimno korisnima u nizu zadataka obrade prirodnog jezika, uključivo leksičkosemantičkim zadatcima i ekstrakciji informacija. U posljednje vrijeme osobito su se uspješnima pokazale semantičke reprezentacije generirane nadziranim modelima strojnog učenja (engl. word embeddings), posebice neuronskim mrežama i modelima dubokoga strojnog učenja.
U okviru diplomskoga rada potrebno je proučiti semantičke reprezentacije generirane neuronskim mrežama i modelima dubokoga učenja. Izgraditi semantičke reprezentacije za riječi hrvatskoga jezika korištenjem javno dostupnih korpusa. Proučiti pristupe integriranja semantičkih reprezentacija u modele za polunadzirano slijedno označavanje tekstova, uključivo modele višezadaćnog učenja. Razviti odgovarajuću programsku implementaciju modela za označavanje vrsta riječi i označavanje imenovanih entiteta u tekstovima na hrvatskome jeziku. Provesti iscrpno eksperimentalno vrednovanje modela na ispitnim skupovima podataka te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.