Theses

Student

Sven Vidak

Title HR

Jezično modeliranje hrvatskoga jezika modelima dubokog učenja

Title EN

Deep Learning for Language Modeling of the Croatian Language

Year

2016

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

1326

Number of pages

Language

Abstract HR

Jezično modeliranje jedan je od osnovnih problema unutar područja obrade prirodnog jezika. Sposobnost računala da samostalno generira ili razumije tekst omogućava da mobitelom ili računalom upravljavmo pomoću glasa, ali i da komuniciramo s njima. Pojavom dubokog učenja i povećanjem interesa znanstvenika za područje neuronskih mreža došlo je do razvoja metoda koje su omogućile izniman napredak na području jezičnog modeliranja, ali i drugih područja. U okviru ovog rada proučeni su tipovi neuronskih mreža koje se koriste za problem jezičnog modeliranja, načini njihovog učenja i neke naprednije metode koje daju danas najbolje poznate rezultate. Dana je usporedba tih metoda s klasičnim metodama jezičnog modeliranja koje se temelje ne statistici te su opisani problemi koje te metode imaju i dani su savjeti za rješavanje tih problema. Naučeni modeli primijenjeni su na problem samostalnog generiranja teksta te ispravljanja krivo prepoznatog teksta tokom postupka optičkog raspoznavanja. Dobiveni rezultati su očekivani, ali svakako mogu biti bolji ako se uloži više vremena u proces učenja neuronskih mreža.

Abstract EN

Language modeling is one of the basic problem in natural language processing. Ability of the computers to generate or understand a text (or a sound) enables us to communicate with them or to instruct them to achieve some goal. Deep learning and greater interest in neural networks led to the development of new and efficient techniques that achieve significant progress in language modeling and other areas. This thesis gave an overview of neural networks used for language modeling problems, algorithms used to train them and some advanced techniques that give state of the art results. Comparison of neural networks and standard language modeling techbiques is givven and it is also shown that neural networks have some problems that can be solved using advanced models. Learnt models are used for text generation and optical character recognition correction. Obtained results are expected, although not best possible which can be achieved with more training time.

Keywords HR

obrada prirodnog jezika, jezično modeliranje, duboko učenje, povratne neuronske mreže, geneiranje teksta, ispravljanje optičkog raspoznavanja znakova

Keywords EN

natural lanugage processing, language modeling, deep learning, recurrent neural network, text generation, optical character recognition correction

Defense date

5.7.2016.

Thesis task HR

Jezični modeli služe za procjenu vjerojatnosti riječi u danom kontekstu i jedan su od osnovnih alata u obradi prirodnog jezika. Tradicionalni se jezični modeli oslanjaju na statistiku o pojavljivanju n-grama u korpusu, stoga iziskuju velike količine podataka te loše modeliraju odnose između udaljenih riječi. U posljednje vrijeme metode dubokog učenja temeljene na neuronskim mrežama su preuzele vodstvo nad tradicionalnim pristupima. U okviru diplomskoga rada potrebno je proučiti jezične modele s naglaskom na jezične modele temeljene dubokim neuronskim mrežama. Upoznati se s trenutno dostupnim bibliotekama za duboko učenje te odabrati onu najprikladniju. Razviti programsku implementaciju jezičnih modela za hrvatski i engleski jezik, za nekoliko različitih domena. Provesti eksperimentalno vrednovanje jezičnog modela u smislu mjere zbunjenosti (engl. perplexity) te načiniti usporedbu s vodećim rezultatima u području kao i tradicionalnim modelima. Razraditi primjenu jezičnih modela na dva zadatka: ispravljanje pogrešaka u optičkom raspoznavanju znakova te generiranju korisničkih komentara na novinske članke. Razmotriti i druge moguće primjene modela. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2016-SvenVidak.pdf