
Theses
Theses
Ivan Kusalić
Primjena tematskih modela na analizu dokumenata na hrvatskom jeziku
Application of Topic Models to Analysis of Croatian Documents
2011
Graduate
Jan Šnajder
FER
FER2
289
43
HR
Generativni modeli s latentnim varijablama statistički su modeli podataka koji podatke opisuju temeljem njihovih skrivenih odnosno latentnih svojstava. Tematski modeli (engl. topic models) vrsta su generativnih modela s latentnim varijablama koji omogućavaju modeliranje apstraktnih tema sadržanih u tekstu dokumenta. Dana je teorijska podloga tematskih modela kao i njihov smještaj unutar većih grupa statističkih modela. Proučavane su teoretske osnove modela probabilističke semantičke analize (pLSA) i latentne Dirichletove alokacije (LDA). U eksperimentalnom dijelu pokazana je ispravnost generativnog smjera modela LDA i rezultati primjene istog na modeliranje dokumenata hrvatskog jezika. Na kraju je demonstrirana perspektivnost modela LDA za redukciju dimenzionalnosti reprezentacije dokumenata.
A latent variable model is a generative statistical model that relates a set of observable variables to a set of latent variables. A topic model is a type of latent variable model for discovering the abstract topics that occur in a collection of documents. Description of topic models is given. Theoretical foundations of Probabilistic latent semantic analysis model (pLSA) and Latent Dirichlet allocation model (LDA) are pre- sented. Generative ability of LDA model is demonstrated. To model documents written in Croatian language, various LDA models are used. Demonstration of LDA model’s applicability to reduction of document’s dimensionality is given.
tematski modeli, hrvatski jezik, LDA, pLSA
topic models, Croatian language, LDA, pLSA
28.6.2011.