Theses

Student

Filip Petkovski

Title HR

Primjena modela djelomične pripadnosti za ekstrakciju ključnih fraza iz dokumenata

Title EN

Application of Partial Membership Models to Keyphrase Extraction from Croatian Documents

Year

2013

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

631

Number of pages

Language

Abstract HR

Model parcijalne pripadnosti je poopćenje modela konačnog broja gustoća te je u mogućnosti modelirati djelomičnu pripadnost podataka pojedinim skupinama. Model pretpostavlja da je svaki podatak težinska suma uzoraka više izvora. S druge strane, latentna Dirichletova alokacija (LDA) modelira podatke kao diskretnu mješavinu jer je pretpostavka modela da je svaki atribut određenog podatka generiran neovisno o izvora ostalih atributa. U ovom je radu dana teorijska podloga modela parcijalne pripadnosti te modela latentne Dirichletove alokacije, opisana je njihova struktura, pretpostavke i način procjene njihovih parametara. Razvijene su dvije metode koje koriste parametre modela LDA te je vrednovana njihova uspješnost i ponašanje u različitim okruženjima.

Abstract EN

The partial membership model (PMM) is a generalization of the standard finite mixture model since it can model partial membership of each data point to different data sets. Every point from the data set is modeled as a weighted sum of samples from differ- ent sources. On the other hand, Latent Dirichlet Allocation (LDA) is a model which represents data points as discrete mixtures where each attribute of a given data point is generated independently of the sources of the other attributes. We have provided a theoretical background of the partial membership model and Latent Dirichlet Allocation and have developed two methods for keyword extraction using the parameters obtained by LDA. Finally, we have evaluated the performance of our methods, as well as their behaviour in different settings.

Keywords HR

obrada prirodnog jezika, PMM, LDA, ključne fraze, hrvatski jezik

Keywords EN

natural language processing, PMM, LDA, keyphrase extraction, Croatian language

Defense date

25.9.2013.

Thesis task HR

Učinkovito dohvaćanje informacija često podrazumijeva prethodno označavanje dokumenta ključnim riječima ili frazama koje najbolje opisuju sadržaj dokumenta. Zadatak automatske ekstrakcije ključnih fraza jedan je od osnovnih zadataka ekstrakcije informacija. Suvremeni postupci esktrakcije ključnih fraza temelje se na statističkim metodama i metodama strojnog učenja. Metode temeljene na nenadziranom strojnom učenju posebno su prikladne jer ne iziskuju označene podatke. U okviru diplomskog rada potrebno je proučiti probabilističke modele grupiranja podataka, s naglaskom na bayesovski model djelomične pripadnosti, te načiniti usporedbu tih modela. Proučiti postupke za ekstrakciju ključnih fraza s naglaskom na nenadzirane postupke. Razraditi postupak za modeliranje dokumenata korištenjem modela djelomične pripadnosti te postupak nenadzirane ekstrakcije ključnih fraza temeljen na tom modelu. Načiniti programsku implementaciju postupka i primijeniti ga na zbirku dokumenata na hrvatskome jeziku. Provesti temeljito vrednovanje razvijenog postupka na ispitnoj zbirci Hine, usporediti postupak s referentnim postupcima te provesti analizu značajki i pogrešaka. Radu priložiti izvorni programski kod, programsku dokumentaciju i korištene skupove podataka.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2013-FilipPetkovski.pdf