Theses

Filip Petkovski
Primjena modela djelomične pripadnosti za ekstrakciju ključnih fraza iz dokumenata
Application of Partial Membership Models to Keyphrase Extraction from Croatian Documents
2013
Graduate
Jan Šnajder
FER
FER2
631
46
HR
Model parcijalne pripadnosti je poopćenje modela konačnog broja gustoća te je u mogućnosti modelirati djelomičnu pripadnost podataka pojedinim skupinama. Model pretpostavlja da je svaki podatak težinska suma uzoraka više izvora. S druge strane, latentna Dirichletova alokacija (LDA) modelira podatke kao diskretnu mješavinu jer je pretpostavka modela da je svaki atribut određenog podatka generiran neovisno o izvora ostalih atributa. U ovom je radu dana teorijska podloga modela parcijalne pripadnosti te modela latentne Dirichletove alokacije, opisana je njihova struktura, pretpostavke i način procjene njihovih parametara. Razvijene su dvije metode koje koriste parametre modela LDA te je vrednovana njihova uspješnost i ponašanje u različitim okruženjima.
The partial membership model (PMM) is a generalization of the standard finite mixture model since it can model partial membership of each data point to different data sets. Every point from the data set is modeled as a weighted sum of samples from differ- ent sources. On the other hand, Latent Dirichlet Allocation (LDA) is a model which represents data points as discrete mixtures where each attribute of a given data point is generated independently of the sources of the other attributes. We have provided a theoretical background of the partial membership model and Latent Dirichlet Allocation and have developed two methods for keyword extraction using the parameters obtained by LDA. Finally, we have evaluated the performance of our methods, as well as their behaviour in different settings.
obrada prirodnog jezika, PMM, LDA, ključne fraze, hrvatski jezik
natural language processing, PMM, LDA, keyphrase extraction, Croatian language
25.9.2013.
Učinkovito dohvaćanje informacija često podrazumijeva prethodno označavanje dokumenta ključnim riječima ili frazama koje najbolje opisuju sadržaj dokumenta. Zadatak automatske ekstrakcije ključnih fraza jedan je od osnovnih zadataka ekstrakcije informacija. Suvremeni postupci esktrakcije ključnih fraza temelje se na statističkim metodama i metodama strojnog učenja. Metode temeljene na nenadziranom strojnom učenju posebno su prikladne jer ne iziskuju označene podatke. U okviru diplomskog rada potrebno je proučiti probabilističke modele grupiranja podataka, s naglaskom na bayesovski model djelomične pripadnosti, te načiniti usporedbu tih modela. Proučiti postupke za ekstrakciju ključnih fraza s naglaskom na nenadzirane postupke. Razraditi postupak za modeliranje dokumenata korištenjem modela djelomične pripadnosti te postupak nenadzirane ekstrakcije ključnih fraza temeljen na tom modelu. Načiniti programsku implementaciju postupka i primijeniti ga na zbirku dokumenata na hrvatskome jeziku. Provesti temeljito vrednovanje razvijenog postupka na ispitnoj zbirci Hine, usporediti postupak s referentnim postupcima te provesti analizu značajki i pogrešaka. Radu priložiti izvorni programski kod, programsku dokumentaciju i korištene skupove podataka.