Theses

Student

Mihael Šafarić

Title HR

Postupci odabira značajki i prikaza dokumenta za klasifikaciju teksta

Title EN

Feature Selection and Document Representation Methods for Text Classification

Year

2015

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

1154

Number of pages

Language

Abstract HR

S porastom količine digitalnih informacija raste i potreba za metodama klasifikacije teksta koje su uˇcinkovitinije i u mogu ́cnosti obraditi velike količine podataka. Iz tog razloga pozornost se sve više okreće metodama temeljenim na strojnom učenju. U ovom radu isprobane su metode koje koriste reprezentaciju dokumenta kao vreće riječi koje u prvom koraku rade odabir najznačajnijih značajki. Uz to, isprobane su i metode temeljene na neuronskim mrežama koje za pojedini dokument grade njegovu vektorsku reprezentaciju. Korištenjem tih metoda ostvarili su se bolji rezultati nego korištenjem metoda koje koriste reprezentaciju dokumenta kao vreće riječi. Svi eksperimenti provedeni su nad različitim zbirkama tekstova na hrvatskom i engleskom jeziku.

Abstract EN

With growing amount of online information, there is a growing need for text classification methods that are more efficient and capable to process large amount of data. Therefore, there is increased attention to the methods based on machine learning. This paper experiments with methods that use bag-of-words document representation and feature selection methods. In addition, this paper experiments with a neural network based methods. These methods build vector representation of each document and the results achieved with these methods are better than the results achieved using methods that use bag-of-words document representation. All of the experiments are performed over a few different document collections in Croatian and English.

Keywords HR

strojno učenje, obrada prirodnog jezika, klasifikacija teksta, odabir značajki, word2vec, doc2vec, reprezentacija dokumenta

Keywords EN

machine learning, natural language processing,text classification, feature selection, word2vec, doc2vec, document representation

Defense date

14.7.2015.

Thesis task HR

Klasifikacija teksta jest postupak pridjeljivanja oznaka tekstnim dokumentima na temelju njihovog sadržaja. U tu se svrhu najčešće koriste modeli strojnog učenja, primijenjeni na vektorsku reprezentaciju dokumenata kao vreće riječi. Premda su ti modeli razmjerno učinkoviti i robusni, istraživanja su pokazala da uspješnost klasifikacije može uvelike ovisiti o tome koje se značake koriste kao riječi. Predložen je niz postupaka za automatski odabir značajki kojima se nastoji poboljšati uspješnost klasifikacije. S druge strane, u novije vrijeme predložene su reprezentacije dokumenata temeljene na neuronskim mrežama, koje su se pokazale vrlo uspješnima, a ne iziskuju manipulaciju sa značajkama. U okviru diplomskoga rada potrebno je proučiti postupke za odabir značajki u klasifikaciji teksta te novije modele prikaza riječi i dokumenata temeljene na neuronskim mrežama. Razviti programsku implementaciju postupaka odabira značajki te ga primijeniti na referentne zbirke tekstova na engleskome (Reuters Corpus RVC1) i hrvatskome jeziku (zbirka novinskih članaka Vjesnik i zbirka pravnih dokumenata NN13205). Primijeniti nekoliko klasifikacijskih modela te usporediti rezultate modela koji koriste odabir značajaki i modela koji koriste neuronske reprezentacije riječi. Razmotriti model prikaza koji bi kombinirao prednosti obaju pristupa. Provesti iscrpno vrednovanje, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2015-MihaelSafaric.pdf