
Theses
Theses
Mihael Šafarić
Postupci odabira značajki i prikaza dokumenta za klasifikaciju teksta
Feature Selection and Document Representation Methods for Text Classification
2015
Graduate
Jan Šnajder
FER
FER2
1154
39
HR
S porastom količine digitalnih informacija raste i potreba za metodama klasifikacije teksta koje su uˇcinkovitinije i u mogu ́cnosti obraditi velike količine podataka. Iz tog razloga pozornost se sve više okreće metodama temeljenim na strojnom učenju. U ovom radu isprobane su metode koje koriste reprezentaciju dokumenta kao vreće riječi koje u prvom koraku rade odabir najznačajnijih značajki. Uz to, isprobane su i metode temeljene na neuronskim mrežama koje za pojedini dokument grade njegovu vektorsku reprezentaciju. Korištenjem tih metoda ostvarili su se bolji rezultati nego korištenjem metoda koje koriste reprezentaciju dokumenta kao vreće riječi. Svi eksperimenti provedeni su nad različitim zbirkama tekstova na hrvatskom i engleskom jeziku.
With growing amount of online information, there is a growing need for text classification methods that are more efficient and capable to process large amount of data. Therefore, there is increased attention to the methods based on machine learning. This paper experiments with methods that use bag-of-words document representation and feature selection methods. In addition, this paper experiments with a neural network based methods. These methods build vector representation of each document and the results achieved with these methods are better than the results achieved using methods that use bag-of-words document representation. All of the experiments are performed over a few different document collections in Croatian and English.
strojno učenje, obrada prirodnog jezika, klasifikacija teksta, odabir značajki, word2vec, doc2vec, reprezentacija dokumenta
machine learning, natural language processing,text classification, feature selection, word2vec, doc2vec, document representation
14.7.2015.
Klasifikacija teksta jest postupak pridjeljivanja oznaka tekstnim dokumentima na temelju njihovog sadržaja. U tu se svrhu najčešće koriste modeli strojnog učenja, primijenjeni na vektorsku reprezentaciju dokumenata kao vreće riječi. Premda su ti modeli razmjerno učinkoviti i robusni, istraživanja su pokazala da uspješnost klasifikacije može uvelike ovisiti o tome koje se značake koriste kao riječi. Predložen je niz postupaka za automatski odabir značajki kojima se nastoji poboljšati uspješnost klasifikacije. S druge strane, u novije vrijeme predložene su reprezentacije dokumenata temeljene na neuronskim mrežama, koje su se pokazale vrlo uspješnima, a ne iziskuju manipulaciju sa značajkama.
U okviru diplomskoga rada potrebno je proučiti postupke za odabir značajki u klasifikaciji teksta te novije modele prikaza riječi i dokumenata temeljene na neuronskim mrežama. Razviti programsku implementaciju postupaka odabira značajki te ga primijeniti na referentne zbirke tekstova na engleskome (Reuters Corpus RVC1) i hrvatskome jeziku (zbirka novinskih članaka Vjesnik i zbirka pravnih dokumenata NN13205). Primijeniti nekoliko klasifikacijskih modela te usporediti rezultate modela koji koriste odabir značajaki i modela koji koriste neuronske reprezentacije riječi. Razmotriti model prikaza koji bi kombinirao prednosti obaju pristupa. Provesti iscrpno vrednovanje, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.