
Theses
Theses
Sandra Trkulja
Izgradnja I odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku
Feature Construction and Selection for Document Classification in Croatian Language
2014
Undergraduate
Jan Šnajder
FER
FER2
3792
31
HR
Ovaj rad istražuje kako prikupljanje distribucijskih značajki i tvorba n-grama riječi utječe na klasifikaciju dokumenata u odnosu na standardni model reprezentacije teksta kao vreće riječi. Korištenje tih modela iziskuje dodatne računalne resurse, ali oni mogu nositi više informacija nego što ih nosi reprezentacija korištenjem vreće riječi. Distribucijske značajke dobivene su ekstrakcijom informacija o pozicijama u dokumentu na kojima se riječi pojavljuju, dok je važnost n-grama ispitana pomoću četiri funkcije za evaluaciju značajki. Rezultati su uspoređeni s modelom vreće riječi.
In this work we investigate how does extracting distributional features and using word n-grams for document classification compare to using bag of words — a more traditional model for document representation. Extraction of these features requires additi- onal computational resources, but they can carry more information about the document compared to the bag of words baseline. In order to extract distributional features we use positions of word occurrences in a document. N-grams are rated by evaluation of four feature evaluation functions in order to select only useful n-grams which are then treated as a single feature. Results obtained by using these models are compared with the bag of words model.
obrada prirodnog jezika, strojno učenje, vre ́ca riječi, distribucijske značajke, n-gram, stroj potpornih vektora, liblinear
natural language processing, machine learning, bag of words, distributional features, n-gram, support vector machine, liblinear
3.7.2014.
Sadržajna klasifikacija teksta jedan je od osnovnih zadatka dubinske analize teksta. Uobičajeno se u tu svrhu koriste modeli strojnog učenja temeljeni na vektorskoj reprezentaciji dokumenta kao vreće riječi. Točnost klasifikacije uvelike ovisi o načinu izgradnje i odabiru značajki, kao i o karakteristikama samih dokumenata te klasifikacijske sheme.
U okviru završnoga rada potrebno je proučiti postupke za klasifikaciju dokumenata temeljene na strojnome učenju te postupke za izgradnju i odabir značajki. Razraditi radni okvir koji će omogućiti ispitivanje niza postupaka za izgradnju i odabir značajki, uključivo postupke za izgradnju značajki temeljenih na n-gramima i distribucijskim značajkama te postupke za odabir značajki temeljene na statističkim mjerama i heurističkoj optimizaciji. Razviti programsku implementaciju radnoga okvira te provesti iscrpno eksperimentalno vrednovanje skupova značajki na ručno označenim zbirkama dokumenata na hrvatskome jeziku. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.