Theses

Student

Sandra Trkulja

Title HR

Izgradnja I odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku

Title EN

Feature Construction and Selection for Document Classification in Croatian Language

Year

2014

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

3792

Number of pages

Language

Abstract HR

Ovaj rad istražuje kako prikupljanje distribucijskih značajki i tvorba n-grama riječi utječe na klasifikaciju dokumenata u odnosu na standardni model reprezentacije teksta kao vreće riječi. Korištenje tih modela iziskuje dodatne računalne resurse, ali oni mogu nositi više informacija nego što ih nosi reprezentacija korištenjem vreće riječi. Distribucijske značajke dobivene su ekstrakcijom informacija o pozicijama u dokumentu na kojima se riječi pojavljuju, dok je važnost n-grama ispitana pomoću četiri funkcije za evaluaciju značajki. Rezultati su uspoređeni s modelom vreće riječi.

Abstract EN

In this work we investigate how does extracting distributional features and using word n-grams for document classification compare to using bag of words — a more traditional model for document representation. Extraction of these features requires additi- onal computational resources, but they can carry more information about the document compared to the bag of words baseline. In order to extract distributional features we use positions of word occurrences in a document. N-grams are rated by evaluation of four feature evaluation functions in order to select only useful n-grams which are then treated as a single feature. Results obtained by using these models are compared with the bag of words model.

Keywords HR

obrada prirodnog jezika, strojno učenje, vre ́ca riječi, distribucijske značajke, n-gram, stroj potpornih vektora, liblinear

Keywords EN

natural language processing, machine learning, bag of words, distributional features, n-gram, support vector machine, liblinear

Defense date

3.7.2014.

Thesis task HR

Sadržajna klasifikacija teksta jedan je od osnovnih zadatka dubinske analize teksta. Uobičajeno se u tu svrhu koriste modeli strojnog učenja temeljeni na vektorskoj reprezentaciji dokumenta kao vreće riječi. Točnost klasifikacije uvelike ovisi o načinu izgradnje i odabiru značajki, kao i o karakteristikama samih dokumenata te klasifikacijske sheme. U okviru završnoga rada potrebno je proučiti postupke za klasifikaciju dokumenata temeljene na strojnome učenju te postupke za izgradnju i odabir značajki. Razraditi radni okvir koji će omogućiti ispitivanje niza postupaka za izgradnju i odabir značajki, uključivo postupke za izgradnju značajki temeljenih na n-gramima i distribucijskim značajkama te postupke za odabir značajki temeljene na statističkim mjerama i heurističkoj optimizaciji. Razviti programsku implementaciju radnoga okvira te provesti iscrpno eksperimentalno vrednovanje skupova značajki na ručno označenim zbirkama dokumenata na hrvatskome jeziku. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2014-SandraTrkulja.pdf