Theses

Student

Stjepan Glavina

Title HR

Strojno učenje pravila za klasifikaciju dokumenata

Title EN

Machine Learning of Document Classification Rules

Year

2014

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

3790

Number of pages

Language

Abstract HR

Klasifikacija dokumenata je jedan od osnovnih i najvažnijih problema analize tekstnih dokumenata. Najčešće metode se baziraju na vektorskoj reprezentaciji vreće riječi karakteristične dokumentu i vrlo su učinkovite. Međutim, način rada takvih strojno učenih modela je obično izrazito težak za tumačenje i ručno uređivanje. Zbog toga se predlaže drugi pristup klasifikaciji, a to je uz pomoć pravila. Prednost pravila jer što ih korisnik može lako interpretirati i uređivati. Rad se bavi klasifikacijom uz pomoć pravila u kombinaciji sa strojnim učenjem te uspoređuje učinkovitost sa klasifikatorom baziranim na SVM-u.

Abstract EN

Document classification is one of basic and most important problems of textual document analysis. Most common methods are based on vector representation of words (bag of words) and are very effective. However, trained models developed by machine learning are difficult to interpret and edit by hand. Therefore, a different approach is suggested, namely, rule based classification. The advantage of rules is their simplicity; they are easy to interpret and edit. This paper discusses rule based classification in combination with machine learning and compares its effectiveness with an SVM based classifier.

Keywords HR

strojno učenje, klasifikacija dokumenata, RIPPER, SVM, pravila, lematizacija

Keywords EN

machine learning, document classification, RIPPER, SVM, rules, lemmatization

Defense date

3.7.2014.

Thesis task HR

Sadržajna klasifikacija teksta jedan je od osnovnih zadatka dubinske analize teksta. Uobičajeni postupci temelje se na vektorskoj reprezentaciji značenja dokumenata u sprezi s modelima statističkog strojnog učenja. Prema učinkoviti, takvi modeli nisu lako tumačivi, odnosno nude objašnjenje za klasifikaciju pojedinačnih dokumenata. Alternativu predstavljaju modeli temeljeni na strojno učenim pravilima. Takvi su pravila tumačiva i korisnik ih može po potrebi prilagođavati. U okviru završnoga rada potrebno je proučiti pristupe za klasifikaciju dokumenata te pristupe za strojno učenje pravila, uključivo algoritam RIPPER i njegovu hijerarhijsku inačicu. Razraditi postupak za hijerarhijsku klasifikaciju dokumenata na hrvatskome jeziku temeljen na strojno učenim pravilima. Razviti programsku implementaciju sustava za klasifikaciju temeljenog na pravilima koji omogućava učenje novih pravila, uređivanje postojećih pravila te klasifikaciju i objašnjenje klasifikacije pojedinačnih dokumenata. Razmotriti proširenje sustava modeliranjem pouzdanosti pravila. Eksperimentalno ispitati rad sustava na ručno označenim zbirkama dokumenata na hrvatskome i engleskome jeziku. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2014-StjepanGlavina.pdf