Theses

Stjepan Glavina
Strojno učenje pravila za klasifikaciju dokumenata
Machine Learning of Document Classification Rules
2014
Undergraduate
Jan Šnajder
FER
FER2
3790
34
HR
Klasifikacija dokumenata je jedan od osnovnih i najvažnijih problema analize tekstnih dokumenata. Najčešće metode se baziraju na vektorskoj reprezentaciji vreće riječi karakteristične dokumentu i vrlo su učinkovite. Međutim, način rada takvih strojno učenih modela je obično izrazito težak za tumačenje i ručno uređivanje. Zbog toga se predlaže drugi pristup klasifikaciji, a to je uz pomoć pravila. Prednost pravila jer što ih korisnik može lako interpretirati i uređivati. Rad se bavi klasifikacijom uz pomoć pravila u kombinaciji sa strojnim učenjem te uspoređuje učinkovitost sa klasifikatorom baziranim na SVM-u.
Document classification is one of basic and most important problems of textual document analysis. Most common methods are based on vector representation of words (bag of words) and are very effective. However, trained models developed by machine learning are difficult to interpret and edit by hand. Therefore, a different approach is suggested, namely, rule based classification. The advantage of rules is their simplicity; they are easy to interpret and edit. This paper discusses rule based classification in combination with machine learning and compares its effectiveness with an SVM based classifier.
strojno učenje, klasifikacija dokumenata, RIPPER, SVM, pravila, lematizacija
machine learning, document classification, RIPPER, SVM, rules, lemmatization
3.7.2014.
Sadržajna klasifikacija teksta jedan je od osnovnih zadatka dubinske analize teksta. Uobičajeni postupci temelje se na vektorskoj reprezentaciji značenja dokumenata u sprezi s modelima statističkog strojnog učenja. Prema učinkoviti, takvi modeli nisu lako tumačivi, odnosno nude objašnjenje za klasifikaciju pojedinačnih dokumenata. Alternativu predstavljaju modeli temeljeni na strojno učenim pravilima. Takvi su pravila tumačiva i korisnik ih može po potrebi prilagođavati. U okviru završnoga rada potrebno je proučiti pristupe za klasifikaciju dokumenata te pristupe za strojno učenje pravila, uključivo algoritam RIPPER i njegovu hijerarhijsku inačicu. Razraditi postupak za hijerarhijsku klasifikaciju dokumenata na hrvatskome jeziku temeljen na strojno učenim pravilima. Razviti programsku implementaciju sustava za klasifikaciju temeljenog na pravilima koji omogućava učenje novih pravila, uređivanje postojećih pravila te klasifikaciju i objašnjenje klasifikacije pojedinačnih dokumenata. Razmotriti proširenje sustava modeliranjem pouzdanosti pravila. Eksperimentalno ispitati rad sustava na ručno označenim zbirkama dokumenata na hrvatskome i engleskome jeziku. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.