Theses

Tin Franović
Klasifikacija važnosti poruka elektroničke pošte temeljem govornih činova
Classification of Email Importance Based on Speech Acts
2013
Graduate
Jan Šnajder
FER
FER2
508
58
HR
Razmjena informacija putem poruka elektroničke pošte zauzima sve veći udio u poslovnoj i osobnoj komunikaciji. Automatska klasifikacija poruka prema važnosti korisniku omogućava kvalitetniju obradu poruka i uštedu vremena. Tipični sustavi za klasifikaciju važnosti poruka temelje se ne modelu tzv. vreće riječi. S komunikacijskog aspekta, veći značaj od samih riječi imaju tzv. govorni činovi, odnosno radnje izražene govorom ili pismom (zahtjev, izmjena, isporuka i sl). Budući da govorni činovi neupitno utječu na važnost poruke, pretpostavlja se da klasifikacija važnosti poruke temeljena na govornim činovima može dati bolje rezultate od uobičajene klasifikacije temeljene na riječima. U okviru ovog rada proučeni su postojeći postupci za određivanje važnosti poruka elektorničke pošte temeljeni na metodama strojnog učenja te teorija govornih činova. Predložen je postupak za označavanje poruka elektroničke pošte na hrvatskom jeziku govornim činovima. Također, predložen je postupak za klasifikaciju važnosti poruka elektroničke pošte na hrvatskome jeziku koji kombinira klasifikaciju temeljenu na govornim činovima i sadržajnu klasifikaciju temeljenu na modelu tzv. vreće riječi. Nad predloženim postupcima ispitano je šest različitih algoritama nadziranog strojnog učenja te je proveden postupak procjene utjecaja značajki na klasifikaciju. Provedeno je eksperimentalno vrednovanje točnosti označavanja govornih činova i klasifikacije važnosti te analiza utjecaja oznaka govornih činova na klasifikaciju.
Information sharing through email is fastly becoming an integral part of everyday business and personal communication. Automatic classification of messages based on their importance provides the user with high-quality message processing while saving time. Typical classifiers of message importance are based on the bag-of-words model. From the communication standpoint, speech acts are more important than single words. Speech acts are actions performed with words, in writing or orally (request, amendment, delivery, etc). Since speech acts undoubtedly affect message importance, it is assumed that speech act-based classification of message impotance could show better results than classification based on words. This work assesses the existing procedures for importance based message classification using machine learning methods as well as the theory of speech acts. A procedure is proposed for labelling email messages in Croatian language using speech acts. Futhermore, the work proposes a method for classifying the importance of email messages which combines speech-act based classification with content-based classification using the bag-of-words model. For the proposed methods, six supervised machine learning algorithms were tested and estimation of the effect of the features was performed. Experimental evaluation of the accuracy in speech act labelling and importance classification was performed along with the analysis of the effect of speech act labels on classification performance.
strojno učenje, nadzirano učenje, obrada prirodnog jezika, klasifikacija elektroničke pošte, govorni činovi
machine learning, supervised learning, natural language processing, email message classification, speech acts
19.2.2013.
Razmjena informacija putem poruka elektroničke pošte zauzima sve veći udio u poslovnoj i osobnoj komunikaciji. Automatska klasifikacija poruka prema važnosti korisniku omogućava kvalitetniju obradu poruka i uštedu vremena. Tipični sustavi za klasifikaciju važnosti poruka temelje se na modelu tzv. vreće riječi. S komunikacijskog aspekta, veći značaj od samih riječi imaju tzv. govorni činovi, odnosno radnje koje su izražene govorom ili pismom (zahtjev, izmjena, isporuka i sl). Budući da govorni činovi neupitno utječu na važnost poruke, pretpostavlja se da klasifikacija važnosti poruke temeljena na govornim činovima može dati bolje rezultate od uobičajene klasifikacije temeljene na riječima. U okviru diplomskoga rada potrebno je proučiti postojeće postupke za određivanje važnosti poruka elektroničke pošte temeljene na metodama strojnog učenja. Proučiti teoriju govornih činova i pristupe za automatsku klasifikaciju govornih činova metodama nadziranog strojnog učenja. Razraditi postupak za označavanje poruka elektroničke pošte na hrvatskome jeziku govornim činovima. Razraditi postupak za klasifikaciju važnosti poruka elektroničke pošte na hrvatskome jeziku koji će kombinirati klasifikaciju temeljenu na govornim činovima, sadržajnu klasifikaciju i eventualno uporabu dodatnih značajki (npr. vremenskih izraza) dobivenih jednostavnim postupcima ekstrakcije informacija. Ispitati različite algoritme nadziranog strojnog učenja, uključivo generativne i diskriminativne. Provesti postupak odabira značajki. Provesti eksperimentalno vrednovanje točnosti označavanja govornih činova i klasifikacije važnosti te detaljnu analizu značajki i pogrešaka.