
Theses
Theses
Sven Vidak
Otkrivanje teksta neprimjerenog sadržaja postupcima strojnog učenja
Offensive Text Detection using Machine Learning Methods
2014
Undergraduate
Jan Šnajder
FER
FER2
3794
38
HR
Razvoj interneta doprinio je bržoj i učikovitijoj komunikaciji, ali je zbog anonimnosti koju nudi korisnicima također povećao broj nepoželjnih aktivnosti. Cilj je takvu aktivnost u potpunosti spriječiti ili barem minimizirati kako bi korištenje interneta bilo što ugodnije. U okviru ovog rada proučeni su postojeći postupci za klasifikaciju teksta koji se danas standardno primjenjuju u radovima vezanim za to područje. Prikupljena je velika količina podataka koja je tada obrađena te su implementirani neki od najčešće korištenih algoritama strojnog učenja koji se koriste za klasifikaciju teksta. Rezultati koji su dobiveni na temelju skupljenih podataka nisu niti blizu očekivanih te je stoga razmotreno nekoliko načina kojima bi se rezultati mogli poboljšati.
With an increasing number of users who use internet on a daily basis, offensive content on many pages became a big issue. Offensive text detection is a useful technique that aims to prevent offensive content from being posted on pages we visit every day. This thesis gave an overview on some of the existing algorithms in the field of a text classification, collect reasonably large amount of raw data, preprocessed it and implemented some of the most commonly used algorithms that are used in modern text classification. Results obtained using collected and preprocessed data were not even close to those we expected so we considered many other possibilities and methods that could perhaps improve the results.
obrada prirodnog jezika, nadzirano strojno učenje, algoritmi učenja, klasifikacija teksta
natural language processing, supervised machine learning, learning algorithms, text classification
4.7.2014.
Razvoj interneta doprinio je bržoj i učinkovitijoj komunikaciji, ali je, zbog anonimnosti koju nudi korisnicima, također povećao broj nepoželjnih aktivnosti. Objavljivanje poruka neprimjerenog odnosno uvredljivog sadržaja najčešći je oblik nepoželjne aktivnosti, koji je moguće spriječiti postupcima za automatsko otkrivanje takvih poruka. S obzirom na izražajnost jezika, ovaj zadatak nije trivijalno rješiv, no zadovoljavajući se rezultati mogu postići primjenom modela strojnog učenja za klasifikaciju teksta.
U okviru završnoga rada potrebno je proučiti postupke za klasifikaciju teksta temeljene na strojnom učenju te postojeće postupke za otkrivanje teksta neprimjerenog odnosno uvredljivog sadržaja. Razraditi model za otkrivanje tekstova uvredljivog sadržaja na hrvatskome jeziku. Izgraditi i ručno označiti prikladan skup podataka na hrvatskome jeziku. Razviti sustav za otkrivanje teksta uvredljivoga sadržaja u proizvoljnome programskom jeziku te ga primijeniti na korisnički generirane poruke na hrvatskome jeziku. Isprobati nekoliko modela strojnog učenja, provesti iscrpno eksperimentalno vrednovanje sustava na ispitnim skupovima podataka te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.