Theses

Student

Sven Vidak

Title HR

Otkrivanje teksta neprimjerenog sadržaja postupcima strojnog učenja

Title EN

Offensive Text Detection using Machine Learning Methods

Year

2014

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

3794

Number of pages

Language

Abstract HR

Razvoj interneta doprinio je bržoj i učikovitijoj komunikaciji, ali je zbog anonimnosti koju nudi korisnicima također povećao broj nepoželjnih aktivnosti. Cilj je takvu aktivnost u potpunosti spriječiti ili barem minimizirati kako bi korištenje interneta bilo što ugodnije. U okviru ovog rada proučeni su postojeći postupci za klasifikaciju teksta koji se danas standardno primjenjuju u radovima vezanim za to područje. Prikupljena je velika količina podataka koja je tada obrađena te su implementirani neki od najčešće korištenih algoritama strojnog učenja koji se koriste za klasifikaciju teksta. Rezultati koji su dobiveni na temelju skupljenih podataka nisu niti blizu očekivanih te je stoga razmotreno nekoliko načina kojima bi se rezultati mogli poboljšati.

Abstract EN

With an increasing number of users who use internet on a daily basis, offensive content on many pages became a big issue. Offensive text detection is a useful technique that aims to prevent offensive content from being posted on pages we visit every day. This thesis gave an overview on some of the existing algorithms in the field of a text classification, collect reasonably large amount of raw data, preprocessed it and implemented some of the most commonly used algorithms that are used in modern text classification. Results obtained using collected and preprocessed data were not even close to those we expected so we considered many other possibilities and methods that could perhaps improve the results.

Keywords HR

obrada prirodnog jezika, nadzirano strojno učenje, algoritmi učenja, klasifikacija teksta

Keywords EN

natural language processing, supervised machine learning, learning algorithms, text classification

Defense date

4.7.2014.

Thesis task HR

Razvoj interneta doprinio je bržoj i učinkovitijoj komunikaciji, ali je, zbog anonimnosti koju nudi korisnicima, također povećao broj nepoželjnih aktivnosti. Objavljivanje poruka neprimjerenog odnosno uvredljivog sadržaja najčešći je oblik nepoželjne aktivnosti, koji je moguće spriječiti postupcima za automatsko otkrivanje takvih poruka. S obzirom na izražajnost jezika, ovaj zadatak nije trivijalno rješiv, no zadovoljavajući se rezultati mogu postići primjenom modela strojnog učenja za klasifikaciju teksta. U okviru završnoga rada potrebno je proučiti postupke za klasifikaciju teksta temeljene na strojnom učenju te postojeće postupke za otkrivanje teksta neprimjerenog odnosno uvredljivog sadržaja. Razraditi model za otkrivanje tekstova uvredljivog sadržaja na hrvatskome jeziku. Izgraditi i ručno označiti prikladan skup podataka na hrvatskome jeziku. Razviti sustav za otkrivanje teksta uvredljivoga sadržaja u proizvoljnome programskom jeziku te ga primijeniti na korisnički generirane poruke na hrvatskome jeziku. Isprobati nekoliko modela strojnog učenja, provesti iscrpno eksperimentalno vrednovanje sustava na ispitnim skupovima podataka te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2014-SvenVidak.pdf