Theses

Student

Filip Hrenić

Title HR

Otkrivanje poruka neprimjerenog sadržaja u mrežnom razgovoru

Title EN

Detection of Inappropriate Messages in Online Chats

Year

2016

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

4753

Number of pages

Language

Abstract HR

U današnje vrijeme sve je više ljudi koji komuniciraju putem interneta. Anonimnost korisnika nerijetko dovodi do nepoželjnog ponašanja tijekom razgovora. Da bi se to spriječilo, koriste se razne metode kojima bi se detektirale neprimjerene poruke. Da bi se ubrzao proces označavanja korišteno je aktivno učenje. Implementirana je metoda logističke klasifikacije te se može jednostavno uključiti u postojeći sustav. Dobiveni klasifikator postiže preciznost od 82.583% nad testnim podacima.

Abstract EN

More and more people nowadays use internet for communication. User anonymity often leads to undesirable behaviour during conversations. In order to put a stop to it, various methods are used to detect such messages. Active learning has been used to speed up data marking. Implementation of logistic regression achieved precision of 82.583% on test data and can easily be incorporated with existing systems.

Keywords HR

strojno učenje, obrada prirodnog jezika, logistička regresija, aktivno učenje, nadzirano učenje, klasifikacija, mrežni razgovor

Keywords EN

machine learning, natural language processing, logistic regression, active learning, semi supervised learning, classification, online chat

Defense date

5.7.2016.

Thesis task HR

Razvoj interneta doprinio je bržoj i učinkovitijoj komunikaciji, ali je, zbog anonimnosti koju nudi korisnicima, također povećao broj nepoželjnih aktivnosti. Objavljivanje poruka neprimjerenog sadržaja, uključivo uvredljivog i neželjenog sadržaja, najčešći je oblik nepoželjne aktivnosti, koji je moguće spriječiti postupcima za automatsko otkrivanje takvih poruka, posebice postupcima temeljenima na strojnome učenju. U okviru završnoga rada potrebno je proučiti postupke za klasifikaciju teksta temeljene na nadziranom strojnom učenju te postojeće postupke za otkrivanje teksta neprimjerenog sadržaja. Razraditi model za otkrivanje poruka uvredljivog sadržaja u mrežnom razgovoru više korisnika temeljen na strojnom učenju. Isprobati nekoliko modela strojnog učenja i osmisliti nekoliko značajki za prikaz teksta. Razviti programsku implementaciju modela te provesti iscrpno vrednovanje na odgovarajućem ručno označenom skupu podataka, uključivo analizu značajki, usporedbu s referentnim modelima i statističku obradu rezultata. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2016-FilipHrenic.pdf