
Theses
Theses
Filip Hrenić
Otkrivanje poruka neprimjerenog sadržaja u mrežnom razgovoru
Detection of Inappropriate Messages in Online Chats
2016
Undergraduate
Jan Šnajder
FER
FER2
4753
30
HR
U današnje vrijeme sve je više ljudi koji komuniciraju putem interneta. Anonimnost korisnika nerijetko dovodi do nepoželjnog ponašanja tijekom razgovora. Da bi se to spriječilo, koriste se razne metode kojima bi se detektirale neprimjerene poruke. Da bi se ubrzao proces označavanja korišteno je aktivno učenje. Implementirana je metoda logističke klasifikacije te se može jednostavno uključiti u postojeći sustav. Dobiveni klasifikator postiže preciznost od 82.583% nad testnim podacima.
More and more people nowadays use internet for communication. User anonymity often leads to undesirable behaviour during conversations. In order to put a stop to it, various methods are used to detect such messages. Active learning has been used to speed up data marking. Implementation of logistic regression achieved precision of 82.583% on test data and can easily be incorporated with existing systems.
strojno učenje, obrada prirodnog jezika, logistička regresija, aktivno učenje, nadzirano učenje, klasifikacija, mrežni razgovor
machine learning, natural language processing, logistic regression, active learning, semi supervised learning, classification, online chat
5.7.2016.
Razvoj interneta doprinio je bržoj i učinkovitijoj komunikaciji, ali je, zbog anonimnosti koju nudi korisnicima, također povećao broj nepoželjnih aktivnosti. Objavljivanje poruka neprimjerenog sadržaja, uključivo uvredljivog i neželjenog sadržaja, najčešći je oblik nepoželjne aktivnosti, koji je moguće spriječiti postupcima za automatsko otkrivanje takvih poruka, posebice postupcima temeljenima na strojnome učenju.
U okviru završnoga rada potrebno je proučiti postupke za klasifikaciju teksta temeljene na nadziranom strojnom učenju te postojeće postupke za otkrivanje teksta neprimjerenog sadržaja. Razraditi model za otkrivanje poruka uvredljivog sadržaja u mrežnom razgovoru više korisnika temeljen na strojnom učenju. Isprobati nekoliko modela strojnog učenja i osmisliti nekoliko značajki za prikaz teksta. Razviti programsku implementaciju modela te provesti iscrpno vrednovanje na odgovarajućem ručno označenom skupu podataka, uključivo analizu značajki, usporedbu s referentnim modelima i statističku obradu rezultata. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.