Theses

Luka Krajcar
Analiza sentimenta u tvitovima na hrvatskom jeziku
Sentiment Analysis of Tweets in Croatian Language
2014
Graduate
Jan Šnajder
FER
FER2
777
52
HR
U posljednjih nekoliko godina primjetan je nagli porast korisnički generiranog sadržaja unutar društvenih mreža. Jedna od takvih mreža osobito pogodna za strojnu analizu sentimenta je Twitter, mikro-blogging servis unutar kojega korisnici odašilju kratke poruke -tvitove. Cilj strojne analize sentimenta je automatski odrediti mišljenje, stav ili emociju izraženu u tekstu klasifikacijom u jednu od tri klase: pozitivnu, negativnu ili neutralnu. Zbog nemogućnosti ručnog označavanja velikog broja poruka koristi se model blago nadziranog strojnog učenja. U radu je ispitan utjecaj raznih metoda predobrade podataka te rad nekoliko klasifikacijskih modela poput naivnog Bayesovog klasifikatora, stroja potpornih vektora i logističke regresije. Prikazana je i obrazložena usporedba modela nadziranog i blago nadziranog strojnog učenja. Prikaz agregiranog sentimenta i statistike omogućen je kroz korisničku aplikaciju.
In recent years there has been a sharp rise in user-generated content within social networks. One of these networks particularly suitable for machine analysis of sentiment is Twitter, a micro-blogging service within which users broadcast short messages - tweets. The goal of machine sentiment analysis is to automatically determine the opinion, attitude or emotion expressed in text by classification into one of three categories: positive, negative or neutral. Due to the inability of manual labeling of a large number of messages a model of distant supervised machine learning. This paper investigates the impact of different methods of preprocessing data and effectiveness of several classification models such as naive Bayes classifier, support vector machines and logistic regression. Comparison of supervised and distant supervised machine learning is presented and explained in detail. Representation of aggregate sentiment and statistics is provided via a user application.
Twitter, obrada prirodnog jezika, analiza sentimenta, strojno učenje, hrvatski jezik
Twitter, natural language processing, sentiment analysis, machine learning, Croatian language
8.7.2014.
Porastom količine korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom sentimenta. Osobito pogodan izvor podataka u tu svrhu sačinjavaju tzv. tvitovi (engl. tweets), kratke poruke koje u stvarnome vremenu odašilju korisnici društvene mreže Twitter, a koje su dostupne javno i u velikim količinama. Analiza sentimenta u korisnički generiranome sadržaju općenito je izazovna zbog šuma u podatcima. Dodatna poteškoću kod analize sentimenta u tvitovima proizlazi iz kratkoće tekstova te nemogućnosti ručnog označavanja tako velikog broja poruka koje se protežu kroz različite teme. Problem se može ublažiti primjenom modela lagano nadziranog strojnog učenja, kod kojega se kao oznake sa šumom (engl. noisy labels) iskorištavaju elementi tvita koji upućuju na emocije korisnika, poput emotikona i metaoznaka. U okviru diplomskoga rada potrebno je proučiti modele za analizu sentimenta u korisnički generiranome sadržaju s naglaskom na analizu sentimenta u porukama društvenih mreža. Razraditi model za analizu sentimenta u tvitovima na hrvatskome jeziku temeljen na modelu lagano nadziranog učenja odnosno oznakama sa šumom. Izraditi odgovarajući ispitni skup s ručno označenim sentimentom. Razviti programsku implementaciju modela te ispitati rad nekoliko klasifikacijskih modela, uključivo stroja potpornih vektora, naivnog Bayesovog klasifikatora i modela maksimalne entropije. Ispitati utjecaj različitih načina predobrade teksta, odabira značajki i uporabe rječnika apriornog sentimenta. Ispitati točnost modela na jezicima srodnima hrvatskome. Razraditi i implementirati sustav koje će omogućiti grupiranje tvitova prema korisnički zadanome upitu te prikaz agregiranog sentimenta. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.