Theses

Student

Luka Krajcar

Title HR

Analiza sentimenta u tvitovima na hrvatskom jeziku

Title EN

Sentiment Analysis of Tweets in Croatian Language

Year

2014

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

777

Number of pages

Language

Abstract HR

U posljednjih nekoliko godina primjetan je nagli porast korisnički generiranog sadržaja unutar društvenih mreža. Jedna od takvih mreža osobito pogodna za strojnu analizu sentimenta je Twitter, mikro-blogging servis unutar kojega korisnici odašilju kratke poruke -tvitove. Cilj strojne analize sentimenta je automatski odrediti mišljenje, stav ili emociju izraženu u tekstu klasifikacijom u jednu od tri klase: pozitivnu, negativnu ili neutralnu. Zbog nemogućnosti ručnog označavanja velikog broja poruka koristi se model blago nadziranog strojnog učenja. U radu je ispitan utjecaj raznih metoda predobrade podataka te rad nekoliko klasifikacijskih modela poput naivnog Bayesovog klasifikatora, stroja potpornih vektora i logističke regresije. Prikazana je i obrazložena usporedba modela nadziranog i blago nadziranog strojnog učenja. Prikaz agregiranog sentimenta i statistike omogućen je kroz korisničku aplikaciju.

Abstract EN

In recent years there has been a sharp rise in user-generated content within social networks. One of these networks particularly suitable for machine analysis of sentiment is Twitter, a micro-blogging service within which users broadcast short messages - tweets. The goal of machine sentiment analysis is to automatically determine the opinion, attitude or emotion expressed in text by classification into one of three categories: positive, negative or neutral. Due to the inability of manual labeling of a large number of messages a model of distant supervised machine learning. This paper investigates the impact of different methods of preprocessing data and effectiveness of several classification models such as naive Bayes classifier, support vector machines and logistic regression. Comparison of supervised and distant supervised machine learning is presented and explained in detail. Representation of aggregate sentiment and statistics is provided via a user application.

Keywords HR

Twitter, obrada prirodnog jezika, analiza sentimenta, strojno učenje, hrvatski jezik

Keywords EN

Twitter, natural language processing, sentiment analysis, machine learning, Croatian language

Defense date

8.7.2014.

Thesis task HR

Porastom količine korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom sentimenta. Osobito pogodan izvor podataka u tu svrhu sačinjavaju tzv. tvitovi (engl. tweets), kratke poruke koje u stvarnome vremenu odašilju korisnici društvene mreže Twitter, a koje su dostupne javno i u velikim količinama. Analiza sentimenta u korisnički generiranome sadržaju općenito je izazovna zbog šuma u podatcima. Dodatna poteškoću kod analize sentimenta u tvitovima proizlazi iz kratkoće tekstova te nemogućnosti ručnog označavanja tako velikog broja poruka koje se protežu kroz različite teme. Problem se može ublažiti primjenom modela lagano nadziranog strojnog učenja, kod kojega se kao oznake sa šumom (engl. noisy labels) iskorištavaju elementi tvita koji upućuju na emocije korisnika, poput emotikona i metaoznaka. U okviru diplomskoga rada potrebno je proučiti modele za analizu sentimenta u korisnički generiranome sadržaju s naglaskom na analizu sentimenta u porukama društvenih mreža. Razraditi model za analizu sentimenta u tvitovima na hrvatskome jeziku temeljen na modelu lagano nadziranog učenja odnosno oznakama sa šumom. Izraditi odgovarajući ispitni skup s ručno označenim sentimentom. Razviti programsku implementaciju modela te ispitati rad nekoliko klasifikacijskih modela, uključivo stroja potpornih vektora, naivnog Bayesovog klasifikatora i modela maksimalne entropije. Ispitati utjecaj različitih načina predobrade teksta, odabira značajki i uporabe rječnika apriornog sentimenta. Ispitati točnost modela na jezicima srodnima hrvatskome. Razraditi i implementirati sustav koje će omogućiti grupiranje tvitova prema korisnički zadanome upitu te prikaz agregiranog sentimenta. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2014-LukaKrajcar.pdf