Theses

Dino Dolović
Model za analizu sentimenta u tvitovima na hrvatskome jeziku
Sentiment Analysis in Tweets in Croatian Language
2015
Graduate
Jan Šnajder
Goran Glavaš
FER
FER2
1152
59
HR
Analiza sentimenta ili mišljenja je zadatak iz područja obrade prirodnog jezika. Cilj analize sentimenta jest analizirati iznesena mišljenja i stavove korisnika u pisanim tekstovima koji se odnose na neke entitete, događaje ili teme. U okviru ovog diplomskog rada proučeni su postupci za analizu sentimenta u mikroblogovima, s naglaskom na metode temeljene na nadziranom strojnom učenju. Provedeno je označavanje određenog skupa podataka, kojeg čine tvitovi na hrvatskome jeziku, a odnose se na domenu dvaju pjevačkih emisija: The Voice te XFactorAdria. Nadalje, razvijen je model za analizu sentimenta u tvitovima temeljen na postupcima nadziranog strojnog učenja. Provedeno je iscrpno vrednovanje na odgovarajućem skupu podataka, uključujući i analizu značajki. Dobiveni rezultati usporedivi su s rezultatima dobivenim na natjecanju SemEval-2013, uz postignutu F-micro od 87%, odnosno F-macro od 71%.
Sentiment analysis or opinion mining is a task in natural language processing. The goal of the sentiment analysis is to explore users’ opinions and their attitudes towards some entities, events or themes. In this research, certain approaches have been studied that consider sentiment analysis in microblogs, focusing on supervised machine learning techniques. A sample of data was annotated, which consisted of tweets in Croatian about two popular music shows: The Voice and XFactorAdria. A system based on the supervised machine learning technique was implemented in order to classify the tweet into one possible sentiment class considering the whole tweet message. The implemented system was then evaluated and yielded results that could be measured with those achieved at SemEval-2013 competition, producing the F micro of 87% and the F macro of 71%.
obrada prirodnog jezika, analiza sentimenta, analiza mišljenja, mikro-blogovi, Twitter, tvit, nadzirano strojno učenje, hrvatski jezik
natural language processing, sentiment analysis, opinion mining, micro-blogs, Twitter, tweet, supervised machine learning, Croatian
z
Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom mišljenja izraženog u tekstu. Posebno je interestanta analiza mišljenja u tzv. mikroblogovima, primjerice porukama tvitera, zbog njihove dinamičnosti i izravnosti. Jedan od pristupa analizi mišljenja jest analiza sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. Analiza sentimenta u mikroblogovima izazovan je problem zbog kratkoće i neformalnosti teksta. U okviru diplomskoga rada potrebno je proučiti postupke za analizu sentimenta u mikroblogovima, s naglaskom na metode temeljene na nadziranom strojnom učenju. Razraditi model za analizu sentimenta u tvitovima na hrvatskome jeziku temeljen na nadziranome strojnom učenju. Model treba omogućiti predikciju sentimenta na razini cijele poruke ili na razini pojmova unutar poruke, po uzoru na modele razvijene za engleski jezik u okviru natjecanja SemEval-2013. Izraditi odgovarajući označeni skup podataka s ručno označenim sentimentom. Razviti programsku implementaciju modela te provesti iscrpno vrednovanje na odgovarajućem skupu podataka, uključivo analizu značajki i usporedbu sa referentnim modelima. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.