Theses

Siniša Biđin
Primjena modela dubokog učenja na analizu sentimenta izraza hrvatskoga jezika
Using Deep Learning for Sentiment Analysis of Croatian Expressions
2014
Graduate
Jan Šnajder
Goran Glavaš
FER
FER2
774
57
HR
Uobičajeni postupci analize sentimenta temelje se na rječniku apriornog sentimenta. Problem predstavlja modeliranje sentimenta višerječnih izraza poput “poprilično dobar” ili “nimalo loš”, ali i većih jezičnih jedinica. Opisan je i implementiran postupak učenja reprezentacija riječi prema metodi Colloberta i dr. (2011) te postupak analize sentimenta višerječnih izraza hrvatskoga jezika modelom zasnovanom na rekurzivnoj neuronskoj mreži prema radu Sochera i dr. (2012). Navedeni su rezultati učenja reprezentacija riječi na temelju dva različita korpusa i rezultati evaluacije modela za analizu sentimenta nad tri različita skupa za učenje.
Methods of sentiment analysis are usually based upon a sentiment-labeled lexicon. Problems arise when trying to model the sentiment of multi-word phrases such as “pretty good” or “not bad”, but also of entire sentences. A wordrepresentation training method based on Collobert et al. (2011) is defined and implemented, as is a method for sentiment analysis of multi-word phrases written in Croatian using a model based on recursive neural networks according to Socher et al. (2012). We state the results of word-representation training on two different corpora and the results of evaluating the sentiment analysis model on three different training sets.
obrada prirodnog jezika, duboko učenje, učenje reprezentacija riječi, analiza sentimenta, hrvatski jezik
natural language processing, deep learning, word representation pretraining, sentiment analysis, Croatian language
7.7.2014.
Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom mišljenja izraženog u tekstu. Jedan od pristupa analizi mišljenja jest analiza sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. Uobičajeni postupci analize sentimenta temelje se na rječniku apriornog sentimenta. Problem, međutim, predstavlja modeliranje kompozicionalnosti, odnosno sentimenta višerječnih izraza poput "poprilično dobar", "nimalo loš" ili "nevjerojatno tužno", ali i većih jezičnih jedinica, poput rečenica ili odlomaka. Najnovija istraživanja, provedena na engleskome jeziku, pokazuju da je kompozicionalnost sentimenta moguće vrlo uspješno modelirati metodama dubokog učenja, koje koriste duboke, višeslojne ili hijerarhijske strukture s ciljem modeliranja složenih odnosa između podataka. U okviru diplomskoga rada potrebno je proučiti postupke dubokog učenja s naglaskom na novije modele korištene u obradi prirodnog jezika te postupke za modeliranje sentimenta riječi i višerječnih izraza. Razraditi postupak analize sentimenta višerječnih izraza hrvatskoga jezika pomoću modela semantičke kompozicije zasnovanog na rekurzivnoj neuronskoj mreži prema radu Sochera i dr. (2012). Razviti programsku implementaciju postupka, možebitno se oslanjajući na javno dostupne biblioteke za duboko učenje. Izgraditi i ručno označiti odgovarajući skup podataka za učenje i ispitivanje. Provesti eksperimentalno vrednovanje postupka, usporedbu s odgovarajućim referentnim metodama, uključivo onima temeljenima na apriornim leksikonima, te detaljnu analizu pogrešaka. Razmotriti primjenu modela na predikciju sentimenta rečenica i većih dijelova teksta. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.