Theses

Student

Paula Gombar

Title HR

Kontekstno ovisna analiza sentimenta izraza hrvatskoga jezika

Title EN

Contextual Sentiment Analysis of Croatian Expressions

Year

2015

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Domagoj Alagić

Study Programme

FER

Programme

FER2

Thesis ID

4274

Number of pages

Language

Abstract HR

Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. U radu su proučeni postupci za analizu sentimenta s naglaskom na postupak temeljen na strojnom učenju. Razrađen je model za kontekstno ovisnu analizu sentimenta izraza hrvatskoga jezika temeljen na modelu nadziranog strojnog učenja, po uzoru na rad Wilsona i dr. (2005). Izgrađen je i ručno označen odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje modela. Provedeno je iscrpno eksperimentalno vrednovanje modela, statistička obrada rezultata i analiza pogrešaka.

Abstract EN

Given the increase in the amount of available user-generated content, there has been rising interest in sentiment analysis based on machine learning, which determines whether the text attitude is positive, negative or neutral. This paper examines methods for sentiment analysis with a special focus on methods based on machine learning. A model for contextual sentiment analysis of Croatian expressions has been devised, based on the supervised machine learning model described in the work of Wilson et al. (2005). An appropriate dataset consisting of texts in Croatian was manually built and annotated. It was used for model development and testing. An exhaustive experimental evaluation of the model was conducted, along with statistical result and error analysis.

Keywords HR

obrada prirodnog jezika, analiza sentimenta, strojno učenje, stroj potpornih vektora, hrvatski jezik, računalna lingvistika

Keywords EN

natural language processing, sentiment analysis, machine learning, support vector machines, Croatian language, computational linguistics

Defense date

13.7.2015.

Thesis task HR

Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. Uobičajeni postupci analize sentimenta temelje se na leksikonima apriornog sentimenta, koji svakoj riječi pridružuju oznaku sentimenta. Međutim, sentiment pojedinačnog izraza u rečeničnome kontekstu općenito ne mora odgovarati apriornom sentimentu riječi od kojih je taj izraz sastavljen. Preciznije modeliranje sentimenta riječi i fraza u kontekstu, odnosno semantička kompozicija sentimenta, važan je zadatak u obradi prirodnoga jezika i preduvjet za preciznu analizu sentimenta. U okviru završnoga rada potrebno je proučiti postupke za analizu sentimenta s naglaskom na postupke temeljene na semantičkoj kompoziciji sentimenta i postupke temeljene na strojnom učenju. Razraditi model za kontekstno-ovisnu analizu sentimenta izraza hrvatskoga jezika temeljen na modelu nadziranog strojnog učenja, po uzoru na rad Wilsona i dr. (2005). Model treba koristiti niz značajki ekstrahiranih iz teksta, uključivo sintaktičke značajke. Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje modela. Razviti programsku implementaciju modela te ga primijeniti na podatke na hrvatskome jeziku. Provesti iscrpno eksperimentalno vrednovanje modela, uključivo usporedbu s referentim modelom, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2015-PaulaGombar.pdf