
Theses
Theses
Paula Gombar
Kontekstno ovisna analiza sentimenta izraza hrvatskoga jezika
Contextual Sentiment Analysis of Croatian Expressions
2015
Undergraduate
Jan Šnajder
Domagoj Alagić
FER
FER2
4274
51
HR
Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. U radu su proučeni postupci za analizu sentimenta s naglaskom na postupak temeljen na strojnom učenju. Razrađen je model za kontekstno ovisnu analizu sentimenta izraza hrvatskoga jezika temeljen na modelu nadziranog strojnog učenja, po uzoru na rad Wilsona i dr. (2005). Izgrađen je i ručno označen odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje modela. Provedeno je iscrpno eksperimentalno vrednovanje modela, statistička obrada rezultata i analiza pogrešaka.
Given the increase in the amount of available user-generated content, there has been rising interest in sentiment analysis based on machine learning, which determines whether the text attitude is positive, negative or neutral. This paper examines methods for sentiment analysis with a special focus on methods based on machine learning. A model for contextual sentiment analysis of Croatian expressions has been devised, based on the supervised machine learning model described in the work of Wilson et al. (2005). An appropriate dataset consisting of texts in Croatian was manually built and annotated. It was used for model development and testing. An exhaustive experimental evaluation of the model was conducted, along with statistical result and error analysis.
obrada prirodnog jezika, analiza sentimenta, strojno učenje, stroj potpornih vektora, hrvatski jezik, računalna lingvistika
natural language processing, sentiment analysis, machine learning, support vector machines, Croatian language, computational linguistics
13.7.2015.
Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. Uobičajeni postupci analize sentimenta temelje se na leksikonima apriornog sentimenta, koji svakoj riječi pridružuju oznaku sentimenta. Međutim, sentiment pojedinačnog izraza u rečeničnome kontekstu općenito ne mora odgovarati apriornom sentimentu riječi od kojih je taj izraz sastavljen. Preciznije modeliranje sentimenta riječi i fraza u kontekstu, odnosno semantička kompozicija sentimenta, važan je zadatak u obradi prirodnoga jezika i preduvjet za preciznu analizu sentimenta.
U okviru završnoga rada potrebno je proučiti postupke za analizu sentimenta s naglaskom na postupke temeljene na semantičkoj kompoziciji sentimenta i postupke temeljene na strojnom učenju. Razraditi model za kontekstno-ovisnu analizu sentimenta izraza hrvatskoga jezika temeljen na modelu nadziranog strojnog učenja, po uzoru na rad Wilsona i dr. (2005). Model treba koristiti niz značajki ekstrahiranih iz teksta, uključivo sintaktičke značajke. Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje modela. Razviti programsku implementaciju modela te ga primijeniti na podatke na hrvatskome jeziku. Provesti iscrpno eksperimentalno vrednovanje modela, uključivo usporedbu s referentim modelom, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.