Theses

Student

Ante Kegalj

Title HR

Strojna analiza sentimenta temeljena na apriornoj polarnosti riječi

Title EN

Sentiment Analysis Based on Prior Word Polarity

Year

2012

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

456

Number of pages

Language

Abstract HR

Porastom komunikacije putem Interneta povećao se interes za strojnom analizom mišljenja izraženog u korisnički generiranom tekstu. Jedan od pristupa analizi mišljenja jest analiza sentimenta, kojom se utvrđuje je li tekst pozitivno, negativno ili neutralno orijentiran. Analiza ukupnog sentimenta dokumenta može se temeljiti na analizi apriorne polarnosti pojedinačnih riječi. U okviru rada proučeni su postojeći postupci za određivanje sentimenta dokumenta te postupci za određivanje kontekstne polarnosti dijelova teksta temeljem apriorne polarnosti riječi. Razrađen je postupak za određivanje polarnosti dokumenta i dijelova dokumenta na engleskome jeziku temeljem apriorne polarnosti riječi. Postupak se temelji na metodama nadziranog strojnog učenja i na javno dostupnim leksikonima apriorne polarnosti riječi, SentiWordNet i MPQA. Napravljena je programska izvedba postupka te je provedeno vrednovanje na zadacima određivanja osnovne polarnosti (klasifikacija) i određivanja stupnja polarnosti (regresija). Ispitano je nekoliko različitih metoda strojnog učenja te je provedena detaljna analiza parametara, značajki i pogrešaka.

Abstract EN

From the intensified activity in online communication arose the interest for an automated opinion analysis from a user generated text. One of the approaches in opinion analysis is sentiment analysis, which aims to determine wether a presented text is sentimentally positive, negative or neutral. Analysis of a document’s sentiment can be based on a priori polarity of individual words. In the thesis we discuss the existing approaches for determining a document’s sentiment and the approaches for determining context polarity for text segments based on a priori word polarity. We also devised the approach for determining the polarity of a document and document’s segments written in English. This approach is based on a priori word polarity extracted from the public dictionaries containing word polarities, SentiWordNet and MPQA. It uses supervised machine learning techniques. The software implementation of this approach is also presented along with extensive evaluation which includes classification of text segments based on their sentiment polarity and determining the level of polarity using regression analysis. Several machine learning methods have been tested and a detailed analysis of methods’ parameters, features and errors has been conducted.

Keywords HR

obrada prirodnog jezika, ekstrakcija informacija, analiza sentimenta, analiza mišljenja, semantička orijentacija, nenadzirano strojno učenje

Keywords EN

natural language processing, information extraction, sentiment analysis, opinion mining, semantic orientation, unsupervised machine learning

Defense date

27.9.2012.

Thesis task HR

Porastom komunikacije putem Interneta povećao se interes za strojnom analizom mišljenja izraženog u korisnički generiranom tekstu. Jedan od pristupa analizi mišljenja jest analiza sentimenta, kojom se utvrđuje je li tekst pozitivno, negativno ili neutralno orijentiran. Analiza ukupnog sentimenta dokumenta može se temeljiti na analizi apriorne polarnosti pojedinačnih riječi. U okviru diplomskog rada potrebno je proučiti postojeće postupke za određivanje sentimenta dokumenta te postupke za određivanje kontekstne polarnosti dijelova teksta temeljem apriorne polarnosti riječi. Razraditi postupak za određivanje polarnosti dokumenata i dijelova dokumenata na engleskome jeziku temeljem apriorne polarnosti riječi. Postupak se treba temeljiti na metodama nadziranoga strojnog učenja i na javno dostupnim leksikonima apriorne polarnosti rijeci, SentiWordNet i MPQA. Problem višeznačnosti treba pokušati riješiti razrješavanjem pomoću leksičke baze WordNet. Načiniti programsku izvedbu postupka i na odgovarajučem tekstnom uzorku provesti eksperimentalno vrednovanje na zadatcima određivanje osnovne polarnosti (klasifikacija) i određivanja stupnja polarnosti (regresija). Potrebno je ispitati nekoliko različitih metoda strojnog učenja te provesti detaljnu analizu parametara, značajki i pogrešaka. Razmotriti prilagodbu pristupa za primijenu na tekstovima na hrvatskom jeziku, uzevši u obzir ograničenost jezičnotehnoloških alata za hrvatski jezik. Radu priložiti izvorni programski kod, programsku dokumentaciju i označene skupove podataka.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2012-AnteKegalj.pdf