Theses

Ante Kegalj
Strojna analiza sentimenta temeljena na apriornoj polarnosti riječi
Sentiment Analysis Based on Prior Word Polarity
2012
Graduate
Jan Šnajder
FER
FER2
456
69
HR
Porastom komunikacije putem Interneta povećao se interes za strojnom analizom mišljenja izraženog u korisnički generiranom tekstu. Jedan od pristupa analizi mišljenja jest analiza sentimenta, kojom se utvrđuje je li tekst pozitivno, negativno ili neutralno orijentiran. Analiza ukupnog sentimenta dokumenta može se temeljiti na analizi apriorne polarnosti pojedinačnih riječi. U okviru rada proučeni su postojeći postupci za određivanje sentimenta dokumenta te postupci za određivanje kontekstne polarnosti dijelova teksta temeljem apriorne polarnosti riječi. Razrađen je postupak za određivanje polarnosti dokumenta i dijelova dokumenta na engleskome jeziku temeljem apriorne polarnosti riječi. Postupak se temelji na metodama nadziranog strojnog učenja i na javno dostupnim leksikonima apriorne polarnosti riječi, SentiWordNet i MPQA. Napravljena je programska izvedba postupka te je provedeno vrednovanje na zadacima određivanja osnovne polarnosti (klasifikacija) i određivanja stupnja polarnosti (regresija). Ispitano je nekoliko različitih metoda strojnog učenja te je provedena detaljna analiza parametara, značajki i pogrešaka.
From the intensified activity in online communication arose the interest for an automated opinion analysis from a user generated text. One of the approaches in opinion analysis is sentiment analysis, which aims to determine wether a presented text is sentimentally positive, negative or neutral. Analysis of a document’s sentiment can be based on a priori polarity of individual words. In the thesis we discuss the existing approaches for determining a document’s sentiment and the approaches for determining context polarity for text segments based on a priori word polarity. We also devised the approach for determining the polarity of a document and document’s segments written in English. This approach is based on a priori word polarity extracted from the public dictionaries containing word polarities, SentiWordNet and MPQA. It uses supervised machine learning techniques. The software implementation of this approach is also presented along with extensive evaluation which includes classification of text segments based on their sentiment polarity and determining the level of polarity using regression analysis. Several machine learning methods have been tested and a detailed analysis of methods’ parameters, features and errors has been conducted.
obrada prirodnog jezika, ekstrakcija informacija, analiza sentimenta, analiza mišljenja, semantička orijentacija, nenadzirano strojno učenje
natural language processing, information extraction, sentiment analysis, opinion mining, semantic orientation, unsupervised machine learning
27.9.2012.
Porastom komunikacije putem Interneta povećao se interes za strojnom analizom mišljenja izraženog u korisnički generiranom tekstu. Jedan od pristupa analizi mišljenja jest analiza sentimenta, kojom se utvrđuje je li tekst pozitivno, negativno ili neutralno orijentiran. Analiza ukupnog sentimenta dokumenta može se temeljiti na analizi apriorne polarnosti pojedinačnih riječi. U okviru diplomskog rada potrebno je proučiti postojeće postupke za određivanje sentimenta dokumenta te postupke za određivanje kontekstne polarnosti dijelova teksta temeljem apriorne polarnosti riječi. Razraditi postupak za određivanje polarnosti dokumenata i dijelova dokumenata na engleskome jeziku temeljem apriorne polarnosti riječi. Postupak se treba temeljiti na metodama nadziranoga strojnog učenja i na javno dostupnim leksikonima apriorne polarnosti rijeci, SentiWordNet i MPQA. Problem višeznačnosti treba pokušati riješiti razrješavanjem pomoću leksičke baze WordNet. Načiniti programsku izvedbu postupka i na odgovarajučem tekstnom uzorku provesti eksperimentalno vrednovanje na zadatcima određivanje osnovne polarnosti (klasifikacija) i određivanja stupnja polarnosti (regresija). Potrebno je ispitati nekoliko različitih metoda strojnog učenja te provesti detaljnu analizu parametara, značajki i pogrešaka. Razmotriti prilagodbu pristupa za primijenu na tekstovima na hrvatskom jeziku, uzevši u obzir ograničenost jezičnotehnoloških alata za hrvatski jezik. Radu priložiti izvorni programski kod, programsku dokumentaciju i označene skupove podataka.