Theses

Student

Matej Paradžik

Title HR

Postupak za polunadziranu akviziciju leksikona sentimenta

Title EN

Semi-Supervised Acquisition of Sentiment Polarity Lexicon

Year

2014

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

3796

Number of pages

Language

Abstract HR

U ovom radu opisani su postupci automatske izgradnje sentimenta iz literature te je na temelju njih opisan i implementiran postupak akvizicije leksikona sentimenta na temelju tekstne zbirke. Postupak se temelji na polunadziranom učenju nad grafom i radi nad tekstnom zbirkom te je zbog toga primjenjiv na jezike za koje ne postoje izgrađeni jezični resursi poput rječnika. Za određivanje sličnosti između riječi koriste se tri mjere: supojavljivanje, uzajamna zajednička informacija i latentna semantička analiza. Za učenje se koriste dva algoritma: propagacija labela i PageRank. Vrednovanjem je utvrđeno da postupak nije dovoljno dobar da bi se njime izgradio dobar leksikon sentimenta.

Abstract EN

Firstly, we describe related methods of automatic sentiment lexicon acquisition. Based on these methods, we implement and evaluate corpus-based sentiment lexicon acquisition approach. The approach is based on semisupervised graph-based algorithms, which makes this approach suitable for languages lacking prebuilt lexical resources. For similarity measures we use raw co-occurrence, pointwise mutual information and latent semantic analysis. PageRank and label propagation are the two used algorithms for semisupervised graph-based learning. The approach is shown to have not so good results, so it would be inadvisable to use it for acquisition of good sentiment lexicon.

Keywords HR

analiza sentimenta, polunadzirano učenje, leksikon sentimenta

Keywords EN

sentiment analysis, semisupervised learning, sentiment lexicon

Defense date

4.7.2014.

Thesis task HR

Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom mišljenja izraženog u tekstu. Jedan od pristupa analizi mišljenja jest analiza sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. Uobičajeni postupci analize sentimenta temelje se na leksikonu apriornog sentimenta. Ručna izgradnja leksikona sentimenta odgovarajućeg opsega izuzetno je naporna i skupa. Stoga je u literaturi predložen niz postupaka za automatsku akviziciju sentimenta iz korpusa temeljenih na polunadziranome strojnom učenju. U okviru završnoga rada potrebno je proučiti postupke za automatsku akviziciju sentimenta s naglaskom na polunadziranim metodama. Razraditi postupak za akviziciju sentimenta riječi hrvatskoga jezika koji će se oslanjati na informacije o odnosima između riječi dobivenima statističkom obradom korpusa, uključivo informacijama o njihovim sintaktičkim i semantičkim odnosima. Implementirati postupak u programskome jeziku po izboru, oslanjajući se na dostupne jezičnotehnološke alate za hrvatski jezik. Provesti iscrpno eksperimentalno vrednovanje na odgovarajućim ručno označenim skupovima podataka te detaljnu analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2014-MatejParadzik.pdf