Theses

Matej Paradžik
Postupak za polunadziranu akviziciju leksikona sentimenta
Semi-Supervised Acquisition of Sentiment Polarity Lexicon
2014
Undergraduate
Jan Šnajder
FER
FER2
3796
33
HR
U ovom radu opisani su postupci automatske izgradnje sentimenta iz literature te je na temelju njih opisan i implementiran postupak akvizicije leksikona sentimenta na temelju tekstne zbirke. Postupak se temelji na polunadziranom učenju nad grafom i radi nad tekstnom zbirkom te je zbog toga primjenjiv na jezike za koje ne postoje izgrađeni jezični resursi poput rječnika. Za određivanje sličnosti između riječi koriste se tri mjere: supojavljivanje, uzajamna zajednička informacija i latentna semantička analiza. Za učenje se koriste dva algoritma: propagacija labela i PageRank. Vrednovanjem je utvrđeno da postupak nije dovoljno dobar da bi se njime izgradio dobar leksikon sentimenta.
Firstly, we describe related methods of automatic sentiment lexicon acquisition. Based on these methods, we implement and evaluate corpus-based sentiment lexicon acquisition approach. The approach is based on semisupervised graph-based algorithms, which makes this approach suitable for languages lacking prebuilt lexical resources. For similarity measures we use raw co-occurrence, pointwise mutual information and latent semantic analysis. PageRank and label propagation are the two used algorithms for semisupervised graph-based learning. The approach is shown to have not so good results, so it would be inadvisable to use it for acquisition of good sentiment lexicon.
analiza sentimenta, polunadzirano učenje, leksikon sentimenta
sentiment analysis, semisupervised learning, sentiment lexicon
4.7.2014.
Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom mišljenja izraženog u tekstu. Jedan od pristupa analizi mišljenja jest analiza sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. Uobičajeni postupci analize sentimenta temelje se na leksikonu apriornog sentimenta. Ručna izgradnja leksikona sentimenta odgovarajućeg opsega izuzetno je naporna i skupa. Stoga je u literaturi predložen niz postupaka za automatsku akviziciju sentimenta iz korpusa temeljenih na polunadziranome strojnom učenju. U okviru završnoga rada potrebno je proučiti postupke za automatsku akviziciju sentimenta s naglaskom na polunadziranim metodama. Razraditi postupak za akviziciju sentimenta riječi hrvatskoga jezika koji će se oslanjati na informacije o odnosima između riječi dobivenima statističkom obradom korpusa, uključivo informacijama o njihovim sintaktičkim i semantičkim odnosima. Implementirati postupak u programskome jeziku po izboru, oslanjajući se na dostupne jezičnotehnološke alate za hrvatski jezik. Provesti iscrpno eksperimentalno vrednovanje na odgovarajućim ručno označenim skupovima podataka te detaljnu analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.