
Theses
Theses
Stipan Mikulić
Primjena strojnog učenja za tematsku analizu sentimenta
Use of Distributional Semantic Models in the Word Association Game
2016
Undergraduate
Jan Šnajder
FER
FER2
4755
36
HR
Uslijed ogromnog povećanja korisnički generiranog sadržaja na društvenih mrežama, detekcija tema i analiza sentimenta nameću se kao nezaobilazni alati za analizu javnog mijenja. U radu su proučeni postupci za detekciju tema u tekstnih dokumenata te analizu sentimenta prema detektiranim temama. Naglasak je stavljen na postupke temeljene na modelima strojnog učenja. Detekcijom tema nastoje se prepoznati teme o kojima se priča na društvenim mrežama te analizom sentimenta se određuje da li je stav o tim temama pozitivan, negativan ili neutralan. Rad se sastoji od cijelog procesa prikupljanja i preprocesiranja podataka. Nakon toga slijedi izgradnja modela detekcije tema i analize sentimenta te evaluacija modela. Dodatno, za analizu sentimenta je bilo potrebno označiti podatke za treniranje modela.
Due to the huge increase in user-generated content on social networks, topic detection and sentiment analysis imposed as indispensable tools for the analysis of public opinion. The thesis examines the procedures for the topic detection in text documents and an sentiment analysis towards the detected topics. Special focus is placed on a procedures based on machine learning. Topic detection attempts to identify the topics on which the story on social networks and sentiment analysis to determine whether the position on these issues is positive, negative or neutral. The work consists of the en- tire process of collecting and preprocessing data. This is followed by the construction of topic detection and sentiment analysis models and evaluation of those models. In addition, sentiment analysis required data annotation for training the model.
obrada prirodnog jezika, analiza sentimenta, strojno učenje, detekcija teme, latentna Dirichletova dodjela, stroj potpornih vektora, računalna lingvistika
natural language processing, sentiment analysis, machine learning, topic detection, latent Dirichlet allocation support vector machines, Croatian language, computational linguistics
6.7.2016.
Korisnički komentari na internetu vrijedan su izvor informacija za analizu stavova i mišljenja ljudi o događajima i njihovim protagonistima, političkim odlukama i političkim subjektima, ideološkim pitanjima itd. Porastom raspoloživih količina korisnički generiranog sadržaja povećalo se zanimanje za strojnom analizom sentimenta, kojom se utvrđuje je li tekst usmjeren pozitivno, negativno ili neutralno. Tehnike tematske analiza sentimenta kombiniraju otkrivanje tema i analizu sentimenta, kako bi se odredio sentiment usmjeren prema određenoj temi.
U okviru završnoga rada potrebno je proučiti postupke za analizu sentimenta i postupke za otkrivanje tema, s naglaskom na postupke temeljene na strojnom učenju. Razraditi model za tematsku analizu sentimenta u korisničkim komentarima na hrvatskome jeziku temeljen na strojnom učenju. Model primijeniti na podatcima prikupljenima sa stranica političkih stranaka i vlade na društvenoj mreži Facebook. Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje modela. Provesti eksperimentalno vrednovanje modela, uključivo usporedbu s referentnim modelom i statističku obradu rezultata. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.