
Theses
Theses
Lukrecija Puljić
Profiliranje autora na društvenim mrežama pomoću strojnog učenja
Author Profiling on Social Networks Using Machine Learning
2017
Undergraduate
Jan Šnajder
FER
FER2
5327
35
HR
Porastom broja korisnika društvenih mreža raste i zanimanje za sadržaj koji generiraju korisnici društvenih mreža. U analiziranje korisnički generiranog sadržaja ubraja se i profiliranje autora teksta, odnosno odre ̄divanje demografskh karakteristika, kao što je spol i dob, autora teksta. Ovaj rad bavio se određivanjem spola autora i znanstvenog područja kojem pripada fakultet koji pohađa autor metodama strojnog učenja. Rad se sastoji od cijelog procesa prikupljanja podataka s Facebooka i foruma i preobrade podataka. Potom slijedi razvoj modela određivanja spola i znanstvenog područja kojem pripada fakultet koji pohađa autor teksta. Provedeno je i eksperimentalno vrednovanje modela i statistička analiza dobivenih podataka.
As social networks gain more and more users, interest for the content they’re creating is growing also. Analysis of user generated content includes profiling text’s authors, and determining demographic characteristics, such as gender and age of the authors. The focus of this thesis was determining author’s gender and the scientific area of the author’s faculty, using machine learning methods. It consists of the complete process of gathering data off of Facebook and forums and transforming this data. Then there’s the development of the model used to determine the gender of the text’s author and scientific area of the author’s faculty. Experimental model evaluation and statistical analysis of the results was also done.
obrada prirodnog jezika, profiliranje autora, društvene mreže, hrvatski jezik, strojno učenje
natural language processing, author profiling, social network, Croatian language, machine learning
5.7.2017.
Profiliranje autora odnosi se na skup računalnih modela i postupaka za utvrđivanje karakteristika autora teksta, poput dobi, spola ili crta ličnosti, na temelju stilometrijskih obilježja teksta. Profiliranje autora svoju primjenu nalazi u računalnoj forenzici, istraživanju tržišta i društva, marketingu, znanosti o književnosti i obrazovanju. U novije vrijeme posebna je pažnja usmjerena na profiliranje autora na društvenim mrežama primjenom metoda statističkoga strojnog učenja.
U okviru završnoga rada potrebno je proučiti postupke za profiliranje autora temeljene na nadziranom i nenadziranom strojnom učenju. Osmisliti računalni postupak za utvrđivanje dobi i spola odnosno za utvrđivanje područja studiranja autora za tekstove na hrvatskome jeziku na temelju statističkih stilometrijskih obilježja teksta. Izgraditi prikladne skupove podataka s društvenih mreža označene dobi i spolom autora odnosno područjem studiranja autora te provesti statističku analizu stilometrijskih značajki. Implementirati postupak za nadziranu klasifikaciju dobi i spola te postupak za grupiranje i vizualizaciju području studiranja autora. Provesti vrednovanje modela, usporedbu s referentnim modelom, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.