Theses

Hermina Petric Maretić
Analiza tekstova projektnih prijedloga primjenom postupaka statističke obrade prirodnoga jezika
Project Proposals Analysis using Statistical Natural Language Processing
2015
Graduate
Jan Šnajder
Mladen Vuković
PMF-MO
34
HR
U ovom je radu napravljena analiza projektnih prijedloga metodama obrade prirodnog jezika. Projektni prijedlozi preuzeti su s dvije najpoznatije platforme za grupno financiranje - Kickstarter i Indiegogo, a postupak prikupljanja podataka ukratko je opisan u radu. Nakon toga, objašnjen je proces pretvorbe tekstova dohvaćenih direktno s internetskih platformi u oblik pogodan za analizu - tzv. predprocesiranje. Analiza napravljena u ovom radu sastoji od dvije smislene cjeline. U prvoj je cjelini napravljena klasifikacija projektnih prijedloga na odgovarajuće kategorije. Dana je motivacija za taj problem i opisana metoda potpornih vektora, koja se u ovakvim problemima pokazuje vrlo uspješnom. Nakon toga je detaljno opisan proces izbora najboljih značajki za klasifikaciju, kao i izbora najboljih parametara za metodu. Naposlijetku je klasifikator, istreniran na velikom broju projekata s Kickstartera, podijelio projekte s Indiegogoa u odgovarajuće kategorije. To će omogućiti daljnju analizu i usporedbi dviju platformi. U drugoj je cjelini napravljeno modeliranje tema projektnih prijedloga s obje platforme. Opisan je proces izbora broja tema te je tada model s 35 tema prilagoden podacima, a te su teme prikazane popisom njihovih najfrekventnijih riječi. Na poslijetku su usporedbom tema po kategorijama povezane dvije smislene cjeline koje se protežu kroz rad i dana je usporedba dviju najpoznatijih platformi. Za potrebe rada u prvom su poglavlju objašnjene metode korištene za analizu. Takoder, dan je i kratak opis grupnog financiranja, kao i pregled dosadašnjih rezultata.
This thesis describes an analysis of crowdfunding projects with Natural language processing methods. Projects were downloaded from the two biggest crowdfunding platforms - Kickstarter and Indiegogo and the downloading process has been described in the thesis in short. After that, the preprocessing that transforms raw text into an analysis friendly form was described. The analysis consists of two parts. The first part is project classification into categories. After the motivation and theoretical background of the SVM method, we have described feature extraction methods and parameters tuning. The classification was then used to classify Indiegogo projects into categories from Kickstarter. This will make further analysis and platforms comparison possible. The second part describes topic modelling on both platforms together. After choosing the number of topics, a model was fitted and the topics were represented by their most frequent words. FInally, the comparison of topics throughout categories connected both parts of the thesis. For the purposes of this thesis, the first section provides methods used for analysis. Additionally, a short description of crowdfunding, as well as an overview of current scientific results.
13.7.2015