Theses
Theses
Antonio Šajatović
Predviđanje vijestodostojnosti novinskih članaka pomoću strojnog učenja
Predicting Newsworthiness of News Stories Using Machine Learning
2017
Undergraduate
Jan Šnajder
Maria Pia di Buono
FER
FER2
5330
27
HR
Računalno predviđanje vijestodostojnosti nov je smjer istraživanja s primjenama u praćenju događaja te sažimanju dokumenata, a potencijalnu primjenu ima u društvenim znanostima. Tema rada jest predviđanje vijestodostojnosti i emocija novinskih članaka na engleskome jeziku temeljeno na strojnom učenju. Razvijena su dva generativna i jedan diskriminativni model za klasifikaciju vijestodostojnosti i emocija na temelju naslova članaka u kategorije vijestodostojnosti koje su predložili Harcup i O’Neill (2011) i šest osnovnih emocija. Na prikupljenoj zbirci naslova novinskih članaka ručno označenih kategorijama vijestodostojnosti je provedeno učenje i vrednovanje modela te usporedbe s referentnim modelom.
The automatic prediction of newsworthiness is a new research direction with applications in event tracking and document summarization, and has potential applications in social sciences. The topic of this thesis is the prediction of newsworthiness of news stories and emotions in English using machine learning. Two generative and one discriminative model were developed for classifying newsworthiness and emotions into newsworthiness categories proposed by Harcup and O’Neill (2011) and six basic emotions, based on the article headline. An experimental evaluation of the models and comparisons against a baseline model were carried out on a compiled collection of articles, manually labeled for newsworthiness.
obrada prirodnog jezika, strojno učenje, vijestodostojnost, emocije, stroj potpornih vektora, Bayesova mreža
natural language processing, machine learning, newsworthiness, emotions, support vector machine, Bayesian network
5.7.2017.
Računalna analiza događaja opisanih u novinskim tekstovima aktivno je područje istraživanja u okviru obrade prirodnog jezika. Pored informacijske vrijednosti, važan aspekt svakog novinskog članka jest njegova vijestodostojnost, odnosno kriteriji koji određuju istaknutost i percipiranu vrijednost novinskog članka kod čitateljstva. Računalno predviđanje vijestodostojnosti nov je smjer istraživanja s primjenama u praćenju događaja te sažimanju dokumenata, a potencijalnu primjenu ima i u društvenim znanostima.
Tema završnoga rada jest predviđanje vijestodostojnosti novinskih članaka na hrvatskome i engleskome jeziku temeljeno na strojnom učenju. Proučiti postupke za klasifikaciju teksta temeljene na strojnom učenju te postojeće pristupe za automatsku analizu vijestodostojnosti novinskih članaka. Razviti model za klasifikaciju vijestodostojnosti na temelju naslova članaka ili punog teksta članka u kategorije vijestodostojnosti koje su predložili Harcup i O'Neill (2011). Izraditi prikladnu zbirku novinskih članaka ručno označenih kategorijama vijestodostojnosti. Razmotriti diskriminativne modele temeljene na reprezentacijama riječi te generativne modele koji modeliraju interakciju između značajki. Provesti vrednovanje modela, usporedbe s referentnim modelom, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.