Theses
Theses
Krešimir Baksa
Plitko semantičko parsanje tekstova na hrvatskome jeziku
Shallow Semantic Parsing of Croatian Texts
2015
Graduate
Jan Šnajder
Goran Glavaš
FER
FER2
1151
61
HR
U ovom radu definiran je skup semantičkih okvira za manji broj glagola koji su bili najzastupljeniji u dostupnom hrvatskom korpusu. Na temelju tih okvira označen je relativno malen skup rečenica iz korpusa te je izvršeno vrednovanje modela temeljenih na nadziranom strojnom učenju na zadatku plitkog semantičkog parsanja. Pokazano da na tako malom skupu primjera automatski modeli temeljeni na strojnom učenju postižu dobre rezultate F1 = 58.54. Na reduciranom skupu semantičkih uloga, modeli temeljeni na strojnom učenju nadmašuju rezultate osnovnog modela te u tom slučaju najbolju F1-mjeru postiže stroj potpornih vektora (F1 = 69.20)
In this thesis a set of semantic frames for smaller number of most common verbs in available Croatian corpus was defined. Based on those semantic frames relatively small set of sentences was labeled with semantic roles and, based on those sentences, the evaluation of supervised machine learning models was performed on a task of shallow semantic parsing. It is shown that even on relatively small training set models based on supervised machine learning can perform well and achive good results with F1 = 58.54. On a reduced set of sematic roles, machine learning models outperform baseline model and in that case the best F1 score is achived with Support Vector Machine (F1 = 69.20).
obrada prirodnog jezika, hrvatski jezik, plitko semantičko parsanje, nadzirano strojno učenje, logistička regresija, stroj potpornih vektora
natural laguage processing, Croatian language, shallow semantic parsing, supervised machine learning, logistic regression, support vector machine
13.7.2015
Plitko semantičko parsanje (engl. shallow semantic parsing) ili označavanje semantičkih uloga jest postupak prepoznavanja i klasifikacije dijelova rečenica prema njezinoj predikatnoj strukturi. Semantičko parsanje središnji je zadatak u semantičkoj obradi prirodnog jezika i njegovo je rješavanje nezabilazno za razvoj sustava za razumijevanje jezika. Međutim, zbog višeznačnosti prirodnog jezika, ono je ujedno i vrlo težak zadatak. Razvijeni modeli uglavnom se oslanjaju na postupke nadziranog strojnog učenja koji iziskuju nemale količine ručno označenih podataka.
U okviru diplomskoga rada potrebno je proučiti formalizam semantičkih uloga PropBank prema Palmer i dr. (2005) te odgovarajuće pristupe za semantičko parsanje, s naglaskom na pristupe temeljene na nadziranom strojnom učenju i slijednom označavanju. Razraditi nadzirani model za semantičko parsanje u tekstovima na hrvatskome jeziku temeljen na formalizmu PropBank, uz možebitna pojednostavljenja. Razraditi postupak za poluatomatsko semantičko parsanje temeljeno na sintaktički označenom hrvatskom web-korpusu uz primjenu odgovarajućih heuristika, te dodatno ručno označiti ispitni skup podataka. Razviti programsku implementaciju postupaka te provesti iscrpno vrednovanje na ispitnome skupu, uključivo analizu značajki i usporedbu s referentnim modelima. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.