Theses

Maja Buljan
Identifikacija višerječnih izraza zasnovana na kombinaciji jezičnih značajki
Multiword Identification Based on the Combination of Linguistic Features
2016
Graduate
Jan Šnajder
FER
FER2
1322
58
HR
Višerječni izrazi čine značajan udio vokabulara prirodnoga jezika, no zbog specifičnosti i nepredvidivosti obilježja, iziskuju posebnu pažnju pri razvoju sustava za automatsku identifikaciju izraza u sklopu računalne obrade prirodnog jezika. U sklopu ovoga rada, razvijen je i predstavljen sustav za identifikaciju višerječnih izraza u hrvatskome jeziku koji iz korpusa tekstova ekstrahira i klasificira potencijalne višerječne izraze kombinacijom statističkih mjera i lingvističkih značajki specifičnih za višerječne izraze. Opisan je izračun vrijednosti značajki, struktura Bayesove mreže za klasifikaciju i rezultati vrednovanja u ovisnosti o određivanju zavisnosti među značajkama.
Multiword expressions constitute a significant portion of any natural language vocabulary, but due to their characteristic idiosyncrasy, MWEs call for particular dedication in the development of applications for automatic identification, within the scope of automated natural language processing. In this thesis, we develop and present a multiword expression identification system that extracts and classifies potential MWEs from a corpus of Croatian text documents through a combination of statistical measures and linguistic features specific to MWEs. We describe the computation of feature values and the structure of the Bayesian network used in classification, and present evaluation results relative to different dependency relations between features.
obrada prirodnog jezika, višerječni izrazi, Bayesova mreža, hrvatski jezik
natural language processing, multiword expressions, Bayesian networks
4.7.2016.
Višerječni izrazi, uključivo frazemi, stručno nazivlje, leksičke kolokacije i ustaljene fraze, od posebne su važnosti u prirodnome jeziku zbog razmjerno nepredvidivih sintaktičkih, semantičkih i statističkih obilježja. U području računalne lingvistike, velika je pažnja posvećena automatskoj identifikaciji višerječnih izraza iz korpusa na temelju statističkih postupaka. Predložen je niz modela temeljenih na statističkim obilježjima višerječnih fraza, kao i modela koji razmatraju sintaktička i semantička obilježja, poput sintaktičke rigidnosti, semantičke netransparentnosti, leksičke okamenjenosti i sl. U okviru diplomskoga rada potrebno je proučiti pristupe identifikaciji višerječnih izraza i pristupe vrednovanju tih postupaka. Posebnu razmotriti pristupe temeljene na metodama strojnog učenja kao i pristupa koji razmatraju više jezičnih značajki, uključivo generativan model Tsvetkove i Wintnera (2014). Razviti programsku implementaciju modela za ekstrakciju višerječnih izraza i primijeniti ga na korpus tekstova na hrvatskome jeziku. Izraditi prikladan ispitni skup podataka te provesti iscrpno vrednovanje modela, uključivo analizu interakcije jezičnih značajki, analizu pogrešaka te usporedbu s referentnim modelima i slobodno dostupnim rješenjima. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.