Theses

Student

Maja Buljan

Title HR

Identifikacija višerječnih izraza zasnovana na kombinaciji jezičnih značajki

Title EN

Multiword Identification Based on the Combination of Linguistic Features

Year

2016

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

1322

Number of pages

Language

Abstract HR

Višerječni izrazi čine značajan udio vokabulara prirodnoga jezika, no zbog specifičnosti i nepredvidivosti obilježja, iziskuju posebnu pažnju pri razvoju sustava za automatsku identifikaciju izraza u sklopu računalne obrade prirodnog jezika. U sklopu ovoga rada, razvijen je i predstavljen sustav za identifikaciju višerječnih izraza u hrvatskome jeziku koji iz korpusa tekstova ekstrahira i klasificira potencijalne višerječne izraze kombinacijom statističkih mjera i lingvističkih značajki specifičnih za višerječne izraze. Opisan je izračun vrijednosti značajki, struktura Bayesove mreže za klasifikaciju i rezultati vrednovanja u ovisnosti o određivanju zavisnosti među značajkama.

Abstract EN

Multiword expressions constitute a significant portion of any natural language vocabulary, but due to their characteristic idiosyncrasy, MWEs call for particular dedication in the development of applications for automatic identification, within the scope of automated natural language processing. In this thesis, we develop and present a multiword expression identification system that extracts and classifies potential MWEs from a corpus of Croatian text documents through a combination of statistical measures and linguistic features specific to MWEs. We describe the computation of feature values and the structure of the Bayesian network used in classification, and present evaluation results relative to different dependency relations between features.

Keywords HR

obrada prirodnog jezika, višerječni izrazi, Bayesova mreža, hrvatski jezik

Keywords EN

natural language processing, multiword expressions, Bayesian networks

Defense date

4.7.2016.

Thesis task HR

Višerječni izrazi, uključivo frazemi, stručno nazivlje, leksičke kolokacije i ustaljene fraze, od posebne su važnosti u prirodnome jeziku zbog razmjerno nepredvidivih sintaktičkih, semantičkih i statističkih obilježja. U području računalne lingvistike, velika je pažnja posvećena automatskoj identifikaciji višerječnih izraza iz korpusa na temelju statističkih postupaka. Predložen je niz modela temeljenih na statističkim obilježjima višerječnih fraza, kao i modela koji razmatraju sintaktička i semantička obilježja, poput sintaktičke rigidnosti, semantičke netransparentnosti, leksičke okamenjenosti i sl. U okviru diplomskoga rada potrebno je proučiti pristupe identifikaciji višerječnih izraza i pristupe vrednovanju tih postupaka. Posebnu razmotriti pristupe temeljene na metodama strojnog učenja kao i pristupa koji razmatraju više jezičnih značajki, uključivo generativan model Tsvetkove i Wintnera (2014). Razviti programsku implementaciju modela za ekstrakciju višerječnih izraza i primijeniti ga na korpus tekstova na hrvatskome jeziku. Izraditi prikladan ispitni skup podataka te provesti iscrpno vrednovanje modela, uključivo analizu interakcije jezičnih značajki, analizu pogrešaka te usporedbu s referentnim modelima i slobodno dostupnim rješenjima. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2016-MajaBuljan.pdf