
Theses
Theses
Zoran Medić
Kompozicijska distribucijska semantika temeljenea na modelu leksičke funkcije
Compositional Distributional Semantics Based on the Lexical Function Model
2016
Graduate
Jan Šnajder
FER
FER2
1324
82
HR
Kompozicijska distribucijska semantika bavi se izgradnjom prikaza značenja višerječnih fraza u vektorskome prostoru. Rad opisuje u literaturi korištene modele kompozicijske distribucijske semantike, s naglaskom na modele temeljene na modelu leksičke funkcije. Posebno je proučen i opisan praktični model leksičke funkcije, zajedno s predloženim prilagodbama modela. Razmotrena su proširenja modela s obzirom na relaciju semantičke inkluzije među distribucijskim vektorima imenica. Izgrađen je praktični model leksičke funkcije za hrvatski jezik te je za potrebe njegovog vrednovanja sastavljen skup izraza za vrednovanje modela. Izgrađeni model primijenjen je i na probleme semantičke kompozitnosti i semantičke devijantnosti duljih fraza. Rezultati vrednovanja modela potvrdili su da je model, iako jednostavan, sposoban uspješno modelirati semantičko značenje višerječnih izraza u usporedbi s drugim često korištenim modelima kompozicijske distribucijske semantike. Provedena vrednovanja modela ukazala su na različite mogućnosti poboljšanja i proširenja modela.
Compositional distributional semantics deals with vector representations of multiword expressions in high-dimensional vector spaces. Thesis describes some of the most commonly used compositional distributional models, focusing on practical lexical function model and its proposed adaptations. In the thesis, additional adaptations are proposed, based on maximizing the inclusion between pairs of vectors of certain nouns. Practical lexical function model is implemented for Croatian language, as well as evaluated on specially created dataset of phrases containing multiple words. Model is also evaluated on the tasks of semantic compositionality and semantic deviance of longer phrases. Evaluation results have shown that model can successfully model semantic meaning of longer phrases and have also led to some interesting ideas for follow-up work.
kompozicijska distribucijska semantika, praktični model leksičke funkcije, obrada prirodnog jezika, inkluzija vektora, semantička devijantnost, hrvatski jezik, strojno učenje
compositional distributional semantics, practical lexical function model, natural language processing, vector inclusion, semantic deviance, Croatian language, machine learning
4.7.2016.
Računalna semantika ima važnu ulogu u sustavima za obradu i razumijevanje prirodnoga jezika. Distribucijski semantički modeli značenje riječi prikazuju kontekstnim vektorima u višedimenzijskom vektorskom prostoru. Kompozicijska distribucijska semantika bavi se izgradnjom prikaza značenja višerječnih fraza u vektorskome prostoru.
U radu je potrebno proučiti i opisati postojeće distribucijske semantičke modele i modele kompozicijske distribucijske semantike te postupke njihove izgradnje i vrednovanja. Proučiti modele temeljene na tenzorskoj algebri, model leksičke funkcije Baronija i Zamparellija (2010) te praktični model leksičke funkcije (PLF) Papernoa i dr (2014). Proučiti proširenja modela predložena u radu Gupta i dr. (2015). Razviti implementaciju modela PLF za hrvatski jezik. Izgraditi odgovarajući ispitni skup podataka za provjeru modela. Razmotriti nadogradnju modela temeljenu na relaciji semantičke inkluzije između fraza. Provesti konačno vrednovanje modela na zadatku semantičke kompozicije duljih fraza te razmotriti i druge mogućnosti vrednovanja modela. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.