Theses

Student

Petra Almić

Title HR

Model za određivanje semantičke kompozicionalnosti višerječnih izraza hrvatskoga jezika

Title EN

A Model for Determining Semantic Compositionality of Croatian Multi-Word Expressions

Year

2014

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

771

Number of pages

Language

Abstract HR

Automatsko određivanje semantičke kompozicionalnosti višerječnih izraza važno je za niz primjena obrade prirodnog jezika poput strojnog prevođenja i pretraživanja informacija. U ovom radu rješavanju tog problema pristupa se upotrebom distribucijskih semantičkih modela i modela distribucijske semantičke kompozicije. Izgrađena je zbirka od dvjesto hrvatskih višerječnih izraza s ručnim ocjenama semantičke kompozicionalnosti na kojima su modeli vrednovani. Od distribucijskih semantičkih modela odabran je model latentne semantičke analize, a od modela distribucijske semantičke kompozicije evaluirani su multiplikativni i aditivni modeli. Aditivni modeli s korelacijom od 0,45 nadmašuju multiplikativni model koji postiže korelaciju od −0,19. Rezultati su obećavajući, statistički značajni i u rangu rezultata relevantnih radova.

Abstract EN

Automatic identification of semantic compositionality of multi-word expression is very important for many tasks in natural language processing e.g. machine translation and information retrieval. In this thesis that issue is addressed using distributional semantic models and distributional models of semantic composition. Dataset consisting of 200 multi-word expressions was annotated with semantic compositionality scores and it was used to evaluate the model. Distributional semantic model was built using Latent Semantic Analysis (LSA). Several models of semantic composition were evaluated. Results show that additive models outperform multiplicative model. Results are promising, statistically significant and comparable to the relevant related work.

Keywords HR

višerječni izrazi, distribucijska semantika, distribucijski semantički modeli, modeli distribucijske semantičke kompozicionalnosti, latentna semantička analiza, semantička kompozicionalnost (prozirnost)

Keywords EN

multi-word expressions, distributional semantics, distributional semantic models, compositional distributional semantics, latent semantic analysis, semantic compositionality (transparency)

Defense date

7.7.2014.

Thesis task HR

Višerječni izrazi, poput frazema, strukovnog nazivlja i leksičkih kolokacija, iziskuju posebnu pažnju u obradi prirodnog jezika zbog njihovih sintaktičkih i semantičkih osobitosti. Posebno su zanimljive višerječni izrazi koji su semantički neprozirni odnosno nekompozicionalni i koje zbog toga nije moguće modelirati raščlambom na sastavne riječi, poput izraza "morski pas", "žuta minuta" ili "ležeći policajac". Automatsko određivanje semantičke kompozicionalnosti višerječnih izraza važno je za mnoge primjene obrade prirodnog jezika, poput strojnog prevođenja i pretraživanja informacija. U okviru diplomskoga rada potrebno je proučiti postupke za ekstrakciju višerječnih izraza iz korpusa i određivanje njihove semantičke kompozicionalnosti, s naglaskom na postupke temeljene na modelima distribucijske semantičke kompozicije. Razraditi model za određivanje semantičke kompozicionalnosti višerječnih izraza hrvatskoga jezika odabrane sintaktičke strukture, po uzoru na radove (Katz i Giesbrecht, 2006) i (Biemann i Giesbrecht, 2011). Izgraditi reprezentativnu ispitnu zbirku višerječnih izraza hrvatskoga jezika ručno označenu ocjenama semantičke kompozicionalnosti. Razviti programsku implementaciju postupka određivanja semantičke kompozicionalnosti višerječnih izraza te provesti detaljno eksperimentalno vrednovanje i analizu pogrešaka na ispitnome uzorku. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2014-PetraAlmic.pdf