
Theses
Theses
Petra Almić
Model za određivanje semantičke kompozicionalnosti višerječnih izraza hrvatskoga jezika
A Model for Determining Semantic Compositionality of Croatian Multi-Word Expressions
2014
Graduate
Jan Šnajder
FER
FER2
771
54
HR
Automatsko određivanje semantičke kompozicionalnosti višerječnih izraza važno je za niz primjena obrade prirodnog jezika poput strojnog prevođenja i pretraživanja informacija. U ovom radu rješavanju tog problema pristupa se upotrebom distribucijskih semantičkih modela i modela distribucijske semantičke kompozicije. Izgrađena je zbirka od dvjesto hrvatskih višerječnih izraza s ručnim ocjenama semantičke kompozicionalnosti na kojima su modeli vrednovani. Od distribucijskih semantičkih modela odabran je model latentne semantičke analize, a od modela distribucijske semantičke kompozicije evaluirani su multiplikativni i aditivni modeli. Aditivni modeli s korelacijom od 0,45 nadmašuju multiplikativni model koji postiže korelaciju od −0,19. Rezultati su obećavajući, statistički značajni i u rangu rezultata relevantnih radova.
Automatic identification of semantic compositionality of multi-word expression is very important for many tasks in natural language processing e.g. machine translation and information retrieval. In this thesis that issue is addressed using distributional semantic models and distributional models of semantic composition. Dataset consisting of 200 multi-word expressions was annotated with semantic compositionality scores and it was used to evaluate the model. Distributional semantic model was built using Latent Semantic Analysis (LSA). Several models of semantic composition were evaluated. Results show that additive models outperform multiplicative model. Results are promising, statistically significant and comparable to the relevant related work.
višerječni izrazi, distribucijska semantika, distribucijski semantički modeli, modeli distribucijske semantičke kompozicionalnosti, latentna semantička analiza, semantička kompozicionalnost (prozirnost)
multi-word expressions, distributional semantics, distributional semantic models, compositional distributional semantics, latent semantic analysis, semantic compositionality (transparency)
7.7.2014.
Višerječni izrazi, poput frazema, strukovnog nazivlja i leksičkih kolokacija, iziskuju posebnu pažnju u obradi prirodnog jezika zbog njihovih sintaktičkih i semantičkih osobitosti. Posebno su zanimljive višerječni izrazi koji su semantički neprozirni odnosno nekompozicionalni i koje zbog toga nije moguće modelirati raščlambom na sastavne riječi, poput izraza "morski pas", "žuta minuta" ili "ležeći policajac". Automatsko određivanje semantičke kompozicionalnosti višerječnih izraza važno je za mnoge primjene obrade prirodnog jezika, poput strojnog prevođenja i pretraživanja informacija.
U okviru diplomskoga rada potrebno je proučiti postupke za ekstrakciju višerječnih izraza iz korpusa i određivanje njihove semantičke kompozicionalnosti, s naglaskom na postupke temeljene na modelima distribucijske semantičke kompozicije. Razraditi model za određivanje semantičke kompozicionalnosti višerječnih izraza hrvatskoga jezika odabrane sintaktičke strukture, po uzoru na radove (Katz i Giesbrecht, 2006) i (Biemann i Giesbrecht, 2011). Izgraditi reprezentativnu ispitnu zbirku višerječnih izraza hrvatskoga jezika ručno označenu ocjenama semantičke kompozicionalnosti. Razviti programsku implementaciju postupka određivanja semantičke kompozicionalnosti višerječnih izraza te provesti detaljno eksperimentalno vrednovanje i analizu pogrešaka na ispitnome uzorku. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.