Theses

Mihael Nikić
Primjena modela distribucijske semantike u igri asocijacija riječi
Application of Machine Learning for Topic-Based Sentiment Analysis
2016
Undergraduate
Jan Šnajder
FER
FER2
4693
37
HR
Računalna leksička semantika bavi se prikazom značenja riječi te ima važnu ulogu u sustavima za obradu i razumijevanje prirodnog jezika. Distribucijski semantički modeli značenje riječi prikazuju visokodimenzijskim kontekstnim vektorima, ekstrahiranima na temelju supojavljivanja riječi u korpusu. Takvi su se modeli pokazali vrlo korisnima na nizu zadataka obrade prirodnog jezika. U okviru ovog rada izgrađen je model koji generira igru asocijacija riječi. Izgradnja modela je ostvarena uz pomoć obrade prirodnog jezika i uz pomoć tehnike točkaste procjene uzajamne informacije. Izgradnja je ostvarena uz korištenje postojećih korpusa. Nad izgrađenim modelom provedeno je eksperimentalno vrednovanje postupaka.
Computer lexical semantics deals with the representation of word meanings and has an important role in systems for processing and understanding of the natural language. Distributional semantic models represent word meanings with high-dimensional contextual vectors, which are extracted based on the co-occurrence of words in the corpus. Such models proved very useful with a series of natural language processing tasks. In this thesis, we have constructed a model that generates a word association games. Model construction was accomplished with the use of existing corpus. The constructed models underwent an experimental process evaluation.
točkasta procjena uzajamne informacije, latentna semantička analiza, hrvatski WordNet, obrada prirodnog jezika, asocijacija riječi
pointwise mutual information, latent semantic analysis, Croatian WordNet, natural language processing, word association
6.7.2016.
Računalna leksička semantika bavi se prikazom značenja riječi te ima važnu ulogu u sustavima za obradu i razumijevanje prirodnoga jezika. Distribucijski semantički modeli značenje riječi prikazuju visokodimenzijskim kontekstnim vektorima, ekstrahiranima na temelju supojavljivanja riječi u korpusu. Takvi su se modeli pokazali vrlo korisnima na nizu zadataka obrade prirodnoga jezika. Tema završnoga rada jest primjena modela distribucijske semantike u igri asocijacija riječi. U toj je igri potrebno pogoditi zadani ciljni pojam na temelju njegove asocijativne povezanosti s drugim ciljnim pojmovima, i to u što manje koraka. U okviru završnoga rada potrebno je proučiti modele distribucijske semantike, kao i statističke pristupe za modeliranje leksičke povezanosti između riječi. Izgraditi nekoliko modela distribucijske semantike za hrvatski jezik, koristeći postojeće korpuse. Razraditi i implementirati postupak za generiranje igre asocijacije riječi, kao i njemu odgovarajući postupak za rješavanje igre. Izgraditi prikladan ispitni skup podataka te provesti eksperimentalno vrednovanje postupka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.