
Theses
Theses
Luka Skukan
Primjena kompozicijske distribucijske kompozicijske semantike u zadatku semantičke sličnosti teksta
Application of Compositional Distributional Semantics for Semantic Text Similarity
2017
Graduate
Jan Šnajder
FER
FER2
1351
51
EN
U zadnjih nekoliko godina, moderni pristupi kompozicijskoj distribucijskoj semantici donijelu su revoluciju u mnoga područja bazirana na semantičkoj sličnosti. U ovom je radu dan pregled tog područja. Izabrano je nekoliko modela i iskušani su na zadacima nadziranog i nenadziranog učenja u području semantike, na tekstovima na hrvatskome jeziku. Posebna pažnja dana je sematičkoj sličnosti teksta. Razvijena je i prikazana pokazna web aplikacija.
Modern approaches to compositional distributional semantics have revolutionized many areas based on semantic similarity in recent years. In this thesis, a survey of the field is given. Several of these modern models and approaches are selected and tried on a variety of supervised and unsupervised learning tasks in the field of semantics, on texts in the Croatian language, with attention given to semantic text similarity. A showcase web application is developed and presented.
kompozicijska distribucijska semantika, distribucijska semantika, obrada prirodnog jezika, duboko učenje, modeli mješanja vektora, sematička sličnost, hrvatski jezik
compositional distributional semantics, distributional semantics, natural language processing, deep learning, vector mixture models, semantic similarity, Croatian language
14.2.2017.
Kompozicijska distribucijska semantika odnosi se na predstavljanje značenje skupina riječi i rečenica kombiniranjem distribucijskih svojstava njihovih sastavnih riječi. Upotreba tih reprezentacija kao ulaznih značajki za algoritme strojnog učenja pokazala se korisnom u mnogim zadacima obrade prirodnoga jezika, poput odgovaranja na pitanja, zadataka semantičke povezanosti, otkrivanja parafraza te analize sentimenta.
Tema ovog rada jest primjena kompozicijskih distribucijskih semantičkih modela, s posebnim naglaskom na model skip-thought (Kiros i dr., 2015), na tematski semantičke zadatke u obradi prirodnog jezika. Potrebno je napraviti pregled kompozicijskih distribucijskih semantičkih modela, uključujući model skip-thought. Razviti model za izgradnju reprezentacija tekstova koristeći vektore skip-thought, uključujući mehanizam proširenja rječnika korištenjem preslikavanja iz prostora induciranog modelom skip-gram (Mikolov i dr., 2013) u prostor modela skip-thought. Provesti eksperimentalno vrednovanje uporabe generiranih značajki na zadatcima nadziranog i nenadziranog strojnog učenja na tekstovima na hrvatskome i engleskome jeziku, kao i detaljnu analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.
Compositional distributional semantics models the meaning of multi-word units and sentences by combining the distributional representations of the constituing words. The use of these representations as features for machine learning algorithms has proven to be useful in a number of downstream natural language tasks (NLP), such as question answering, semantic relatedness, paraphrase detection, and sentiment analysis.
The topic of this thesis is the application of compositional distributional semantic models, with a special focus on the skip-though vector model (Kiros et al., 2015), on semantics-related NLP tasks. Provide an overview of compositional distributional semantic models, including the skip-thought model. Develop a model for generating skip-thought representations of texts, including vocabulary expansion using mappings from skip-gram vector space (Mikolov et al., 2013) to the skip-though vector space. Provide a software implementation. Perform experimental evaluation using the generated feature representations for supervised and unsupervised machine learning tasks on texts in English and Croatian, as well as a detailed error analysis. All references must be cited, and all source code, documentation, executables, and datasets must be provided with the thesis.