Theses

Student

Lana Lisjak

Title HR

Prepoznavanje logičke posljedice u tekstovima na hrvatskome jeziku

Title EN

Recognizing Textual Entailment in Croatian Texts

Year

2015

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

1153

Number of pages

Language

Abstract HR

Logička posljedica u tekstovima jest relacija koja vrijedi između dva fragmenata teksta ako istinitost prvog fragmenta implicira istinitost drugog. U ovom radu prikazali smo sustav prepoznavanje logičke posljedice u tekstovima na hrvatskome jeziku, baziran na strojnom učenju koristeći binarni klasifikator. Glavna tematika je prikupljanje i odabir značajki. Prikazan je evaluacija i usporedba ovog sustava sa postojećim sustavima.

Abstract EN

Textual entailment (TE) in natural language processing is a directional relation between text fragments. The relation holds whenever the truth of one text fragment follows from another text. In this thesis, we presented system for recognizing textual entailment in Croatian texts based on machine learning using binary classificator. The main subject is feature extraction and selection. Evaluation of the system and comparison to other systems is shown.

Keywords HR

logička posljedica, obrada prirodnog jezika, strojno učenje, SVM, hrvatski WordNet

Keywords EN

textual entextual entailment, natural language processing, machine learning, SVM, Croatian WordNet

Defense date

14.7.2015.

Thesis task HR

Logička posljedica u tekstu (engl. textual entailment) jest relacija koja vrijedi između dva fragmenta teksta ako istinitost prvog fragmenta implicira istinitost drugog. Mnogi se zadatci u obradi prirodnog jezika mogu operacionalizirati kao prepoznavanje logičke posljedice u tekstu, kao što su prepoznavanje parafraze, pretraživanje informacija ili odgovaranje na pitanja. No, zbog leksičke, sintaktičke i semantičke varijacije u jeziku, automatsko prepoznavanje logičke posljedice u tekstu izazovan je zadatak. U okviru diplomskoga rada potrebno je proučiti postupke za prepoznavanje logičke posljedice u tekstu, s naglaskom na postupke temeljene na strojnom učenju. Razraditi model za prepoznavanje logičke posljedice u tekstovima na hrvatskome jeziku temeljen na nadziranome strojnom učenju. Osnovna inačica modela neka koristi usporedbu tekstnih fragmenata temeljenu na sličnosti znakovnih nizova, po uzoru na rad (Malakasiotis i Androutsopoulos, 2007). Izgraditi odgovarajući skup podataka na hrvatskome jeziku po uzoru na engleski skup RTE3. Razviti programsku implementaciju modela te provesti iscrpno vrednovanje na odgovarajućem skupu podataka, uključivo analizu značajki i usporedbu sa referentnim modelima. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2015-LanaLisjak.pdf