Theses

Lana Lisjak
Prepoznavanje logičke posljedice u tekstovima na hrvatskome jeziku
Recognizing Textual Entailment in Croatian Texts
2015
Graduate
Jan Šnajder
FER
FER2
1153
40
HR
Logička posljedica u tekstovima jest relacija koja vrijedi između dva fragmenata teksta ako istinitost prvog fragmenta implicira istinitost drugog. U ovom radu prikazali smo sustav prepoznavanje logičke posljedice u tekstovima na hrvatskome jeziku, baziran na strojnom učenju koristeći binarni klasifikator. Glavna tematika je prikupljanje i odabir značajki. Prikazan je evaluacija i usporedba ovog sustava sa postojećim sustavima.
Textual entailment (TE) in natural language processing is a directional relation between text fragments. The relation holds whenever the truth of one text fragment follows from another text. In this thesis, we presented system for recognizing textual entailment in Croatian texts based on machine learning using binary classificator. The main subject is feature extraction and selection. Evaluation of the system and comparison to other systems is shown.
logička posljedica, obrada prirodnog jezika, strojno učenje, SVM, hrvatski WordNet
textual entextual entailment, natural language processing, machine learning, SVM, Croatian WordNet
14.7.2015.
Logička posljedica u tekstu (engl. textual entailment) jest relacija koja vrijedi između dva fragmenta teksta ako istinitost prvog fragmenta implicira istinitost drugog. Mnogi se zadatci u obradi prirodnog jezika mogu operacionalizirati kao prepoznavanje logičke posljedice u tekstu, kao što su prepoznavanje parafraze, pretraživanje informacija ili odgovaranje na pitanja. No, zbog leksičke, sintaktičke i semantičke varijacije u jeziku, automatsko prepoznavanje logičke posljedice u tekstu izazovan je zadatak. U okviru diplomskoga rada potrebno je proučiti postupke za prepoznavanje logičke posljedice u tekstu, s naglaskom na postupke temeljene na strojnom učenju. Razraditi model za prepoznavanje logičke posljedice u tekstovima na hrvatskome jeziku temeljen na nadziranome strojnom učenju. Osnovna inačica modela neka koristi usporedbu tekstnih fragmenata temeljenu na sličnosti znakovnih nizova, po uzoru na rad (Malakasiotis i Androutsopoulos, 2007). Izgraditi odgovarajući skup podataka na hrvatskome jeziku po uzoru na engleski skup RTE3. Razviti programsku implementaciju modela te provesti iscrpno vrednovanje na odgovarajućem skupu podataka, uključivo analizu značajki i usporedbu sa referentnim modelima. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.