Theses

Student

Ivan Sekulić

Title HR

Automatska ekstrakcija semantičkih glagolskih relacija iz korpusa na hrvatskome jeziku

Title EN

Extraction of Semantic Verb Relations from Croatian Corpora

Year

2015

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

4275

Number of pages

Language

Abstract HR

Abstract EN

Lexico-semantic language resources are a must for semantic processing of natural language, and many tasks in information extraction. As the verbs in the text often correspond with the predicate structure of the text, or the semantics of events, it is often necessary to model the semantics of the verb or event which they correspond with. This bachelor’s thesis proposes a statistical approach for extracting verb relations (similarity, antonymy, intensity and happens-before) from Croatian web corpus.

Keywords HR

obrada prirodnog jezika, semantičke glagolske relacije, hrvatski jezik

Keywords EN

natural language processing, verb sematics, Croatian language

Defense date

7.7.2015.

Thesis task HR

Leksičkosemantički jezični resursi nezaobilazni su za semantičku obradu prirodnog jezika i mnoge zadatke u ekstrakciji informacija. Budući da glagoli u tekstu često korespondiraju s predikatnom strukturom teksta, odnosno semantikom događaja, često je potrebno modelirati semantiku glagola odnosno događaja kojima oni odgovaraju. Za takvo je modeliranje vrlo korisna baza semantičkih glagolskih relacija (npr. sličnost, antonimija, omogućavanje), međutim ručna izrada takvog resursa zadovoljavajućeg obima vrlo je zahtjevan posao. Kako bi se zaobišao taj problem, u literaturi je predloženo nekoliko pristupa za statističku ekstrakciju glagolskih relacija iz korpusa. U okviru završnoga rada potrebno je proučiti postupke za ekstrakciju semantičkih relacija iz korpusa, s naglaskom na postupke za ekstrakciju glagolskih semantičkih relacija te postupke temeljene na sintaktičkim uzorcima. Razraditi model za ekstrakciju glagolskih semantičkih relacija iz korpusa na hrvatskome jeziku, po uzoru na resurs VerbOcean opisan u radu Chklovskog i Pantela (2004). Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje modela. Razviti programsku implementaciju modela te ga primijeniti na hrvatski web-korpus. Razmotriti prilagodbu i primjenu modela na podatke dobivene internetskom tražilicom. Provesti iscrpno eksperimentalno vrednovanje modela u smislu preciznosti i broja ekstrahiranih relacija, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2015-IvanSekulic.pdf