
Theses
Theses
Ivan Sekulić
Automatska ekstrakcija semantičkih glagolskih relacija iz korpusa na hrvatskome jeziku
Extraction of Semantic Verb Relations from Croatian Corpora
2015
Undergraduate
Jan Šnajder
FER
FER2
4275
43
HR
Leksičkosemantički jezični resursi nezaobilazni su za semantičku obradu prirodnog jezika i mnoge zadatke u ekstrakciji informacija. Budući da glagoli u tekstu često korespondiraju s predikatnom strukturom teksta, odnosno semantikom događaja, često je potrebno modelirati semantiku glagola odnosno događaja kojima oni odgovaraju. U sklopu završnog rada napravljen je model za ekstrakciju semantičkih glagolskih relacija (sličnost, antonimija, intenzitet i prethođenje) iz korpusa na hrvatskome jeziku. Ručno je označen skup tekstnih podataka te je provedeno eksperimentalno vrednovanje modela.
Lexico-semantic language resources are a must for semantic processing of natural language, and many tasks in information extraction. As the verbs in the text often correspond with the predicate structure of the text, or the semantics of events, it is often necessary to model the semantics of the verb or event which they correspond with. This bachelor’s thesis proposes a statistical approach for extracting verb relations (similarity, antonymy, intensity and happens-before) from Croatian web corpus.
obrada prirodnog jezika, semantičke glagolske relacije, hrvatski jezik
natural language processing, verb sematics, Croatian language
7.7.2015.
Leksičkosemantički jezični resursi nezaobilazni su za semantičku obradu prirodnog jezika i mnoge zadatke u ekstrakciji informacija. Budući da glagoli u tekstu često korespondiraju s predikatnom strukturom teksta, odnosno semantikom događaja, često je potrebno modelirati semantiku glagola odnosno događaja kojima oni odgovaraju. Za takvo je modeliranje vrlo korisna baza semantičkih glagolskih relacija (npr. sličnost, antonimija, omogućavanje), međutim ručna izrada takvog resursa zadovoljavajućeg obima vrlo je zahtjevan posao. Kako bi se zaobišao taj problem, u literaturi je predloženo nekoliko pristupa za statističku ekstrakciju glagolskih relacija iz korpusa.
U okviru završnoga rada potrebno je proučiti postupke za ekstrakciju semantičkih relacija iz korpusa, s naglaskom na postupke za ekstrakciju glagolskih semantičkih relacija te postupke temeljene na sintaktičkim uzorcima. Razraditi model za ekstrakciju glagolskih semantičkih relacija iz korpusa na hrvatskome jeziku, po uzoru na resurs VerbOcean opisan u radu Chklovskog i Pantela (2004). Izgraditi i ručno označiti odgovarajući skup tekstnih podataka na hrvatskome jeziku za razvoj i ispitivanje modela. Razviti programsku implementaciju modela te ga primijeniti na hrvatski web-korpus. Razmotriti prilagodbu i primjenu modela na podatke dobivene internetskom tražilicom. Provesti iscrpno eksperimentalno vrednovanje modela u smislu preciznosti i broja ekstrahiranih relacija, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.