Theses

Mladen Marović
Ekstrakcija događaja i vremenskih relacija u tekstovima na hrvatskome jeziku
Event and Temporal Relation Extraction in Croatian Language Texts
2012
Graduate
Jan Šnajder
Goran Glavaš
FER
FER2
458
69
HR
Danas su dostupne goleme količine pisanoga teksta koje predstavljaju velik izvor znanja. Automatska ekstrakcija informacija iz tekstnih podataka, poput ekstrakcije događaja i vremenskih relacija među događajima omogućava iskorištavanje tog znanja u različitim područjima ljudske djelatnosti. Ekstrakcija događaja i vremenskih relacija netrivijalni su zadatci obrade prirodnog jezika i predmetom su intenzivnog istraživanja. U okviru ovog istraživanja proučeni su postupci za ekstrakciju događaja vremenskih relacija temeljeni na metodama strojnog učenja. Razrađen je postupak za ekstrakciju događaja i vremenskih relacija u tekstovima na hrvatskom jeziku. Provedeno je označavanje odgovarajućeg tekstnog uzorka i odabrane su najprikladnije značajke uzevši u obzir ograničenost jezičnotehnoloških alata za hrvatski jezik. Provedeno je eksperimentalno vrednovanje točnosti ekstrakcije uporabom različitih metoda strojnog učenja, analiza značajki i analiza pogrešaka. Dobiveni rezultati su obećavajući, uz postignutu F1-mjeru od 93% pri označavanju događaja, 77% pri označavanju semantičkih razreda događaja te 64% pri označavanju vremenskih relacija.
There are large amounts of written text available which present a great source of knowledge. Automatic information extraction from textual data, such as event extraction and temporal relation extraction, enables the use of such knowledge in different areas of human activity. Event extraction and temporal relation extraction are nontrivial natural language processing tasks and, as such, are the object of extensive research. In this paper different approaches to event and temporal relation extraction were studied. A method was devised for event and temporal relation extraction in Croatian language texts. An adequate text sample annotation was performed and, given the limited availability of linguistic tools for Croatian, the most appropriate features were selected. Experimental evaluation was conducted which yielded promising results, producing the F-score of up to 93% for event extraction, 77% for event type classification and 64% for temporal relation extraction.
ekstrakcija informacija, obrada prirodnog jezika, događaj, vremenska relacija, klasifikacija, strojno učenje, hrvatski jezik
information extraction, natural language processing, event, temporal relation, classification, machine learning, Croatian language
29.6.2012.
Danas su dostupne goleme količine pisanoga teksta koje predstavljaju velik izvor znanja. Automatska ekstrakcija informacija iz tekstnih podataka, poput ekstrakcije događaja i vremenskih relacija među događajima, omogućava iskorištavanje tog znanja u različitim područjima ljudske djelatnosti. Ekstrakcija događaja i vremenskih relacija netrivijalni su zadatci obrade prirodnog jezika i predmetom su intenzivnog istraživanja. U okviru diplomskog rada potrebno je proučiti postupke za ekstrakciju događaja i vremenskih relacija temeljene na metodama strojnog učenja. Razraditi postupak za ekstrakciju događaja i vremenskih relacija u tekstovima na hrvatskom jeziku. Provesti označavanje odgovarajućeg tekstnog uzorka i odabrati najprikladnije značajke uzevši u obzir ograničenost jezičnotehnoloških alata za hrvatski jezik. Provesti eksperimentalno vrednovanje točnosti ekstrakcije uporabom različitih metoda strojnog učenja, analizu značajki te detaljnu analizu pogrešaka. Razviti programsku implementaciju postupka korištenjem jedne odabrane metode. Radu priložiti izvorni programski kod, programsku dokumentaciju i ispitne uzorke.