Theses

Student

Dino Radaković

Title HR

Združeni model za ekstrakciju relacija između imenovanih entiteta

Title EN

A Joint Model for Named Entity Relation Extraction

Year

2016

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

1321

Number of pages

Language

Abstract HR

Pojavljivanja imenovanih entiteta (npr., ljudi, organizacija i lokacija) u tekstu često tvore odnose ili relacije, kao što su to prijateljstva, poznanstva, utjecaj, suradnja i mnoge druge. Ekstrakcija relacija među imenovanim entitetima važan je zadatak, posebice s obzirom na trenutno dostupne količine teksta pisanog prirodnim jezikom. Najčešće izvedbe temelje se na algoritmima nadziranog učenja, koji zasebno klasificiraju svaki od parova imenovanih entiteta s ciljem zaključivanja relacije među njima. Takvi pristupi ne uzimaju u obzir strukturiranu prirodu relacija u obliku međurelacijskih odnosa i ograničenja prilikom učenja modela, što ponekad djelomično nadoknađuju upotpunjavanjem predikcija globalnom optimizacijom. Aktualna istraživanja u području strukturne predikcije temeljene na pretraživanju pružaju nove mogućnosti za rješavanje problema ekstrakcije relacija. Ovaj rad usmjeren je na jedan algoritam strukturne predikcije temeljene na pretraživanju, SEARN, prilagođen za zadatak ekstrakcije relacija među imenovanim entitetima. Uvodi se novi skup podataka za ekstrakciju relacija na hrvatskom jeziku. Opisuje se model temeljen na pravilima, model temeljen na strojevima potpornih vektora te model temeljen na SEARN-u. Kvaliteta spomenutih modela ocijenjena je na uvedenom skupu podataka, korištenjem F1 mjere.

Abstract EN

Occurrences of named entities (i.e., people, organizations, locations, etc.) often appear within text in form of relations, such as acquaintance, influence, collaboration, and various others. Named entity relation extraction is a task of great importance, especially considering the sheer scale of presently availabe text written in natural language. Typical implementations are based on supervised learning algorithms, classifying each pair of named entities individually, in order to determine the relation between the two. However, such approaches do not take into account the structural nature of relations in the form of intra-relational influences and constraints at training time, sometimes compensating for the resulting drawbacks by post-processing outputs via global loss optimization. Recent research in search-based structured prediction opens new venues for attempting to solve relation extraction. This thesis focuses of a search-based structured prediction algorithm, SEARN, adapted to the task of named entity relation extraction in Croatian language. We introduce a novel dataset for relation extraction in Croatian. We then proceed by describing and implementing a rule-based predictor, a configuration of support vector machines, and a SEARN-based model for named entity relation extraction. The models are then compared on the produced dataset, their performance being evaluated in terms of F1 scores and related metrics.

Keywords HR

združeno učenje, SEARN, ekstrakcija relacija, imenovani entitet, hrvatski, obrada prirodnog jezika

Keywords EN

joint learning, SEARN, relation extraction, named entity, Croatian, natural language processing

Defense date

4.7.2016.

Thesis task HR

Imenovani entiteti (osobe, organizacije, lokacije i sl.) u tekstu se pojavljuju u različitim međusobnim relacijama (npr. poznanstvo, smještenost i sl.). Ekstrakcija relacija između imenovanih entiteta važan je problem semantičke analize teksta. Zadatak se tipično rješava metodama strojnog učenja, i to klasifikacijom na razini para entiteta, a na temelju značajki teksta koje upućuju na semantičku relaciju. Međutim, takva lokalna obrada ne uzima u obzir odnose i ograničenja koja vrijede između više parova entiteta. Modeli koji takva ograničenja uzimaju u obzir temelje se na združenom zaključivanju i naknadnom ispravljanju oznaka lokalnih modela, ili na združenom učenju. U okviru diplomskoga rada potrebno je proučiti postojeće pristupe ekstrakciji relacija te istražiti značajke korištene za taj zadatak. Proučiti modele združenog zaključivanja, s naglaskom na postupak cjelobrojnog linearnog programiranja, te modele združenog učenja, s naglaskom na SEARN (Daumé III i dr., 2006.). Razraditi model za ekstrakciju relacija u tekstovima na hrvatskome jeziku i razviti odgovarajuću programsku implementaciju. Provesti označavanje prikladnog skupa podataka za učenje i vrednovanje modela. Provesti iscrpno eksperimentalno vrednovanje modela na ispitnim skupovima podataka te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.

Thesis task EN

Named entities (persons, organizations, locations, etc.) occur in text in various relations (e.g., acquaintance, location). Relation extraction is an important problem in semantic text analysis. The problem is typically addressed using machine learning, more specifically as a classification task at the level of entity pairs, using textual features that indicate a semantic relation. However, such local inference does not account for relationships and constraints that span across multiple entity pairs. Models that do account for this rely on either joint inference or joint learning. The task of this thesis is to study the existing approaches to relation extraction and the various features apt for this problem. Provide an overview of the joint inference models, with a focus on those based on integer linear programming, as well as the joint learning models, with a focus on SEARN (Daumé III et al., 2006). Devise and implement a model for relation extraction in Croatian texts. Annotate a suitable dataset for training and evaluating the model. Perform a thorough evaluation of the model on the test datasets, as well as a detailed error analysis. All references must be cited, and all source code, documentation, executables, and datasets must be provided with the thesis.

Publicly available

Published paper(s)

File

TakeLab-DR-2016-DinoRadakovic.pdf