Theses

Student

Tomislav Lombarović

Title HR

Prepoznavanje i klasifikacija imenovanih entiteta u tekstovima na hrvatskome jeziku

Title EN

Named Entity Recognition and Classification for Text in Croatian Language

Year

2012

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

457

Number of pages

Language

Abstract HR

Označavanje i klasifikacija imenovanih entiteta (NERC) bitno je za napredne metode pretraživanja i ekstrakcije informacija, kao i za druge primjene u obradi prirodnog jezika. U ovom radu proučene su različite metode za prepoznavanje i klasifikaciju imenovanih entiteta. Razvijena su tri NERC sustava temeljena na različitim metodama strojnog učenja: MaxEnt, SVM i HMM. Za učenje klasifikatora MaxEnt i SVM korišteno je polunadzirano učenje, a kao izvor značajki korišteni su i popisi pojmova. Za prepoznavanje nekih grupa entiteta koriste se regularni izrazi. Sustav je učen i vrednovan na skupu podataka koji je također pripremljen kao dio ovog rada. Dobiveni rezultati su ohrabrujući, a sustav postiže mikro-prosječni F1 od preko 0.85 prema MUC-ovom načinu vrednovanja.

Abstract EN

Named entity recognition and classification (NERC) is very important for advanced information retrieval techniques, information extraction as well as for other applications in natural language processing. In this work we have studied different methods for named entity recognition and classification. We have developed three NERC systems based on different machine learning methods: MaxEnt, SVM and HMM. To train SVM and MaxEnt based systems we use semi-supervised learning, and gazetteer are used as a feature source. For some entity groups regular expression are used. System is trained and evaluated on a set of documents which is also prepared as part of this work. Evaluation results are encouraging; developed NERC system achieves micro-average F1 over 0.85 (MUC evaluation).

Keywords HR

ekstrakcija informacija, imenovani entiteti, klasifikacija, SVM, MaxEnt, HMM, polunadzirano učenje, samoučenje, hrvatski jezik

Keywords EN

information extraction, named entities, NERC, classification, SVM, MaxEnt, HMM, semi-supervised learning, self-learning, Croatian language

Defense date

29.6.2012.

Thesis task HR

Prepoznavanje i klasifikacija imenovanih entiteta jedan je od glavnih zadataka ekstrakcije informacija. Postupci temeljeni na pravilima iziskuju ručno oblikovanje većeg broja pravila, dok postupci temeljeni na strojnome učenju iziskuju ručno označavanje velikog skupa dokumenata. Hibridni postupci, koji kombiniraju pravila i metode strojnog učenja, u načelu postižu najbolje rezultate. Problem ručnog označavanja može se ublažiti primjenom polunadziranih metoda strojnog učenja. U okviru diplomskog rada potrebno je proučiti postupke za prepoznavanje i klasifikaciju imenovanih entiteta. Posebno proučiti metode polunadziranog strojnog učenja i njihovu primjenu u zadatcima obrade prirodnog jezika. Razraditi i implementirati hibridni postupak za prepoznavanje i klasifikaciju imenovanih entiteta u tekstovima na hrvatskome jeziku. Postupak treba kombinirati metode temeljene na popisima i ručno oblikovanim pravilima s polunadziranim strojnim učenjem temeljenima na klasifikatoru maksimalne entropije (MaxEnt), stroju s potpornim vektorima (SVM) i skrivenim Markovljevim modelom (HMM). Provesti označavanje odgovarajućeg skupa za učenje prema normi MUC-7 i odabrati najprikladnije značajke uzevši u obzir ograničenost jezičnotehnoloških alata za hrvatski jezik. Provesti eksperimentalno vrednovanje točnosti ekstrakcije uporabom različitih metoda strojnog učenja, analizu značajki, analizu pogrešaka, analizu različitih načina hibridizacije i analizu utjecaja veličine početnog skupa za učenje. Radu priložiti izvorni programski kod, programsku dokumentaciju i označene skupove podataka.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2012-TomislavLombarovic.pdf