
Theses
Theses
Tomislav Lombarović
Prepoznavanje i klasifikacija imenovanih entiteta u tekstovima na hrvatskome jeziku
Named Entity Recognition and Classification for Text in Croatian Language
2012
Graduate
Jan Šnajder
FER
FER2
457
61
HR
Označavanje i klasifikacija imenovanih entiteta (NERC) bitno je za napredne metode pretraživanja i ekstrakcije informacija, kao i za druge primjene u obradi prirodnog jezika. U ovom radu proučene su različite metode za prepoznavanje i klasifikaciju imenovanih entiteta. Razvijena su tri NERC sustava temeljena na različitim metodama strojnog učenja: MaxEnt, SVM i HMM. Za učenje klasifikatora MaxEnt i SVM korišteno je polunadzirano učenje, a kao izvor značajki korišteni su i popisi pojmova. Za prepoznavanje nekih grupa entiteta koriste se regularni izrazi. Sustav je učen i vrednovan na skupu podataka koji je također pripremljen kao dio ovog rada. Dobiveni rezultati su ohrabrujući, a sustav postiže mikro-prosječni F1 od preko 0.85 prema MUC-ovom načinu vrednovanja.
Named entity recognition and classification (NERC) is very important for advanced information retrieval techniques, information extraction as well as for other applications in natural language processing. In this work we have studied different methods for named entity recognition and classification. We have developed three NERC systems based on different machine learning methods: MaxEnt, SVM and HMM. To train SVM and MaxEnt based systems we use semi-supervised learning, and gazetteer are used as a feature source. For some entity groups regular expression are used. System is trained and evaluated on a set of documents which is also prepared as part of this work. Evaluation results are encouraging; developed NERC system achieves micro-average F1 over 0.85 (MUC evaluation).
ekstrakcija informacija, imenovani entiteti, klasifikacija, SVM, MaxEnt, HMM, polunadzirano učenje, samoučenje, hrvatski jezik
information extraction, named entities, NERC, classification, SVM, MaxEnt, HMM, semi-supervised learning, self-learning, Croatian language
29.6.2012.
Prepoznavanje i klasifikacija imenovanih entiteta jedan je od glavnih zadataka ekstrakcije informacija. Postupci temeljeni na pravilima iziskuju ručno oblikovanje većeg broja pravila, dok postupci temeljeni na strojnome učenju iziskuju ručno označavanje velikog skupa dokumenata. Hibridni postupci, koji kombiniraju pravila i metode strojnog učenja, u načelu postižu najbolje rezultate. Problem ručnog označavanja može se ublažiti primjenom polunadziranih metoda strojnog učenja.
U okviru diplomskog rada potrebno je proučiti postupke za prepoznavanje i klasifikaciju imenovanih entiteta. Posebno proučiti metode polunadziranog strojnog učenja i njihovu primjenu u zadatcima obrade prirodnog jezika. Razraditi i implementirati hibridni postupak za prepoznavanje i klasifikaciju imenovanih entiteta u tekstovima na hrvatskome jeziku. Postupak treba kombinirati metode temeljene na popisima i ručno oblikovanim pravilima s polunadziranim strojnim učenjem temeljenima na klasifikatoru maksimalne entropije (MaxEnt), stroju s potpornim vektorima (SVM) i skrivenim Markovljevim modelom (HMM). Provesti označavanje odgovarajućeg skupa za učenje prema normi MUC-7 i odabrati najprikladnije značajke uzevši u obzir ograničenost jezičnotehnoloških alata za hrvatski jezik. Provesti eksperimentalno vrednovanje točnosti ekstrakcije uporabom različitih metoda strojnog učenja, analizu značajki, analizu pogrešaka, analizu različitih načina hibridizacije i analizu utjecaja veličine početnog skupa za učenje. Radu priložiti izvorni programski kod, programsku dokumentaciju i označene skupove podataka.