
Theses
Theses
Fran Dragomanović
Postupak ekstrakcije složenih kratica hrvatskoga jezika
Acronym Extraction in Croatian Language
2011
Graduate
Bojana Dalbelo Bašić
Jan Šnajder
FER
FER2
144
37
HR
Cilj ekstrakcije složenih kratica hrvatskoga jezika je razvitak tehnika koje automatski ekstrahiraju kratice i njihove pripadajuće ekspanzije iz teksta. Razvijena su tri različita pristupa: referentna metoda, metoda potpornih vektora te njihova kombinacija. Više je pristupa korišteno kako bi se mogli usporediti te iz njih izvuči zaključci. Korištenje metode potpornih vektora zahtjevalo je najviše optimiranja parametara. Tako su njene značajke učene i testirane na tri različita načina: nestandardizirane, standardizirane sve, te standardizirane cjelobrojne značajke. Tekst nad kojim se vršio postupak ekstrakcije je 10 godina Vjesnika (1999-2009.). Uspješnost ostvarenja je evaluirana i uspoređena s ručno označenim parovima kratice i ekspanzije.
The objective of acronym extraction in Croatian language is to develop technologies that automatically extract acronyms and their expansions in text. There are three different approaches developed: baseline method, support vector machine method and their combination. More approaches are used so we could compare them and get some conclusions. Use of support vector machine method required most of parameter optimizing. It’s features are learned and tested in three different ways: non-standardized, all standardized and only integer standardized features. Text over which extraction is performed is 10 years of “Vjesnik” newspaper (1999-2009.). Performance of implementation is evaluated and compared to manually marked acronym and expansion pairs.
obrada prirodnog jezika, ekstrakcija složenih kratica, stroj s potpornim vektorima, metoda temeljena na uzorcima
natural language processing, acronym extraction, support vector machine, rule-based method
1.2.2011.