Theses

Dino Radaković
Primjena semantičkih jezgrenih funkcija u klasifikaciji teksta
Applying Semantic Kernel Functions in Text Classification
2014
Undergraduate
Jan Šnajder
FER
FER2
3797
44
HR
Klasifikacija teksta temeljem sadržaja jedan je od osnovnih zadataka koji se javl- jaju u domeni dubinske analize teksta. Često korišteni postupci uključuju predstavljanje dokumenata u vektorskom obliku, korištenjem vreća riječi. Iako su takve metode jednostavne i učinkovite, njima nije moguće modelirati dokument na konceptualnoj razini, što negativno utječe na kvalitetu klasifikatora koji se temelje na istima. Stoga je nedavno predloženo nekoliko različitih pristupa koji se temelje na povezivanju ontološkog znanja s tekstom. P. Wang i C. Domeniconi u svom radu iz 2008. opisuju jedan takav pristup, koji se temelji na korištenju Wikipedije za modeliranje dokumenata na semantičkoj razini, nazivajući ga „semantičkom jezgrenom funkcijom”. U okviru ovog rada izvedena su dva klasifikatora temeljena na strojevima potpornih vektora – jedan koji koristi vreće riječi i drugi, koji se temelji na semantičkoj jezgrenoj funkciji. Točnosti klasifikacije oba modela uspoređene su temeljem iscrpnog vrednovanja provedenog na zbirci dokumenata na hrvatskom jeziku.
Content-based text classification is one of the basic tasks in the domain of text analysis. Popular methods involve mapping text documents to bags of words, represented by vectors. Although quite effective in practice, such methods fail to describe text documents on a conceptual level, which negatively impacts the quality of the implementing classifiers. Several approaches which bind ontological knowledge to text documents have been proposed recently. P. Wang. and C. Domeniconi describe one such approach which relies on Wikipedia to represent documents on a semantic level in their 2008 paper, denoting the resulting model with the term "semantic kernel”. Two support vector machine classifiers have been implemented as part of this thesis – one based on the traditional bag of words approach, the other being based on the semantic kernel. The performance of the models is then compared and evaluated by applying them on a collection of Croatian language documents.
Jezgrena funkcija, klasifikacija teksta, stroj potpornih vektora, Wikipedija
kernel function, text classification, SVM, Wikipedia
4.7.2014.
Sadržajna klasifikacija teksta jedan je od osnovnih zadatka dubinske analize teksta. Uobičajeno se u tu svrhu koriste modeli strojnog učenja temeljeni na vektorskome prikazu dokumenta kao vreće riječi. Premda jednostavan i učinkovit, takav prikaz ne modelira semantiku dokumenta na konceptualnoj razini, stoga su u literaturi predložena razna proširenja. Jedno je od takvih proširenja model temeljen na semantičkoj jezgrenoj funkciji, koji obogaćuje prikaz dokumenta znanjem izvedenom iz ontologije. U okviru završnoga rada potrebno je proučiti osnovne postupke za klasifikaciju teksta s naglaskom na postupke strojnog učenja s jezgrenim funkcijama. Proučiti semantičke jezgrene funkcije temeljene na Wikipediji predložene u radu Wanga i Domeniconi (2008). Razraditi postupak za izgradnju semantičkih jezgrenih funkcija za dokumente na hrvatskome jeziku korištenjem hrvatske Wikipedije. Razviti odgovarajuće programsko rješenje te ga primijeniti na klasifikaciju dokumenata na hrvatskome jeziku. Provesti iscrpno vrednovanje točnosti klasifikacije na zbirkama dokumenata na hrvatskome jeziku. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.