Theses

Vjekoslav Osmann
Označavanje vrste riječi u tekstovima na hrvatskome jeziku
Tagging Parts of Speech in Croatian Texts
2011
Graduate
Bojana Dalbelo Bašić
Jan Šnajder
FER
FER2
137
73
HR
Označavanje vrsta riječi važna je predradnja u brojnim područjima istraživanja obrade prirodnog jezika. Počevši od obrade rečenica na sintaktičkoj razini, preko trenutno vrlo aktualnih radova u analizi stavova i mišljenja autorâ tekstôva, do strojnog prevođenja, informacija o vrsti svake od riječi u tekstu vrlo je korisna. U okviru ovog diplomskog rada dan je pregled dosadašnjih radova u označavanju vrsta riječi s osvrtom na rezultate različitih pristupa programskom ostvarenju automatiziranog označivača za brojne svjetske jezike, kao i uvod u vezanu lingvističku problematiku. Programski je ostvaren automatizirani označivač zasnovan na skrivenim Markovljevim modelima te su komentirani postignuti rezultati na hrvatskom jeziku – 92,33% na ograničenom dostupnom korpusu označenom u okviru rada.
Part of speech tagging is an important early step in many research areas in natural language processing. Beginning with syntactic analysis of sentences, through currently very fashionable areas of opinion and sentiment analysis, up to machine translation, having part of speech information is very useful. Within this Master’s thesis an overview of related work in different languages and using different approaches to tagging is given along with a detailed description of the underlying linguistic intricacies of the Croatian language. An HMM-based tagger was implemented and its results – 92.33% on the limited available corpus hand-tagged for the purpose of this thesis – were documented and analysed.
označavanje vrste riječi, hrvatski jezik, skriven Markovljev model, nadzirano strojno učenje, obrada prirodnog jezika, računalna lingvistika
part of speech tagging, croatian language, hidden Markov model, supervised machine learning, natural language processing, computational linguistics
30.3.2011.