Theses

Student

Vjekoslav Osmann

Title HR

Označavanje vrste riječi u tekstovima na hrvatskome jeziku

Title EN

Tagging Parts of Speech in Croatian Texts

Year

2011

Level

Graduate

Supervisor

Bojana Dalbelo Bašić

Co-supervisor

Hands-on assistant

Jan Šnajder

Study Programme

FER

Programme

FER2

Thesis ID

137

Number of pages

Language

Abstract HR

Označavanje vrsta riječi važna je predradnja u brojnim područjima istraživanja obrade prirodnog jezika. Počevši od obrade rečenica na sintaktičkoj razini, preko trenutno vrlo aktualnih radova u analizi stavova i mišljenja autorâ tekstôva, do strojnog prevođenja, informacija o vrsti svake od riječi u tekstu vrlo je korisna. U okviru ovog diplomskog rada dan je pregled dosadašnjih radova u označavanju vrsta riječi s osvrtom na rezultate različitih pristupa programskom ostvarenju automatiziranog označivača za brojne svjetske jezike, kao i uvod u vezanu lingvističku problematiku. Programski je ostvaren automatizirani označivač zasnovan na skrivenim Markovljevim modelima te su komentirani postignuti rezultati na hrvatskom jeziku – 92,33% na ograničenom dostupnom korpusu označenom u okviru rada.

Abstract EN

Part of speech tagging is an important early step in many research areas in natural language processing. Beginning with syntactic analysis of sentences, through currently very fashionable areas of opinion and sentiment analysis, up to machine translation, having part of speech information is very useful. Within this Master’s thesis an overview of related work in different languages and using different approaches to tagging is given along with a detailed description of the underlying linguistic intricacies of the Croatian language. An HMM-based tagger was implemented and its results – 92.33% on the limited available corpus hand-tagged for the purpose of this thesis – were documented and analysed.

Keywords HR

označavanje vrste riječi, hrvatski jezik, skriven Markovljev model, nadzirano strojno učenje, obrada prirodnog jezika, računalna lingvistika

Keywords EN

part of speech tagging, croatian language, hidden Markov model, supervised machine learning, natural language processing, computational linguistics

Defense date

30.3.2011.

Thesis task HR

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2011-VjekoslavOsmann.pdf