Theses

Student

Marin Kačan

Title HR

Otkrivanje pogrešaka leksičkog transfera u tekstovima učenika stranog jezika

Title EN

Detecting Lexical Transfer Errors of Second Language Learners

Year

2016

Level

Undergraduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER2

Thesis ID

4754

Number of pages

Language

Abstract HR

Automatizirano ispravljanje pogrešaka važan je zadatak obrade prirodnog jezika. Pogreške leksičkog transfera učestala su kod učenika stranih jezika. Najčešći je uzrok transfera višeznačnost riječi. Cilj ovog rada bio je osmisliti model koji otkriva i ispravlja takve pogreške za dva tipa jezičnih relacija: pridjevsko-imeničke i glagolsko-objektne. Implementirana su dva različita modela, od kojih drugi koristi metode nadziranog strojnog učenja, preciznije algoritam regresije pomoću stroja s potpornim vektorima. Jezik implementacije je Python. Ovaj projekt nastao je u suradnji s kineskim sveučilištem Xi’an Jiaotong-Liverpool University, te se oni ustupili skup podataka koji se jednim dijelom koristi u ovome radu.

Abstract EN

Automated error correction is an important task of natural language processing. Lexical transfer errors are common with L2-learners. The biggest cause of transfer is word polysemy. The goal of this paper was to come up with a model that can detect and correct such errors for two language relation types: adjective-noun and verb-object. Two different models were implemented, the second of which uses supervised learning methods, more precisely the support vector regression algorithm. The model was implemented in Python. This project is carried out in cooperation with Xi’an Jiaotong-Liverpool University, China, who also make the dataset available, a part of which was used in this paper.

Keywords HR

obrada prirodnog jezika, automatizirano ispravljanje pogrešaka, leksički transfer, višeznačnost, relacije, stroj s potpornim vektorima, regresija

Keywords EN

natural language processing, automated error correction, lexical transfer, polysemy, relations, support vector machine, regression

Defense date

6.7.2016.

Thesis task HR

Leksički transfer odnosi se na prijenos znanja o riječima jednog jezika u drugi jezik. Učenici stranog jezika nerijetko čine pogreške leksičkog transfera, pogrešno prevodeći višeznačne riječi izvornog (materinjeg) jezika u ciljni (strani) jezik. U okviru paradigme računalno potpomognutog učenje jezika, od velike bi koristi bili postupci za automatsko otkrivanje i ispravljanje takvih semantičkih pogrešaka. Tema završnog rada jest automatsko otkrivanje pogrešaka leksičkog transfera uslijed višeznačnosti riječi u tekstovima izvornog jezika, s naglaskom na dvorječne pridjevsko-imeničke i glagolsko-objektne sintagme. Upoznati se s osnovnim koracima računalne obrade teksta i razviti modul za ekstrakciju dvorječnih sintagmi. Upoznati se s modelima za otkrivanje semantičke devijacije na temelju statističke analize korpusa. Razviti model za generiranje prijevodnih kandidata uporabom rječnika te model za njihovo ocjenjivanje uporabom statističke analize korpusa i nadziranog strojnog učenja. Ispitati rad sustava na tekstovima kineskih učenika engleskoga jezika koje ustupa sveučilište Xi'an Jiaotong-Liverpool ili na umjetno generiranom skupu podataka. Provesti eksperimentalno vrednovanje modela i statističku obradu rezultata. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-ZR-2016-MarinKacan.pdf