Theses

Marin Kačan
Otkrivanje pogrešaka leksičkog transfera u tekstovima učenika stranog jezika
Detecting Lexical Transfer Errors of Second Language Learners
2016
Undergraduate
Jan Šnajder
FER
FER2
4754
44
HR
Automatizirano ispravljanje pogrešaka važan je zadatak obrade prirodnog jezika. Pogreške leksičkog transfera učestala su kod učenika stranih jezika. Najčešći je uzrok transfera višeznačnost riječi. Cilj ovog rada bio je osmisliti model koji otkriva i ispravlja takve pogreške za dva tipa jezičnih relacija: pridjevsko-imeničke i glagolsko-objektne. Implementirana su dva različita modela, od kojih drugi koristi metode nadziranog strojnog učenja, preciznije algoritam regresije pomoću stroja s potpornim vektorima. Jezik implementacije je Python. Ovaj projekt nastao je u suradnji s kineskim sveučilištem Xi’an Jiaotong-Liverpool University, te se oni ustupili skup podataka koji se jednim dijelom koristi u ovome radu.
Automated error correction is an important task of natural language processing. Lexical transfer errors are common with L2-learners. The biggest cause of transfer is word polysemy. The goal of this paper was to come up with a model that can detect and correct such errors for two language relation types: adjective-noun and verb-object. Two different models were implemented, the second of which uses supervised learning methods, more precisely the support vector regression algorithm. The model was implemented in Python. This project is carried out in cooperation with Xi’an Jiaotong-Liverpool University, China, who also make the dataset available, a part of which was used in this paper.
obrada prirodnog jezika, automatizirano ispravljanje pogrešaka, leksički transfer, višeznačnost, relacije, stroj s potpornim vektorima, regresija
natural language processing, automated error correction, lexical transfer, polysemy, relations, support vector machine, regression
6.7.2016.
Leksički transfer odnosi se na prijenos znanja o riječima jednog jezika u drugi jezik. Učenici stranog jezika nerijetko čine pogreške leksičkog transfera, pogrešno prevodeći višeznačne riječi izvornog (materinjeg) jezika u ciljni (strani) jezik. U okviru paradigme računalno potpomognutog učenje jezika, od velike bi koristi bili postupci za automatsko otkrivanje i ispravljanje takvih semantičkih pogrešaka. Tema završnog rada jest automatsko otkrivanje pogrešaka leksičkog transfera uslijed višeznačnosti riječi u tekstovima izvornog jezika, s naglaskom na dvorječne pridjevsko-imeničke i glagolsko-objektne sintagme. Upoznati se s osnovnim koracima računalne obrade teksta i razviti modul za ekstrakciju dvorječnih sintagmi. Upoznati se s modelima za otkrivanje semantičke devijacije na temelju statističke analize korpusa. Razviti model za generiranje prijevodnih kandidata uporabom rječnika te model za njihovo ocjenjivanje uporabom statističke analize korpusa i nadziranog strojnog učenja. Ispitati rad sustava na tekstovima kineskih učenika engleskoga jezika koje ustupa sveučilište Xi'an Jiaotong-Liverpool ili na umjetno generiranom skupu podataka. Provesti eksperimentalno vrednovanje modela i statističku obradu rezultata. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju.