Theses

Toni Antunović
Automatska izgradnja prijevodnih rječnika temeljena na semantičkim vektorskim prostorima
Automated Extraction of Bilingual Lexicons Based on Semantic Vector Spaces
2015
Graduate
Jan Šnajder
Goran Glavaš
FER
FER2
1150
56
HR
Rječnici i prijevodne tablice izraza osnova su modernih sustava za statističko strojno prevođenje. Tradicionalni postupci za automatsku izgradnju prijevodnih rječnika oslanjaju se na usporedne dvojezične tekstne zbirke. Kako je izgradnja usporednih tekstnih zbirki iznimno naporan i skup postupak, noviji se postupci automatske izgradnje prijevodnih rječnika oslanjaju na usporedive zbirke u kojima je uparivanje između dvaju jezika načinjeno tek na razini dokumenta. Izgradnja usporedivih zbirki značajno je manje zahtjevna od izgradnje usporednih, a razvijeni su i pouzdani postupci za automatsku izgradnju. U okviru ovog diplomskog rada proučeni su postupci za automatsku izgradnju prijevodnih rječnika temeljeni na usporedivim tekstnim zbirkama.
Dictionaries and phrase tables are the basis of modern statistical machine translation systems. Traditional methods for automatic generation of bilingual dictionaries depend on parallel bilingual corpora. Since parallel corpora is hard to acquire, newer methods only require comparable corpora in order to work. This paper develops a method that can automate the process of generating and extending dictionaries and phrase tables in an unsupervised way from comparable corpora.
dvojezični rječnici, automatska, izgradnja, usporedivi korpus, nenadzirano učenje
bilingual dictionaries, automatic generation, comparable corpora, unsupervised learning
13.7.2015
Rječnici i prijevodne tablice izraza osnova su modernih sustava za statističko strojno prevođenje. Tradicionalni postupci za automatsku izgradnju prijevodnih rječnika oslanjaju se na usporedne dvojezične korpuse. Kako je izgradnja usporednih korpusa iznimno naporan i skup postupak, noviji se postupci automatske izgradnje prijevodnih rječnika oslanjaju na usporedive korpuse u kojima je uparivanje između dvaju jezika načinjeno tek na razini dokumenata. Izgradnja usporedivih korpusa značajno je manje zahtjevna od izgradnje usporednih korpusa, a razvijeni su i pouzdani postupci za automatsku izgradnju takvih korpusa. U okviru diplomskoga rada potrebno je proučiti postupke za automatsku izgradnju prijevodnih rječnika temeljene na usporedivim korpusima. Proučiti modele koji se temelje na semantičkoj reprezentaciji riječi u vektorskom prostoru obaju jezika, poput modela Mikolova i dr. (2013). Razraditi iterativni postupak za automatsku izgradnju prijevodnih rječnika za koji nisu potrebni ručno pripremljeni prijevodni parovi riječi. Razviti programsku implementaciju postupka, oslanjajući se na javno dostupne biblioteke za izgradnju semantičkih vektorskih prostora. Izgraditi usporediv hrvatsko-engleski web-korpus. Primjenom razvijenog postupka izgradnje prijevodnih rječnika nad usporedivim hrvatsko-engleskim korpusom izgraditi prijevodni hrvatsko-engleski rječnik. U okviru rada potrebno je provesti eksperimentalno vrednovanje postupka, usporedbu s odgovarajućim referentnim metodama te detaljnu analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i potrebnu dokumentaciju.