
Theses
Theses
Vjeran Crnjak
Učenje pretraživanja za rješavanje zadataka obrade prirodnoga jezika
Learning to Search for Solving Natural Language Processing Tasks
2016
Graduate
Jan Šnajder
FER
FER2
1323
75
HR
Strukturno predviđanje i učenje sveprisutno je u problemima obrade prirodnoga jezika. Metode učenja pretraživanja pružaju okvir u kojem je te probleme moguće efikasno rješavati. U ovom radu dan je pregled povijesti metoda učenja pretraživanja i osvrt na područja u strojnom učenju koja su omogućila njihov razvoj. Pokazana je i primjena na razne probleme u obradi prirodnog jezika. Istaknute su i bitne razlike između ostalih pristupa strukturnom učenju koje utvrđuju nadmoć i prilagodivost metoda učenja pretraživanja. Ostvaren je sustav koji zadatke označavanja vrste riječi i ovisnosnog parsanja vrši združeno te su istaknute razlike i prednosti na pristupe koji zadatke ne gledaju združeno. Vrednovanje sustava izvršeno je na podacima za hrvatski jezik.
Structured prediction and learning is omnipresent for problems in natural language processing. Learning to search (l2s) methods provide a framework in which these problems can be efficiently solved. This thesis gives an overview of l2s methods and their theoretical basis that allowed their development. Their application to various problems of natural language processing is described. Important differences that show the superiority and flexibility of l2s methods are pointed out in the context of previous solutions for structured and joint prediction. Description of the development of a system that considers part-of-speech tagging and dependency parsing as a joint task is provided and detailed analysis of differences and advantages to various approaches is given. Evaluation of the system is done on Croatian corpus.
učenje pretraživanja, obrada prirodnog jezika, strojno učenje, združeno učenje i predviđanje, hrvatski jezik
learning to search, natural language processing, machine learning, joint prediction and learning, Croatian language
4.7.2016.
Mnogi problemi u obradi prirodnoga jezika uključuju predviđanje strukture (npr. sintaktička analiza, ekstrakcija relacija i sl.) ili slijednu obradu kroz više razina (npr. označavanje imenovanih entiteta u kombinaciji s razrješavanjem koreferencije, semantičko parsanje, i sl). Jednostavni pristupi temeljeni na strojnom učenju strukturu izgrađuju na temelju lokalnih klasifikacijskih odluka, a višerazinsku obradu ostvaruju slijedom nezavisnih klasifikatora. Takvi pristupi međutim ne iskorištavaju ovisnosti između zadataka i skloni su propagiranju pogrešaka kroz razine. Alternativu predstavljaju pristupi temeljeni na združenom učenju.
U okviru diplomskoga zadataka potrebno je proučiti pristupe paradigme temeljene na združenome strojnom učenju. Posebnu pažnju posvetiti paradigmi "učenja pretraživanja" (engl. learning to search), kao što su SEARN (Daumé III i dr., 2006) i LOLS (Kai-Wei Chang i dr., 2015), te proučiti radni okvir Vowpal Wabbit. Proučiti tri zadatka obrade prirodnog jezika koji uključuju predviđanje strukture, višerazinsku obradu ili oboje. Razraditi prilagodbu tih zadataka paradigmi učenja pretraživanja. Izgraditi združeni model za svaki od zadataka te provesti iscrpno vrednovanje modela, uključivo analizu pogrešaka te usporedbu s referentnim modelima. Radu priložiti izvorni i izvršni kod razvijenog sustava, skupove podataka i programsku dokumentaciju te citirati korištenu literaturu.