Theses
Theses
Fran-Andrija Arbanas
Predviđanje vrste pitanja za jezično sučelje bazi podataka
Question Type Classification for a Natural Language Database Interface
2017
Undergraduate
Jan Šnajder
FER
FER2
5321
35
HR
S ciljem približavanja baza podataka ljudima bez znanja potrebnih za uprav- ljanje istima počela su se razvijati jezična sučelja bazama podataka. Kako bi se izgradilo stabilno jezično sučelje nužno je odbacivati loše upite. Taj problem riješen je u ovom radu uporabom metoda otkrivanja novih vrijednosti i strojnog učenja. Sljedeći korak pri izgradnji jezičnog sučelja je predviđanje vrste pitanja u upitu, kako bi se upit mogao ispravno prevesti u jezik upita. U opsegu ovog rada taj problem riješen je klasifikacijom u 14 klasa koristeći metode obrade prirodnog jezika i strojnog učenja. U radu su detaljno opisani algoritmi koji su korišteni te postupci kojima su se rezultati dobili. Skup podataka na kojima su modeli učeni ručno je izgrađen te označen.
Natural language interfaces to databases began to develop with the goal to bring databases closer to the people with no knowledge about them. To make a natural language interface it is necessary to filter out spam queries. That problem is solved in this thesis by using methods of novelty detection and machine learning. The next step in creating a natural language interface is predicting the question type in query, in order for the query to be easily translated to query language. In the scope of this thesis that problem was solved by classification into 14 classes using methods of natural language processing and machine learning. Algorithms that were used in the thesis are also thoroughly explained as well as the methods by which we got results. Dataset on which the models were trained was compiled and labeled by hand.
obrada prirodnog jezika, strojno učenje, jezično sučelja bazi podataka, stroj potpornih vektora, naivni Bayesov klasifikator
natural language processing, machine learning, natural language interface, support vector machine, naive Bayes classifier
6.7.2017.
Jezično sučelje bazama podataka omogućava postavljanje upita nad bazom u kontroliranom prirodnom jeziku. Istraživanja u ovom području povezana su s istraživanjima u području automatskog odgovaranja na pitanja. Ključni korak kod automatskog odgovaranja na pitanja jest utvrđivanje vrste pitanja odnosno očekivanog odgovora, o kojemu ovisi daljnji tijek obrade upita.
Tema završnoga rada jest automatska klasifikacija korisničkog pitanja primjenom strojnog učenja u kontekstu sustava za pristup bazi podataka o poznatim osobama. Potrebno je proučiti postupke za klasifikaciju pitanja u okviru literature koja se bavi sustavima odgovaranja na pitanjima, s naglaskom na pristupe temeljene na strojnom učenju, te modele nadziranoga strojnog učenja za jednoklasnu i višeklasnu klasifikaciju. Razviti model za klasifikaciju pitanja na engleskome jeziku koja uključuje odluku o tome je li pitanje odgovorivo te, ako jest, koja je očekivana vrsta odgovora. Izgraditi prikladnu zbirku za učenje i ispitivanje modela koja će sadržavati primjere pitanja s ispravnim oznakama. Provesti vrednovanje modela, usporedbu s referentnim modelom, statističku obradu rezultata te analizu pogrešaka. Radu priložiti izvorni i izvršni kod razvijenog sustava, označene skupove podataka i potrebnu dokumentaciju te citirati korištenu literaturu.