
Theses
Theses
Ivan Krišto
Primjena metoda strojnog učenja za poboljšanje pretraživanja dokumenata
Using Machine Learning Methods to Improve Document Retrieval
2012
Graduate
Jan Šnajder
FER
FER2
461
65
HR
Današnja brzina stvaranja novih informacija postavlja nove izazove pri izgradnji sustava za pretraživanje informacija. S velikim količinama informacija dolazi veliki broj informacijskih domena i njihova međusobna isprepletenost (veze između domena) što zahtijeva složenije funkcije rangiranja. Zbog velike brzine stvaranja novih informacija, ručno podešavanje funkcije rangiranja postaje izuzetno težak posao te su ideje o automatizaciji podešavanja funkcija rangiranja i općenitog poboljšavanja pretraživanja sve primamljivije. Poboljšavanje pretraživanja može se ostvariti izravnim podešavanjem funkcije rangiranja ili stvaranjem vanjskih mehanizama koji pomažu pri pretraživanju informacija. U ovom radu obrađene su metode izravnog podešavanja funkcije rangiranja kroz metode učenja rangiranja te metode predlaganja upita u svrhu pomoći korisnicima pri pretraživanju informacija. U radu se istražuje se mogućnost korištenja zapisa dnevnika upita tražilica (u literaturi poznatog kao click-data ili clickthrough data) za poboljšavanja pretraživanja dokumenata. Proučene su metode predlaganja boljih upita te poboljšavanja rangiranja korištenjem isključivo podataka dobivenih iz dnevnika upita tražilica. Razvijene su i evaluirane nove (no ne posebno učinkovite) metode predlaganja upita i poboljšavanja rangiranja te navedeni problemi koji se susreću pri radu s podatcima dobivenim iz dnevnika upita tražilica.
Present speed of creating new information sets a new challenge at building of information retrieval systems. Large amount of information brings large number of information domains which requires more complex ranking functions. Due to high speed of creating new information, manual adjustment of ranking functions becomes extremly hard. That is why automatic adjustment of ranking functions and general information retrieval improvement becomes more attractive. Information retrieval improvement can be made by direct adjustment of ranking function or by creation of mechanisms which help users to search for information. This paper describes methods of direct adjustment of ranking function by learning to rank methods and query suggestion methods as a help for users to search for information. This paper explores possibility of using search engine query logs data (known as click-data or clickthrough data) to improve document retrieval. It contains research of query suggestion and ranking improval methods which only use search engine query log data. It presents implementation and evaluation of new (but not very successful) methods of query suggestion and ranking improval. It also notes problems which occur while working with data collected from search engine query log.
pretraživanje informacija, učenje rangiranja, predlaganje upita, strojno učenje, tražilice dokumenata, tražilica
information retrieval, learning to rank, query suggestion, machine learning, search engine, query log
29.6.2012.
Sustavi za pretraživanje informacija nezaobilazan su dio suvremene informacijsko-komunikacijske infrastrukture. Razvijene su mnoge tehnike za poboljšanje rezultata pretraživanja kojima je cilj bolje odgovoriti na informacijsku potrebu korisnika, na način da se poveća odziv tražilice te da relevantni dokumenti budu visoko rangirani. U posljednje su vrijeme istraživanja usredotočena na primjenu metoda strojnog učenja na temelju zapisa o pretraživanju (engl. search logs), uključivo i podataka o klikovima (engl. click data).
U okviru diplomskog rada potrebno je proučiti osnovne modele za pretraživanje tekstnih dokumenata, standardne načine i mjere za vrednovanje uspješnosti pretraživanja, tehnike za poboljšanje rezultata pretraživanja te tehnike za učenje rangiranja na temelju zapisa o pretraživanju. Razviti metodu za predlaganje modificiranog upita temeljem upita koji je unio korisnik i zapisa o pretaživanju drugih korisnika. Razviti metodu za učenje rangiranja na temelju zapisa o pretraživanju. Implementirati metode u sustavu Apache Lucene i ispitati njihov rad na odgovarajućim skupovima podataka (zapisima tražilica AOL, CADIAL, search-lucene.com ili search-hadoop.com). Razmotriti uporabu tehnologije MapReduce za obradu velike količine tekstnih podataka. Provesti vrednovanje razvijenih metoda na temelju usporedne analize ili analize na ispitnoj zbirci. Po potrebi razviti manju ispitnu zbirku s ocjenama relevantnosti za dokumente koje pretražuje tražilica CADIAL. Radu priložiti izvorni programski kod, programsku dokumentaciju i korištene skupove podataka.