Theses

Veljko Srdarević
Generiranje tekstnog izvještaja na temelju strukturiranih podataka
Text Report Generation Based on Structured Data
2012
Graduate
Jan Šnajder
FER
FER2
459
61
HR
Generiranje prirodnog jezika je grana umjetne inteligencije i računalne lingvistike čiji je cilj izgradnja računalnih sustava koji mogu stvoriti tekstove na nekom prirodnom jeziku. Danas postoji mnoštvo sustava NLG, no većina ih je ograničena na točno određenu domenu i točno određen ulazni skup podataka. Nekolicina radova opće namjene obično zahtjevaju dugotrajne pripremne radnje da bi promijenili domenu. U radu je istražena mogućnost potpuno automatskog generiranja teksta na temelju strukturiranih podataka, pomoću vjerojatnosne kontekstno neovisne gramatike i grupiranja podataka hijerarhijskim aglomerativnim algoritmom grupiranja. Dobiveni generirani tekstovi su evaluirani pomoću BLEU-4 mjere koja je dala rezultat 0.14. Rezultat se može smatrati lošim u usporedbi sa sličnim sustavima rađenim na istom skupu podataka. Može se zaključiti da je ipak potreban veći ljudski upliv.
Natural language generation is a field in artificial intelligence and computer linguistics. The goal of NLG is building computer systems that can generate texts in a natural language. There are many NLG systems today, but most of them are restricted to one domain, and one type of input. There are general systems that can change domains, but the change, most of the time, is hard to make. This paper explores the posibility of completely automatic text generation based on structured data. Generation is done with probibalistic context-free grammar and hiearchical aglomerative clustering algorithm. Generated texts were evaluated using BLEU-4, and the result was 0.14. This is a poorer result than in similar system which used the same corpus. In conclusion, it can be said that bigger human input is necessary.
NLG, PCFG, kontekstno neovisna gramatika, generiranje izvješća, prirodni jezik, racunalna lingvistika, umjetna inteligencija, generiranje prirodnog jezika
natural language generation, context-free grammar, PCFG, report generation, natural language, computer linguistics, artificial intelligence
29.6.2012.
Generiranje prirodnog jezika podgrana je obrade prirodnog jezika koja se bavi generiranjem rečenica i tekstova na prirodnome jeziku temeljem strukturiranih podataka. Sustavi za generiranje prirodnog jezika koriste se za tekstovnu interpretacija informacija sadržanih u bazi podataka u svrhu prezentacije podataka krajnjem korisniku, podrške u odlučivanju, poboljšanju pristupa informacijama i slično. U okviru diplomskog rada potrebno je proučiti postupke generiranja prirodnog jezika te postupke za automatsku indukciju gramatike iz korpusa. Razraditi postupak za generiranje tekstnog izvještaja na hrvatskome ili engleskom jeziku temeljem strukturiranih podataka, kao što su prometni podatci, vremenska prognoza i sl. Implementirati i ispitati različite metode generiranja, uključivo metode temeljene na predlošcima, jezičnim modelima i domenskoj probabilističkoj kontekstno neovisnoj gramatici. Provesti ručno vrednovanje razvijenog postupka i automatsko vrednovanje temeljem odgovarajućih ispitnih uzoraka i evaluacijske metrike kao što je BLEU. Radu priložiti izvorni programski kod, programsku dokumentaciju i ispitne uzorke.