
Theses
Theses
Josip Bakić
Postupak automatskog izlučivanja tekstnog sadržaja iz internetskih stranica
Automatic Content Extraction from Web Pages
2012
Graduate
Jan Šnajder
FER
FER1
1922
47
HR
Opisana je problematika ekstrakcije tekstnog sadržaja iz HTML- dokumenata, tj. uklanjanja nebitnog sadržaja. Predstavljene su metode za vrednovanje uspješnosti algoritama za ekstrakciju, te je dan presjek postojećih rješenja. Razvijene su dvije varijante hibridnog ekstraktora koje kombiniraju postojeće algoritme pomoću SVM-algoritma strojnog učenja. Razvijene metode su eksperimentalno vrednovane nad skupom dokumenata CleanEval. Rezultati pokazuju da kombinacija nije bila uspješna jer ne nadmašuje rezultat najboljeg postojećeg upotrijebljenog algoritma, BTE. Razvijen je i ekstraktor sadržaja po predlošku.
The problem of extracting textual content, or boilerplate removal, from HTML documents is described. Methods of evaluating results of extraction algorithms are presented, along with an overview of existing solutions. Two variants of a hybrid extractor were developed which combine existing algorithms using the SVM machine learning algorithm. The developed methods were experimentally evaluated on the CleanEval dataset. Results indicate that the combinations were not succesful as they were unable to achieve a better score than the best existing used algorithm, BTE. A template-based content extractor was also developed.
HTML, web-stranice, uklanjanje šuma, ekstrakcija tekstnog sadržaja, hibridni ekstraktor, Body Text Extraction, Boilerpipe, Readability, SVM
HTML, web pages, boilerplate removal, content extraction, hybrid extractor, Body Text Extraction, Boilerpipe, Readability, SVM
14.9.2013.
Na Internetu je dostupna velika količina tekstnih informacija. Glavni tekstni sadržaj internetskih stranica uklopljen je u često vrlo složenu HTML-strukturu stranica. Izlučivanje čistoga tekstnog sadržaja iz HTML-dokumenata (engl. web page cleaning) nužan je korak predobrade kako bi se prikupljeni tekstovi mogli upotrijebiti u daljnjim postupcima dohvata informacija i dubinske analize teksta. Neki od suvremenih postupaka izlučivanja tekstnog sadržaja temelje se na heuristički utvrđenim pravilima dok se drugi temelje na metodama strojnog učenja.
U okviru završnog rada potrebno je proučiti postojeće postupke za izlučivanje tekstnog sadržaja iz HTML-dokumenata. Potrebno je razraditi postupak koji bi, koristeći metode nadziranog strojnog učenja, kombinirao postojeće pristupe, uvažavajući njihove individualne prednosti i nedostatke. Provesti temeljito vrednovanje razvijenog postupka te provesti analizu značajki i pogrešaka. Načiniti programsku izvedbu alata za izlučivanje tekstnog sadržaja u programskom jeziku po izboru. Alat dodatno treba podržavati definiranje uzoraka strukture HTML-dokumenata unutar kojih se nalazi glavni tekstni sadržaj. Na temelju korisnički definiranih uzoraka potrebno je izlučivati tekstni sadržaj HTML-stranica za koje prethodno implementirani automatski postupak ne daje zadovoljavajuće rezultate. Radu priložiti izvorni programski kod, programsku dokumentaciju i korištene skupove podataka.