Theses

Student

Josip Bakić

Title HR

Postupak automatskog izlučivanja tekstnog sadržaja iz internetskih stranica

Title EN

Automatic Content Extraction from Web Pages

Year

2012

Level

Graduate

Supervisor

Jan Šnajder

Co-supervisor

Hands-on assistant

Study Programme

FER

Programme

FER1

Thesis ID

1922

Number of pages

Language

Abstract HR

Opisana je problematika ekstrakcije tekstnog sadržaja iz HTML- dokumenata, tj. uklanjanja nebitnog sadržaja. Predstavljene su metode za vrednovanje uspješnosti algoritama za ekstrakciju, te je dan presjek postojećih rješenja. Razvijene su dvije varijante hibridnog ekstraktora koje kombiniraju postojeće algoritme pomoću SVM-algoritma strojnog učenja. Razvijene metode su eksperimentalno vrednovane nad skupom dokumenata CleanEval. Rezultati pokazuju da kombinacija nije bila uspješna jer ne nadmašuje rezultat najboljeg postojećeg upotrijebljenog algoritma, BTE. Razvijen je i ekstraktor sadržaja po predlošku.

Abstract EN

The problem of extracting textual content, or boilerplate removal, from HTML documents is described. Methods of evaluating results of extraction algorithms are presented, along with an overview of existing solutions. Two variants of a hybrid extractor were developed which combine existing algorithms using the SVM machine learning algorithm. The developed methods were experimentally evaluated on the CleanEval dataset. Results indicate that the combinations were not succesful as they were unable to achieve a better score than the best existing used algorithm, BTE. A template-based content extractor was also developed.

Keywords HR

HTML, web-stranice, uklanjanje šuma, ekstrakcija tekstnog sadržaja, hibridni ekstraktor, Body Text Extraction, Boilerpipe, Readability, SVM

Keywords EN

HTML, web pages, boilerplate removal, content extraction, hybrid extractor, Body Text Extraction, Boilerpipe, Readability, SVM

Defense date

14.9.2013.

Thesis task HR

Na Internetu je dostupna velika količina tekstnih informacija. Glavni tekstni sadržaj internetskih stranica uklopljen je u često vrlo složenu HTML-strukturu stranica. Izlučivanje čistoga tekstnog sadržaja iz HTML-dokumenata (engl. web page cleaning) nužan je korak predobrade kako bi se prikupljeni tekstovi mogli upotrijebiti u daljnjim postupcima dohvata informacija i dubinske analize teksta. Neki od suvremenih postupaka izlučivanja tekstnog sadržaja temelje se na heuristički utvrđenim pravilima dok se drugi temelje na metodama strojnog učenja. U okviru završnog rada potrebno je proučiti postojeće postupke za izlučivanje tekstnog sadržaja iz HTML-dokumenata. Potrebno je razraditi postupak koji bi, koristeći metode nadziranog strojnog učenja, kombinirao postojeće pristupe, uvažavajući njihove individualne prednosti i nedostatke. Provesti temeljito vrednovanje razvijenog postupka te provesti analizu značajki i pogrešaka. Načiniti programsku izvedbu alata za izlučivanje tekstnog sadržaja u programskom jeziku po izboru. Alat dodatno treba podržavati definiranje uzoraka strukture HTML-dokumenata unutar kojih se nalazi glavni tekstni sadržaj. Na temelju korisnički definiranih uzoraka potrebno je izlučivati tekstni sadržaj HTML-stranica za koje prethodno implementirani automatski postupak ne daje zadovoljavajuće rezultate. Radu priložiti izvorni programski kod, programsku dokumentaciju i korištene skupove podataka.

Thesis task EN

Publicly available

Published paper(s)

File

TakeLab-DR-2012-JosipBakic.pdf