Publication detail

Extrakce informace z WWW na základě znalosti struktury dat

BURGET, R.

Original Title

Extrakce informace z WWW na základě znalosti struktury dat

English Title

Information Extraction from WWW based on the data structure knowledge

Type

conference paper

Language

Czech

Original Abstract

S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asistence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce dat z tohoto popisu pomocí XSL transformace na základě předem připravené specifikace a dále se příspěvek zabývá možnostmi automatické extrakce informace na základě srovnání struktury požadovaných dat se strukturou dokumentu za pomoci algoritmů pro porovnávání stromových struktur.

English abstract

This paper deals with the matter of modelling the logical structure of a Web site and using such model for information extraction. It proposes an algorithm for creating a site model based on the HTML code analysis and a XML/XSL based system for information extraction from this model. Furthermore, the possibility of the usage of tree matching algorithms for automating the extraction process is discussed.

Keywords

Extrakce Informace, HTML, XML

Key words in English

Information Extraction, HTML, XML

Authors

BURGET, R.

RIV year

2003

Released

19. 2. 2003

Publisher

Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava

Location

Ostrava

ISBN

80-248-0229-5

Book

Sborník příspěvků 2. ročníku konference Znalosti 2003

Pages from

271

Pages to

280

Pages count

10

BibTex

@inproceedings{BUT13790,
  author="Radek {Burget}",
  title="Extrakce informace z WWW na základě znalosti struktury dat",
  booktitle="Sborník příspěvků 2. ročníku konference Znalosti 2003",
  year="2003",
  pages="271--280",
  publisher="Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava",
  address="Ostrava",
  isbn="80-248-0229-5"
}