Detail publikace

Extrakce informace z WWW na základě znalosti struktury dat

BURGET, R.

Originální název

Extrakce informace z WWW na základě znalosti struktury dat

Český název

Extrakce informace z WWW na základě znalosti struktury dat

Typ

článek ve sborníku ve WoS nebo Scopus

Jazyk

cs

Originální abstrakt

S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asistence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce dat z tohoto popisu pomocí XSL transformace na základě předem připravené specifikace a dále se příspěvek zabývá možnostmi automatické extrakce informace na základě srovnání struktury požadovaných dat se strukturou dokumentu za pomoci algoritmů pro porovnávání stromových struktur.

Český abstrakt

S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asistence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce dat z tohoto popisu pomocí XSL transformace na základě předem připravené specifikace a dále se příspěvek zabývá možnostmi automatické extrakce informace na základě srovnání struktury požadovaných dat se strukturou dokumentu za pomoci algoritmů pro porovnávání stromových struktur.

Klíčová slova

Extrakce Informace, HTML, XML

Rok RIV

2003

Vydáno

19.02.2003

Nakladatel

Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava

Místo

Ostrava

ISBN

80-248-0229-5

Kniha

Sborník příspěvků 2. ročníku konference Znalosti 2003

Strany od

271

Strany do

280

Strany počet

10

BibTex


@inproceedings{BUT13790,
  author="Radek {Burget}",
  title="Extrakce informace z WWW na základě znalosti struktury dat",
  annote="S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále
aktuálnější problém jejich dalšího zpracování, například za účelem jejich
integrace do většího informačního celku, nebo za účelem získávání znalostí
z těchto dat. Současné techniky automatické extrakce informace z HTML
dokumentů ve většině případů vycházejí z předpokladu, že existuje množina
dokumentů generovaných stejným způsobem ze společné báze dat. Na základě
analýzy této množiny jsou pomocí různých postupů, ať již za asistence
uživatele či automaticky, určena pravidla pro extrakci konkrétních dat
z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho
dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky)
nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto
příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury
obsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce dat
z tohoto popisu pomocí XSL transformace na základě předem připravené
specifikace a dále se příspěvek zabývá možnostmi automatické extrakce
informace na základě srovnání struktury požadovaných dat se strukturou
dokumentu za pomoci algoritmů pro porovnávání stromových struktur.",
  address="Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava",
  booktitle="Sborník příspěvků 2. ročníku konference Znalosti 2003",
  chapter="13790",
  institution="Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava",
  year="2003",
  month="february",
  pages="271--280",
  publisher="Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava",
  type="conference paper"
}