Detail publikace

Signaturní soubory se signaturami proměnné délky

KORČÁK, Z.

Originální název

Signaturní soubory se signaturami proměnné délky

Český název

Signaturní soubory se signaturami proměnné délky

Typ

dizertace

Jazyk

cs

Originální abstrakt

Tato práce se zabývá zpracováním informací a vyhledáváním v nich. Zaměřuje se na textové informace a vyhledávání pomocí signaturních souborů. Hlavní úsilí je směřováno k navržení nové efektivní vyhledávácí metody. Toto může být dosaženo pouze při důkladné znalosti vlastností dat, ve kterých se bude vyhledávat. Proto je proveden podrobný rozbor vlastností textových dat. Pro některé vlastnosti jsou pak navrženy nové analytické aproximace. Není zapomenuto ani na české dokumenty, které mají své specifické vlastnosti. Pro textová data je potřeba také zvolit vhodnou metodu pro vytváření signatur. Metody popsané v literatuře byly analyzovány a patřičně modifikovány pro naše požadavky. Bylo vyzkoušeno mnoho organizací signatur, ale žádná nesplňovala náročné požadavky současných systémů. Proto je navržena nová metoda organizace, která je rychlá při vytváření i při vyhodnocování dotazu, vytvořený pomocný soubor je malý a vyhledávání lze snadno paralelizovat. Změnou několika parametrů lze plynule přejít od efektivnosti invertovaných souborů při vyhledávání až po velkou datovou kompresi signaturních souborů. Pro všechny metody organizací jsou navrženy analytické modely. Tato práce není pouze prací teoretickou, ale návrhy a vytvořené modely jsou také ověřovány experimentálně.

Český abstrakt

Tato práce se zabývá zpracováním informací a vyhledáváním v nich. Zaměřuje se na textové informace a vyhledávání pomocí signaturních souborů. Hlavní úsilí je směřováno k navržení nové efektivní vyhledávácí metody. Toto může být dosaženo pouze při důkladné znalosti vlastností dat, ve kterých se bude vyhledávat. Proto je proveden podrobný rozbor vlastností textových dat. Pro některé vlastnosti jsou pak navrženy nové analytické aproximace. Není zapomenuto ani na české dokumenty, které mají své specifické vlastnosti. Pro textová data je potřeba také zvolit vhodnou metodu pro vytváření signatur. Metody popsané v literatuře byly analyzovány a patřičně modifikovány pro naše požadavky. Bylo vyzkoušeno mnoho organizací signatur, ale žádná nesplňovala náročné požadavky současných systémů. Proto je navržena nová metoda organizace, která je rychlá při vytváření i při vyhodnocování dotazu, vytvořený pomocný soubor je malý a vyhledávání lze snadno paralelizovat. Změnou několika parametrů lze plynule přejít od efektivnosti invertovaných souborů při vyhledávání až po velkou datovou kompresi signaturních souborů. Pro všechny metody organizací jsou navrženy analytické modely. Tato práce není pouze prací teoretickou, ale návrhy a vytvořené modely jsou také ověřovány experimentálně.

Klíčová slova

Vyhledávání informace, signaturní soubor, invertovaný soubor, Zipfův zákon, dynamický S-index

Vydáno

08.10.2002

Nakladatel

Fakulta informačních technologií VUT v Brně

Místo

Brno

Strany počet

76

URL

BibTex


@phdthesis{BUT66693,
  author="Zdeněk {Korčák}",
  title="Signaturní soubory se signaturami proměnné délky",
  annote="Tato práce se zabývá zpracováním informací a vyhledáváním v nich. Zaměřuje se na textové informace a vyhledávání pomocí signaturních souborů. Hlavní úsilí je směřováno k navržení nové efektivní vyhledávácí metody. Toto může být dosaženo pouze při důkladné znalosti vlastností dat, ve kterých se bude vyhledávat. Proto je proveden podrobný rozbor vlastností textových dat. Pro některé vlastnosti jsou pak navrženy nové analytické aproximace. Není zapomenuto ani na české dokumenty, které mají své specifické vlastnosti. Pro textová data je potřeba také zvolit vhodnou metodu pro vytváření signatur. Metody popsané v literatuře byly analyzovány a patřičně modifikovány pro naše požadavky. Bylo vyzkoušeno mnoho organizací signatur, ale žádná nesplňovala náročné požadavky současných systémů. Proto je navržena nová metoda organizace, která je rychlá při vytváření i při vyhodnocování dotazu, vytvořený pomocný soubor je malý a vyhledávání lze snadno paralelizovat. Změnou několika parametrů lze plynule přejít od efektivnosti invertovaných souborů při vyhledávání až po velkou datovou kompresi signaturních souborů. Pro všechny metody organizací jsou navrženy analytické modely. Tato práce není pouze prací teoretickou, ale návrhy a vytvořené modely jsou také ověřovány experimentálně.",
  address="Fakulta informačních technologií VUT v Brně",
  chapter="66693",
  institution="Fakulta informačních technologií VUT v Brně",
  year="2002",
  month="october",
  pages="0",
  publisher="Fakulta informačních technologií VUT v Brně",
  type="dissertation"
}