Detail publikace
Signaturní soubory se signaturami proměnné délky
KORČÁK, Z.
Originální název
Signaturní soubory se signaturami proměnné délky
Český název
Signaturní soubory se signaturami proměnné délky
Typ
dizertace
Jazyk
cs
Originální abstrakt
Tato práce se zabývá zpracováním informací a vyhledáváním v nich. Zaměřuje se na textové informace a vyhledávání pomocí signaturních souborů. Hlavní úsilí je směřováno k navržení nové efektivní vyhledávácí metody. Toto může být dosaženo pouze při důkladné znalosti vlastností dat, ve kterých se bude vyhledávat. Proto je proveden podrobný rozbor vlastností textových dat. Pro některé vlastnosti jsou pak navrženy nové analytické aproximace. Není zapomenuto ani na české dokumenty, které mají své specifické vlastnosti. Pro textová data je potřeba také zvolit vhodnou metodu pro vytváření signatur. Metody popsané v literatuře byly analyzovány a patřičně modifikovány pro naše požadavky. Bylo vyzkoušeno mnoho organizací signatur, ale žádná nesplňovala náročné požadavky současných systémů. Proto je navržena nová metoda organizace, která je rychlá při vytváření i při vyhodnocování dotazu, vytvořený pomocný soubor je malý a vyhledávání lze snadno paralelizovat. Změnou několika parametrů lze plynule přejít od efektivnosti invertovaných souborů při vyhledávání až po velkou datovou kompresi signaturních souborů. Pro všechny metody organizací jsou navrženy analytické modely. Tato práce není pouze prací teoretickou, ale návrhy a vytvořené modely jsou také ověřovány experimentálně.
Český abstrakt
Tato práce se zabývá zpracováním informací a vyhledáváním v nich. Zaměřuje se na textové informace a vyhledávání pomocí signaturních souborů. Hlavní úsilí je směřováno k navržení nové efektivní vyhledávácí metody. Toto může být dosaženo pouze při důkladné znalosti vlastností dat, ve kterých se bude vyhledávat. Proto je proveden podrobný rozbor vlastností textových dat. Pro některé vlastnosti jsou pak navrženy nové analytické aproximace. Není zapomenuto ani na české dokumenty, které mají své specifické vlastnosti. Pro textová data je potřeba také zvolit vhodnou metodu pro vytváření signatur. Metody popsané v literatuře byly analyzovány a patřičně modifikovány pro naše požadavky. Bylo vyzkoušeno mnoho organizací signatur, ale žádná nesplňovala náročné požadavky současných systémů. Proto je navržena nová metoda organizace, která je rychlá při vytváření i při vyhodnocování dotazu, vytvořený pomocný soubor je malý a vyhledávání lze snadno paralelizovat. Změnou několika parametrů lze plynule přejít od efektivnosti invertovaných souborů při vyhledávání až po velkou datovou kompresi signaturních souborů. Pro všechny metody organizací jsou navrženy analytické modely. Tato práce není pouze prací teoretickou, ale návrhy a vytvořené modely jsou také ověřovány experimentálně.
Klíčová slova
Vyhledávání informace, signaturní soubor, invertovaný soubor, Zipfův zákon, dynamický S-index
Vydáno
08.10.2002
Nakladatel
Fakulta informačních technologií VUT v Brně
Místo
Brno
Strany počet
76
URL
Dokumenty
BibTex
@phdthesis{BUT66693,
author="Zdeněk {Korčák}",
title="Signaturní soubory se signaturami proměnné délky",
annote="Tato práce se zabývá zpracováním informací a vyhledáváním v nich. Zaměřuje se na textové informace a vyhledávání pomocí signaturních souborů. Hlavní úsilí je směřováno k navržení nové efektivní vyhledávácí metody. Toto může být dosaženo pouze při důkladné znalosti vlastností dat, ve kterých se bude vyhledávat. Proto je proveden podrobný rozbor vlastností textových dat. Pro některé vlastnosti jsou pak navrženy nové analytické aproximace. Není zapomenuto ani na české dokumenty, které mají své specifické vlastnosti. Pro textová data je potřeba také zvolit vhodnou metodu pro vytváření signatur. Metody popsané v literatuře byly analyzovány a patřičně modifikovány pro naše požadavky. Bylo vyzkoušeno mnoho organizací signatur, ale žádná nesplňovala náročné požadavky současných systémů. Proto je navržena nová metoda organizace, která je rychlá při vytváření i při vyhodnocování dotazu, vytvořený pomocný soubor je malý a vyhledávání lze snadno paralelizovat. Změnou několika parametrů lze plynule přejít od efektivnosti invertovaných souborů při vyhledávání až po velkou datovou kompresi signaturních souborů. Pro všechny metody organizací jsou navrženy analytické modely. Tato práce není pouze prací teoretickou, ale návrhy a vytvořené modely jsou také ověřovány experimentálně.",
address="Fakulta informačních technologií VUT v Brně",
chapter="66693",
institution="Fakulta informačních technologií VUT v Brně",
year="2002",
month="october",
pages="0",
publisher="Fakulta informačních technologií VUT v Brně",
type="dissertation"
}