Detail publikace

Klasifikace prokaryotických organismů založená na komprimovaných celogenomových signálech

SEDLÁŘ, K.

Originální název

Klasifikace prokaryotických organismů založená na komprimovaných celogenomových signálech

Český název

Klasifikace prokaryotických organismů založená na komprimovaných celogenomových signálech

Anglický název

Classification of prokaryotic organisms based on compressed whole genome signals

Typ

článek ve sborníku

Jazyk

cs

Originální abstrakt

Klasifikace organismů je jednou ze základních otázek biologie. Jelikož hlavním nositelem dědič-nosti je DNA, je porovnávání organismů založeno na molekulárních znacích. Přitom nové techniky sekvenace umožňují levné sestavení celého genomu jednotlivých organismů, zvláště pak prokaryotických, u kterých je genom tvořen jediným kruhových chromozomem. Klasické metody komparace jsou ale založené na vícenásobném zarovnání znakových sekvencí, které je výpočetně velmi náročné, pro více sekvencí s délkou nad 100 kbp prakticky nemožné. Klasifikace se tak provádí na úrovní genů (stovky až jednotky tisíc bp), které ale nemusí dobře popisovat vývoj celého organismu, jen vývoj tohoto konkrétního genu. Při nesprávné volbě genu je pak celá klasifikace chybná. Převodem sekvence znaků na signál kumulované fáze zjistíme, že takový signál je zčásti redundantní a dokáže si uchovat význačné charakteristiky i po masivní ztrátové kompresi. Znaková sekvence tuto vlastnost nemá. Komprimované signály pak umožní porovnávat celé chromozomy nebo i genomy organismů. Přitom jako obdobu zarovnání sekvencí je vhodné pro signály použít dynamické borcení časové osy (dynamic time warping, DTW).

Český abstrakt

Klasifikace organismů je jednou ze základních otázek biologie. Jelikož hlavním nositelem dědič-nosti je DNA, je porovnávání organismů založeno na molekulárních znacích. Přitom nové techniky sekvenace umožňují levné sestavení celého genomu jednotlivých organismů, zvláště pak prokaryotických, u kterých je genom tvořen jediným kruhových chromozomem. Klasické metody komparace jsou ale založené na vícenásobném zarovnání znakových sekvencí, které je výpočetně velmi náročné, pro více sekvencí s délkou nad 100 kbp prakticky nemožné. Klasifikace se tak provádí na úrovní genů (stovky až jednotky tisíc bp), které ale nemusí dobře popisovat vývoj celého organismu, jen vývoj tohoto konkrétního genu. Při nesprávné volbě genu je pak celá klasifikace chybná. Převodem sekvence znaků na signál kumulované fáze zjistíme, že takový signál je zčásti redundantní a dokáže si uchovat význačné charakteristiky i po masivní ztrátové kompresi. Znaková sekvence tuto vlastnost nemá. Komprimované signály pak umožní porovnávat celé chromozomy nebo i genomy organismů. Přitom jako obdobu zarovnání sekvencí je vhodné pro signály použít dynamické borcení časové osy (dynamic time warping, DTW).

Anglický abstrakt

Modern classification of organisms is based on molecular data. These methods rely on multiple alignment of sequences of characters which make them computationally demanding. Only small parts of genomes can be compared in reasonable time. In this paper, the conversion of the whole genome sequences to cumulative phase signals is presented. Dyadic wavelet transform is used for lossy compression of signals by redundant frequency bands elimination. Signal classification is then performed as a cluster analysis using Euclidian metrics where multiple alignment is replaced by dynamic time warping.

Klíčová slova

kumulovaná fáze, celý genom, vlnková transformace, dynamické borcení časové osy

Rok RIV

2013

Vydáno

26.04.2013

Nakladatel

VUT Brno

Místo

Brno

ISBN

978-80-214-4694-6

Kniha

Sborník z konference: Student EEICT 2013

Strany od

185

Strany do

187

Strany počet

3

BibTex


@inproceedings{BUT101199,
  author="Karel {Sedlář}",
  title="Klasifikace prokaryotických organismů založená na komprimovaných celogenomových signálech",
  annote="Klasifikace organismů je jednou ze základních otázek biologie. Jelikož hlavním nositelem dědič-nosti je DNA, je porovnávání organismů založeno na molekulárních znacích. Přitom nové techniky sekvenace umožňují levné sestavení celého genomu jednotlivých organismů, zvláště pak prokaryotických, u kterých je genom tvořen jediným kruhových chromozomem. Klasické metody komparace jsou ale založené na vícenásobném zarovnání znakových sekvencí, které je výpočetně velmi náročné, pro více sekvencí s délkou nad 100 kbp prakticky nemožné. Klasifikace se tak provádí na úrovní genů (stovky až jednotky tisíc bp), které ale nemusí dobře popisovat vývoj celého organismu, jen vývoj tohoto konkrétního genu. Při nesprávné volbě genu je pak celá klasifikace chybná. Převodem sekvence znaků na signál kumulované fáze zjistíme, že takový signál je zčásti redundantní a dokáže si uchovat význačné charakteristiky i po masivní ztrátové kompresi. Znaková sekvence tuto vlastnost nemá. Komprimované signály pak umožní porovnávat celé chromozomy nebo i genomy organismů. Přitom jako obdobu zarovnání sekvencí je vhodné pro signály použít dynamické borcení časové osy (dynamic time warping, DTW).",
  address="VUT Brno",
  booktitle="Sborník z konference: Student EEICT 2013",
  chapter="101199",
  howpublished="print",
  institution="VUT Brno",
  year="2013",
  month="april",
  pages="185--187",
  publisher="VUT Brno",
  type="conference paper"
}