Publication detail

Classification of prokaryotic organisms based on compressed whole genome signals

SEDLÁŘ, K.

Original Title

Klasifikace prokaryotických organismů založená na komprimovaných celogenomových signálech

Czech Title

Klasifikace prokaryotických organismů založená na komprimovaných celogenomových signálech

English Title

Classification of prokaryotic organisms based on compressed whole genome signals

Type

conference paper

Language

cs

Original Abstract

Klasifikace organismů je jednou ze základních otázek biologie. Jelikož hlavním nositelem dědič-nosti je DNA, je porovnávání organismů založeno na molekulárních znacích. Přitom nové techniky sekvenace umožňují levné sestavení celého genomu jednotlivých organismů, zvláště pak prokaryotických, u kterých je genom tvořen jediným kruhových chromozomem. Klasické metody komparace jsou ale založené na vícenásobném zarovnání znakových sekvencí, které je výpočetně velmi náročné, pro více sekvencí s délkou nad 100 kbp prakticky nemožné. Klasifikace se tak provádí na úrovní genů (stovky až jednotky tisíc bp), které ale nemusí dobře popisovat vývoj celého organismu, jen vývoj tohoto konkrétního genu. Při nesprávné volbě genu je pak celá klasifikace chybná. Převodem sekvence znaků na signál kumulované fáze zjistíme, že takový signál je zčásti redundantní a dokáže si uchovat význačné charakteristiky i po masivní ztrátové kompresi. Znaková sekvence tuto vlastnost nemá. Komprimované signály pak umožní porovnávat celé chromozomy nebo i genomy organismů. Přitom jako obdobu zarovnání sekvencí je vhodné pro signály použít dynamické borcení časové osy (dynamic time warping, DTW).

Czech abstract

Klasifikace organismů je jednou ze základních otázek biologie. Jelikož hlavním nositelem dědič-nosti je DNA, je porovnávání organismů založeno na molekulárních znacích. Přitom nové techniky sekvenace umožňují levné sestavení celého genomu jednotlivých organismů, zvláště pak prokaryotických, u kterých je genom tvořen jediným kruhových chromozomem. Klasické metody komparace jsou ale založené na vícenásobném zarovnání znakových sekvencí, které je výpočetně velmi náročné, pro více sekvencí s délkou nad 100 kbp prakticky nemožné. Klasifikace se tak provádí na úrovní genů (stovky až jednotky tisíc bp), které ale nemusí dobře popisovat vývoj celého organismu, jen vývoj tohoto konkrétního genu. Při nesprávné volbě genu je pak celá klasifikace chybná. Převodem sekvence znaků na signál kumulované fáze zjistíme, že takový signál je zčásti redundantní a dokáže si uchovat význačné charakteristiky i po masivní ztrátové kompresi. Znaková sekvence tuto vlastnost nemá. Komprimované signály pak umožní porovnávat celé chromozomy nebo i genomy organismů. Přitom jako obdobu zarovnání sekvencí je vhodné pro signály použít dynamické borcení časové osy (dynamic time warping, DTW).

English abstract

Modern classification of organisms is based on molecular data. These methods rely on multiple alignment of sequences of characters which make them computationally demanding. Only small parts of genomes can be compared in reasonable time. In this paper, the conversion of the whole genome sequences to cumulative phase signals is presented. Dyadic wavelet transform is used for lossy compression of signals by redundant frequency bands elimination. Signal classification is then performed as a cluster analysis using Euclidian metrics where multiple alignment is replaced by dynamic time warping.

Keywords

cumulative phase, whole genome, wavelet transform, dynamic time warping

RIV year

2013

Released

26.04.2013

Publisher

VUT Brno

Location

Brno

ISBN

978-80-214-4694-6

Book

Sborník z konference: Student EEICT 2013

Pages from

185

Pages to

187

Pages count

3

BibTex


@inproceedings{BUT101199,
  author="Karel {Sedlář}",
  title="Klasifikace prokaryotických organismů založená na komprimovaných celogenomových signálech",
  annote="Klasifikace organismů je jednou ze základních otázek biologie. Jelikož hlavním nositelem dědič-nosti je DNA, je porovnávání organismů založeno na molekulárních znacích. Přitom nové techniky sekvenace umožňují levné sestavení celého genomu jednotlivých organismů, zvláště pak prokaryotických, u kterých je genom tvořen jediným kruhových chromozomem. Klasické metody komparace jsou ale založené na vícenásobném zarovnání znakových sekvencí, které je výpočetně velmi náročné, pro více sekvencí s délkou nad 100 kbp prakticky nemožné. Klasifikace se tak provádí na úrovní genů (stovky až jednotky tisíc bp), které ale nemusí dobře popisovat vývoj celého organismu, jen vývoj tohoto konkrétního genu. Při nesprávné volbě genu je pak celá klasifikace chybná. Převodem sekvence znaků na signál kumulované fáze zjistíme, že takový signál je zčásti redundantní a dokáže si uchovat význačné charakteristiky i po masivní ztrátové kompresi. Znaková sekvence tuto vlastnost nemá. Komprimované signály pak umožní porovnávat celé chromozomy nebo i genomy organismů. Přitom jako obdobu zarovnání sekvencí je vhodné pro signály použít dynamické borcení časové osy (dynamic time warping, DTW).",
  address="VUT Brno",
  booktitle="Sborník z konference: Student EEICT 2013",
  chapter="101199",
  howpublished="print",
  institution="VUT Brno",
  year="2013",
  month="april",
  pages="185--187",
  publisher="VUT Brno",
  type="conference paper"
}