diplomová práce

Celogenomové zarovnání pomocí suffixových stromů

Text práce 3.4 MB Příloha 2.49 kB

Autor práce: Ing. Lukáš Klouba

Ak. rok: 2016/2017

Vedoucí: Ing. Denisa Maděránková, Ph.D.

Oponent: Mgr. Ing. Karel Sedlář, Ph.D.

Abstrakt:

Cílem této práce je vytvořit algoritmus, který pomocí sufixových konstrukcí umožní zarovnání
genomu dvou organismů, a implementovat jej do programového prostředí jazyka
R. Práce se věnuje popisu konstrukce sufixových struktur a metodami celogenomového
zarovnání. Výsledkem práce je funkční algoritmus pro celogenomové zarovnání pomocí
sufixových struktur implementovaný v programovém prostředí R a jeho srovnání s podobnými
programy pro celogenomové zarovnání.

Klíčová slova:

sufixové stromy, sufixová pole, Ukkonenův algoritmus, R, celogenomové zarovnání

Termín obhajoby

6.6.2017

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znakmkaCznamka

Klasifikace

C

Průběh obhajoby

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Ing. Maděránková položila otázku: Co to jsou treponemy? Doc. Kolář položil otázku: Jak je možné zrychlit navržený algoritmus? Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta.

Jazyk práce

čeština

Fakulta

Ústav

Studijní obor

Biomedicínské inženýrství a bioinformatika (F-BTB)

Složení komise

doc. Ing. Radim Kolář, Ph.D. (předseda)
doc. Mgr. Ctirad Hofr, Ph.D. (místopředseda)
doc. RNDr. Martin Kovár, Ph.D. (člen)
Ing. Marina Ronzhina, Ph.D. (člen)
Ing. Denisa Maděránková, Ph.D. (člen)
Ing. Vratislav Čmiel, Ph.D. (člen)

Předložená diplomová práce je vypracována na 45 stranách textu od Úvodu po Závěr. Vlastní řešení tématu a výsledky jsou popsány na 19 stranách. V práci je citováno 21 literárních zdrojů, což je na diplomní práci menší počet, ale všechny zdroje jsou hodnotné cizojazyčné odborné publikace.
Po formální stránce je práce až na některé nedostatky na dobré úrovni. Mezi nedostatky patří např.: některé obrázky nejsou zmíněny v textu; některé vývojové diagramy jsou zbytečně moc velké; latinské názvy organismů nejsou psány kurzívou; u obrázků 5.3 až 5.8 není explicitně napsáno, co jsou sekvence 1 a 2, zvláště z toho důvodu, že sekvence 1 má u různých obrázků různé délky.
Konzultací student využíval méně a spíše až ke konci semestru.
Teoretická část práce je přehledně a kvalitně zpracována. Oceňuji konkrétní příklady stromů a polí a přehledné vývojové diagramy. Přehledně je také popsáno vlastní programové řešení.
Ačkoliv se student potýkal s problémy spojenými s horší optimalizací programového prostředí R pro velké výpočty, jeho řešení konstrukce sufixových polí a porovnávání dvou sekvencí je hodnotné. Všechny body zadání byly splněny.

Známka navržená vedoucím: B

Student Lukáš Klouba se ve své práci zabývá náročným úkolem zarovnávání dlouhých sekvencí. Ve své práci nejprve pojednává o sufixových stromech a polích, které pro jejich výhodnější vlastnosti nakonec použil pro návrh vlastního přístupu a následně o algoritmech pro celogenomové zarovnání. Navazuje praktickou částí, kde popisuje vytvořený algoritmus, který porovnává s algoritmy již dostupnými. Až na drobný nedostatek v tom, že na značnou část obrázků a výpisů chybí v textu odkaz, je práce velmi přehledná, a to díky logickému členění a studentově průběžné diskusi jednotlivých témat. Prací se ovšem prolíná systematická chyba, která může za problémy, se kterými se student potýkal v praktické části. Souhlasím, že jazyk R/Bioconductor není na podobný úkol ideální, je však nutné si uvědomit, že se jedná o plnohodnotný jazyk, který má své určité vlastnosti, a ne o programové prostředí s neodladěnými cykly, jak student v práci uvádí. Se standardními třídami R pracuje na principu pass-by-value, při použití for cyklu je tak argument pokaždé kopírován v paměti a implementace je tak velmi neefektivní. To lze ovšem obejít několika způsoby, např. kompilací části kódu pomocí C++, které pracuje na principu pass-by-reference, s využitím balíčku Rcpp. Oceňuji však přístup studenta, který problém vyřešil vlastním návrhem algoritmu postaveného na sufixových polích. Při testování algoritmu se pak kromě zarovnávání celých genomů zabývá i otázkou vyhledávání genů, zde mi chybí srovnání s algoritmem BLAT, který mi na tento typ úkolu připadne nejvhodnější. Zadání práce však považuji za splněné a díky diskusi výsledků i teoretických předpokladů práci po odborné stránce za velmi dobrou. Kvůli formálním nedostatkům jako je množství gramatických chyb, špatně odsazených odstavců za nadpisy a především na magisterský stupeň studia nedostatečnou prací s literaturou (nejednotný styl citací, reference za celé odstavce, chybějící reference u zmíněných nástrojů a celkově malý počet referencí), hodnotím celkově práci pouze jako dobrou.

Známka navržená oponentem: C