• Noc vědců 2017
  • Události
  • Sem patřím
  • Centrum sportovních aktivit VUT v Brně
  • Výzkumná centra
  • Zvut.cz

  • Pravděpodobně máte vypnutý JavaScript. Některé funkce portálu nebudou funkční.

Závěrečné práce

Fakulta Rok
Jazyk práce
Typ práce
Hledaný text
 hledat v klíčových slovech  hledat v autorovi práce
 hledat v názvu práce  hledat ve vedoucím práce
 hledat v abstraktu  
Poznámka
- háčky, čárky, velká a malá písmena nemají na hledání vliv
- pro náhradu části řetězce použijte znak "*"

Detail závěrečné práce

Název: Celogenomové zarovnání pomocí suffixových stromů
Typ: diplomová práce
Rok: 2016/2017
Student: Ing. Lukáš Klouba
Vedoucí: Ing. Denisa Maděránková, Ph.D.
Oponent: Mgr. Ing. Karel Sedlář
Fakulta: Fakulta elektrotechniky a komunikačních technologií
Ústav: UBMI
Obor studia: Biomedicínské inženýrství a bioinformatika (F-BTB)
Jazyk: čeština
Stav: obhájeno (práce byla úspěšně obhájena)
Charakteristika problematiky úkolu:
Není specifikováno.
Cíle, kterých má být dosaženo:
1) Vypracujte literární rešerši na téma algoritmy pro konstrukci suffixových matic a stromů. 2) Dále vypracujte rešerši metod celogenomového zarovnání. 3) V programovém prostředí R realizujte algoritmus na tvorbu suffixového stromu s lineární časovou náročností. 4) Navrhněte a realizujte metodu zarovnání genomů porovnáním jejich suffixových stromů. 5) Zarovnávací algoritmus otestujte na reálných bakteriálních genomech. 6) Výsledky diskutujte a porovnejte s výsledky zarovnání např. nástrojem Clustal Omega.
Klíčová slova:
sufixové stromy, sufixová pole, Ukkonenův algoritmus, R, celogenomové zarovnání
Abstrakt:
Cílem této práce je vytvořit algoritmus, který pomocí sufixových konstrukcí umožní zarovnání
genomu dvou organismů, a implementovat jej do programového prostředí jazyka
R. Práce se věnuje popisu konstrukce sufixových struktur a metodami celogenomového
zarovnání. Výsledkem práce je funkční algoritmus pro celogenomové zarovnání pomocí
sufixových struktur implementovaný v programovém prostředí R a jeho srovnání s podobnými
programy pro celogenomové zarovnání.
Literatura:
[1] UKKONEN, E. On-line construction of suffix trees. Algorithmica. 1995, 3, 249-260.
[2] DELCHER, A.L.; PHILLIPPY, A.; CARLTON, J.; SALZBERG, S.L. Fast algorithm for large-scale genome alignment and comparison. Nucleic Acids Research. 2002, 30 (11), 2478-2483.
Důvod utajení:
Není specifikováno.

Soubor vložený studentem Velikost Veřejná verze
Hlavní dokument [.pdf] 3.4 MB ano
Příloha 2.49 kB ano

Hodnocení vedoucího - Ing. Denisa Maděránková, Ph.D.:
Předložená diplomová práce je vypracována na 45 stranách textu od Úvodu po Závěr. Vlastní řešení tématu a výsledky jsou popsány na 19 stranách. V práci je citováno 21 literárních zdrojů, což je na diplomní práci menší počet, ale všechny zdroje jsou hodnotné cizojazyčné odborné publikace.
Po formální stránce je práce až na některé nedostatky na dobré úrovni. Mezi nedostatky patří např.: některé obrázky nejsou zmíněny v textu; některé vývojové diagramy jsou zbytečně moc velké; latinské názvy organismů nejsou psány kurzívou; u obrázků 5.3 až 5.8 není explicitně napsáno, co jsou sekvence 1 a 2, zvláště z toho důvodu, že sekvence 1 má u různých obrázků různé délky.
Konzultací student využíval méně a spíše až ke konci semestru.
Teoretická část práce je přehledně a kvalitně zpracována. Oceňuji konkrétní příklady stromů a polí a přehledné vývojové diagramy. Přehledně je také popsáno vlastní programové řešení.
Ačkoliv se student potýkal s problémy spojenými s horší optimalizací programového prostředí R pro velké výpočty, jeho řešení konstrukce sufixových polí a porovnávání dvou sekvencí je hodnotné. Všechny body zadání byly splněny.

výsledná známka: B
výsledný počet bodů: 80


Hodnocení oponenta - Mgr. Ing. Karel Sedlář:
Student Lukáš Klouba se ve své práci zabývá náročným úkolem zarovnávání dlouhých sekvencí. Ve své práci nejprve pojednává o sufixových stromech a polích, které pro jejich výhodnější vlastnosti nakonec použil pro návrh vlastního přístupu a následně o algoritmech pro celogenomové zarovnání. Navazuje praktickou částí, kde popisuje vytvořený algoritmus, který porovnává s algoritmy již dostupnými. Až na drobný nedostatek v tom, že na značnou část obrázků a výpisů chybí v textu odkaz, je práce velmi přehledná, a to díky logickému členění a studentově průběžné diskusi jednotlivých témat. Prací se ovšem prolíná systematická chyba, která může za problémy, se kterými se student potýkal v praktické části. Souhlasím, že jazyk R/Bioconductor není na podobný úkol ideální, je však nutné si uvědomit, že se jedná o plnohodnotný jazyk, který má své určité vlastnosti, a ne o programové prostředí s neodladěnými cykly, jak student v práci uvádí. Se standardními třídami R pracuje na principu pass-by-value, při použití for cyklu je tak argument pokaždé kopírován v paměti a implementace je tak velmi neefektivní. To lze ovšem obejít několika způsoby, např. kompilací části kódu pomocí C++, které pracuje na principu pass-by-reference, s využitím balíčku Rcpp. Oceňuji však přístup studenta, který problém vyřešil vlastním návrhem algoritmu postaveného na sufixových polích. Při testování algoritmu se pak kromě zarovnávání celých genomů zabývá i otázkou vyhledávání genů, zde mi chybí srovnání s algoritmem BLAT, který mi na tento typ úkolu připadne nejvhodnější. Zadání práce však považuji za splněné a díky diskusi výsledků i teoretických předpokladů práci po odborné stránce za velmi dobrou. Kvůli formálním nedostatkům jako je množství gramatických chyb, špatně odsazených odstavců za nadpisy a především na magisterský stupeň studia nedostatečnou prací s literaturou (nejednotný styl citací, reference za celé odstavce, chybějící reference u zmíněných nástrojů a celkově malý počet referencí), hodnotím celkově práci pouze jako dobrou.

výsledná známka: C
výsledný počet bodů: 76


Tip: zkrácený odkaz na závěrečnou práci je také: https://www.vutbr.cz/studium/zaverecne-prace?zp_id=102362

Zpět na seznam