Detail předmětu
Ukládání a příprava dat
FIT-UPAAk. rok: 2020/2021
Předmět se zaměřuje na moderní databázové systémy jako typické zdroje dat pro získávání znalostí a dále na přípravu dat k získávání znalostí. Jedná se o rozšířené relační (objektově-relační, s podporou pro práci s XML a JSON dokumenty), prostorové a NoSQL databázové systémy. Vysvětlený je odpovídající databázový model, způsob práce s daty a některé metody indexace dat. V kontextu výkladu základních kroků procesu získávání znalostí z dat je věnována pozornost popisným charakteristíkám dat a vizualizačním technikám používaným k pochopení dat a jejich vlastností. Dále jsou vysvětleny přístupy řešení typických úloh předzpracování dat pro získávání znalostí, jako je čištění, integrace, transformace, redukce apod. Rovněž jsou prezentovány přístupy k extrakci informace z webu pro účely získávání znalostí, charakterizovány nejčastěji používané jazyky a systémy pro získávání znalostí z dat a je uvedeno několik reálných případových studií.
V rámci předmětu studenti řeší projekt zaměřený na ...
Garant předmětu
Zajišťuje ústav
Výsledky učení předmětu
Studenti budou schopni ukládat a manipulovat data ve vhodných databázových systémech, zkoumat vlastnosti dat a připravit je pro následné modelování v rámci získávání znalostí.
- Student lépe zvládne práci s daty v různých situacích.
- Student se zdokonalí v řešení malých projektů v malém týmu.
Prerekvizity
- Základy relačních databází a jazyka SQL.
- Objektově orientované paradigma.
- Základy jazyka XML.
- Základy výpočetní geometrie.
- Základy statistiky a pravděpodobnosti.
Doporučená nebo povinná literatura
Lecture materials (slides, scripts, etc.)
Lemahieu, W., Broucke, S., Baesens, B.: Principles of Database Management. Cambridge University Press. 2018, 780 p.
Kim, W. (ed.): Modern Database Systems, ACM Press, 1995, ISBN 0-201-59098-0
Melton, J.: Advanced SQL: 1999 - Understanding Object-Relational and Other Advanced. Morgan Kaufmann, 2002, 562 p., ISBN 1-558-60677-7
Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Morgan Kaufmann Publishers, 2012, 703 p., ISBN 978-0-12-381479-1
Skiena, S.S.: The Data Science Design Manual. Springer, 2017, 445 p., ISBN 978-3-319-55443-3.
Shekhar, S., Chawla, S.: Spatial Databases: A Tour, Prentice Hall, 2002/2003, 262 p., ISBN 0-13-017480-7
Gaede, V., Günther, O.: Multidimensional Access Methods, ACM Computing Surveys, Vol. 30, No. 2, 1998, pp. 170-231.
Způsob a kritéria hodnocení
- Půlsemestrální zkouška, u které neexistuje náhradní, či opravný termín.
- Řešení 1 projektu v průběhu semestru a jeho odevzdání ve stanoveném termínu.
Podmínky zápočtu:
Student musí během semestru získat alespoň 50% bodů z možného maxima, tj. 20 bodů ze 40.
Pokud bude odhaleno plagiátorství nebo nedovolená spolupráce na projektech, či u půlsemestrální zkoušky, zápočet nebude udělen a dále bude zváženo zahájení disciplinárního řízení.
Jazyk výuky
čeština
Cíl
Cílem předmětu je vysvětlit historický vývoj databázových technologií, motivaci získávání znalostí z dat a základní kroky procesu získávání znalostí, vysvětlit podstatu, vlastnosti a použití rozšířených relačních a NoSQL databází jako zdrojů dat pro získávání znalostí a vysvětlit přístupy a metody používané pro pochopení dat a přípravu dat pro získávání znalostí.
Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky
- Půlsemestrální písemná zkouška, neexistuje náhradní/opravný termín, omluvené neúčasti řeší garant.
- Formulace dolovací úlohy v předepsaném termínu, omluvené neúčasti řeší cvičící.
- Prezentace výsledků projektu v předepsaném termínu, omluvené neúčasti řeší cvičící.
- Závěrečná zkouška, pro
získání bodů ze zkoušky je nutné zkoušku vypracovat tak, aby byla
hodnocena nejméně 20 body. V opačném případě bude zkouška hodnocena 0
body. Omluvenou neúčast řeší garant.
Zařazení předmětu ve studijních plánech
- Program MITAI magisterský navazující
specializace NISY , libovolný ročník, zimní semestr, 5 kreditů, povinný
specializace NSEC , libovolný ročník, zimní semestr, 5 kreditů, povinný
specializace NMAT , libovolný ročník, zimní semestr, 5 kreditů, povinný
specializace NGRI , libovolný ročník, zimní semestr, 5 kreditů, povinný
specializace NHPC , libovolný ročník, zimní semestr, 5 kreditů, povinný
specializace NVER , libovolný ročník, zimní semestr, 5 kreditů, povinný
specializace NEMB , libovolný ročník, zimní semestr, 5 kreditů, povinný
specializace NBIO , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NISD , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NIDE , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NCPS , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NNET , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NVIZ , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NSEN , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NMAL , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NADE , 1. ročník, zimní semestr, 5 kreditů, povinný
specializace NSPE , 1. ročník, zimní semestr, 5 kreditů, povinný
Typ (způsob) výuky
Přednáška
26 hod., nepovinná
Vyučující / Lektor
Osnova
- Historie vývoje databázových technologií a získávání znalostí z dat, proces získávání znalostí z dat.
- Objektový přístup v databázích.
- NoSQL databáze I - úvod do NoSQL, CAP teorém a BASE, databáze klíč-hodnota a způsob uložení dat, rozdělení (partitioning) a distribuce dat.
- NoSQL databáze II - modely dat v NoSQL databázích (sloupcové, dokumentové a grafové databáze), dotazování a agregace dat, NewSQL databáze.
- Extrakce dat z webu (web scraping).
- Příprava dat - porozumění datům: popisné charakteristiky, vizualizační techniky, korelační analýza.
- Příprava dat - předzpracování I: čištění dat, integrace.
- Příprava dat - předzpracování II: redukce dat a řešení nevyváženosti dat, transformace dat, další úlohy předzpracování.
- Půlsemestrální zkouška.
- Jazyky a systémy pro získávání znalostí z dat, reálné případové studie.
- Podpora pro práci s XML a JSON dokumenty v databázích.
- Prostorové databáze.
- Indexování vícedimenzionálních dat.
Cvičení odborného základu
6 hod., povinná
Vyučující / Lektor
Osnova
DEMO cvičení
Cvičení na počítači
6 hod., povinná
Vyučující / Lektor
Osnova
- Aplikační vazby na objektově relační databáze, aplikace v prostorových databázích
- Multimediální a XML databáze, indexace dat
- NoSQL databáze v aplikacích
Projekt
14 hod., povinná
Vyučující / Lektor
Osnova
- Vytvoření aplikace a demonstrace vlastností práce s nestrukturovanými i strukturovanými daty různé povahy.