Detail předmětu

Paralelní zpracování dat

FEKT-MPC-PZPAk. rok: 2020/2021

Paralelizace na CPU. Paralelizace na GPU (maticové operace, algoritmy hlubokého učení). Technologie Apache Spark, Hadoop, Kafka, Cassandra. Distribuované výpočty pro operace: transformace dat, agregace, klasifikace, regrese, shlukování dat, četné vzory, optimalizace. Streamování dat – základní operace, stavové operace, monitorování. Další technologie pro distribuované výpočty.

Výsledky učení předmětu

Absolventi jsou schopni návrhu a implementace různých forem paralelních systémů pro řešení problémů při zpracování velkých objemů dat. Naučí se techniky pro paralelizaci programů na CPU a GPU a dále techniky pro distribuované výpočty. Zde budou absolventi ovládat technologie Apache Spark, Kafka, Cassaandra a naučí se provádět distribuované zpracování dat s využitím datových operací: transformace, agregace, klasifikace, regrese, shlukování dat, četné vzory.

Doporučená nebo povinná literatura

Holubová, Irena, et al. Big Data a NoSQL databáze. Grada, 2015. (EN)
BARLAS, Gerassimos. Multicore and gpu programming: an integrated approach. ISBN 9780124171374 (EN)

Plánované vzdělávací činnosti a výukové metody

Metody vyučování zahrnují přednášky, cvičení na počítači a laboratoře. Předmět využívá e-learning (Moodle). Student odevzdává jeden samostatný projekt.

Způsob a kritéria hodnocení

závěrečná zkouška

Jazyk výuky

čeština

Osnovy výuky

1. Paralelizace na klasických procesorech - architektura CPU, vlákna, paralelní cykly
2. Paralelizace na grafických procesorech - architektura GPU, základní operace
3. Paralelizace na grafických procesorech - maticové operace
4. Paralelizace na grafických procesorech - algoritmy hlubokého učení
5. Distribuované výpočty - technologie Apache Spark, Hadoop
6. Distribuované výpočty - základní operace (načítání, transformace, agregace dat)
7. Distribuované výpočty - strojové učení (klasifikace, regrese)
8. Distribuované výpočty - strojové učení (shlukování dat, četné vzory)
9. Distribuované výpočty - technologie Kafka, Cassandra
10. Distribuované výpočty - streamovaná data (základní operace)
11. Distribuované výpočty - streamovaná data (stavové operace, monitorování)
12. Distribuované výpočty - optimalizace
13. Ostatní technologie a zařízení pro distribuované výpočty - FPGA, superpočítače, Apache Flink, Blockchain
14. Závěrečná zkouška

Cíl

Cílem kurzu je seznámit studenty s možnostmi paralelizace při zpracování dat s využitím klasických procesorů, grafických procesorů a distribuovaných systémů.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Vymezení kontrolované výuky a způsob jejího provádění stanoví každoročně aktualizovaná vyhláška garanta předmětu.

Zařazení předmětu ve studijních plánech

  • Program MPC-AUD magisterský navazující

    specializace AUDM-TECH , 2. ročník, zimní semestr, 6 kreditů, povinně volitelný

  • Program MPC-TIT magisterský navazující, 2. ročník, zimní semestr, 6 kreditů, povinně volitelný

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Cvičení na počítači

26 hod., povinná

Vyučující / Lektor

Projekt

13 hod., nepovinná

Vyučující / Lektor

eLearning