Detail předmětu

Zpracování řeči a audia člověkem a počítačem

FIT-ASDAk. rok: 2020/2021

Třídenní intenzivní kurz

Interakce mezi lidmi a stroji může být podstatně zkvalitněna, použijeme-li ke komunikaci lidskou řeč. Znalost lidských schopností při zpracování řeči jako přirozeného komunikačního signálu může být velmi užitečná při návrhu technik pro jeho automatické zpracování.

Okruhy otázek k SDZ:

  1. Která z vlastností lidského slyšení se používá téměř u všech existujících technik rozpoznávání řeči?

    Popište strukturu lidského ucha.

    Jak lidsky sluch provádí frekvenční analýzu zvuku?

    Jak ucho sděluje informace z ucha lidskému mozku?

    Jaká je jedna z důležitých vlastností frekvenčního rozlišení lidského sluchu? Jak se liší od frekvenčního rozlišení Fourierovy analýzy?

    Co je maskováni lidského sluchu? K čemu může být dobré a proč?

    Co je simultánní maskováni a dopředné maskování v lidském sluchu?
  2. Na čem závisí hlasitost zvuku?
  3. Na kterých frekvencích slyšíme nejlépe?
  4. Popište některé techniky analýzy řeči, které využívají pokročilejší znalosti lidského sluchu.

Výsledky učení předmětu

Studenti se naučí interpretovat empirická data včetně technik pro
jejich modelování a pro použití příslušných modelů při návrhu strojových
rozhraní. Zvláštní důraz je kladen na soudobý aktivní výzkum v oblasti
modelu lidského zpracování řeči.

Doporučená nebo povinná literatura

Ben Gold, Nelson Morgan, Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Wiley-Interscience; 2nd Edition, 2011.
Brian Moore: An Introduction to the Psychology of Hearing, 6th Edition, BRILL 2013.
Simon Haykin: Neural Networks And Learning Machines, Pearson Education; Third edition, 2016.

Jazyk výuky

čeština, angličtina

Cíl

Kurz vysvětlí koncepci signálu coby nosiče informace, základní principy
zpracování kognitivních signálů a uvede posluchače do některých
důležitých principů lidského zpracování řeči a obrazu.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Ústní zkouška.

Zařazení předmětu ve studijních plánech

  • Program VTI-DR-4 doktorský

    obor DVI4 , libovolný ročník, zimní semestr, 0 kreditů, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , libovolný ročník, zimní semestr, 0 kreditů, volitelný

Typ (způsob) výuky

 

Přednáška

39 hod., nepovinná

Vyučující / Lektor

Osnova

První den

  • Úvod do zpracování kognitivních signálů nesoucích informaci - lidská řeč. 
  • Základy teorie informace a klasifikace vzorů.
  • Základy tvorby řeči.
  • Standardní techniky pro zpracování řeči (krátkodobá spektrální analýza, filtrace pásmovými propustmi, Fourierova transformace a jí podobné metody zpracování signálu, kepstrum, lineární predikce).

Druhý den

  • Základy zpracování zvuku člověkem.
  • Vnímání výšky tónu a jeho hlasitosti.
  • Vlastnosti sluchu ve spektrální a časové oblasti.
  • Fenomén maskování jednoho zvuku druhým.
  • Důležité poznatky o  zpracování řeči člověkem.

 Třetí den

  • Úvod do technik zpracování používajících modely lidského sluchu.
  • Lineární diskriminační analýza a její použití při návrhu spektrální analýzy.
  • Metody zpracování signálu využívající časové oblasti.
  • Dynamické příznaky odvozené ze signálu.
  • Zpracování řeči využívající principů frekvenčních kanálů.
  • Rozpoznávání z časových obrazců a nelineární diskriminační techniky při zpracování řeči.

Konzultace v kombinovaném studiu

26 hod., nepovinná

Vyučující / Lektor

eLearning