Detail předmětu

Zpracování řečových signálů (v angličtině)

FIT-ZREeAk. rok: 2019/2020

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.

Výsledky učení předmětu

Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Doporučená nebo povinná literatura

Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7
Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0

Způsob a kritéria hodnocení


  • půlsemestrální test
  • prezentace projektů
  • presentace výsledků na poč. cvičeních

Jazyk výuky

angličtina

Cíl

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.

Zařazení předmětu ve studijních plánech

  • Program IT-MGR-1H magisterský navazující

    obor MGH , libovolný ročník, letní semestr, 5 kreditů, doporučený

  • Program IT-MGR-2 magisterský navazující

    obor MGMe , 1. ročník, letní semestr, 5 kreditů, povinný

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Osnova


  • Úvod, aplikace zpracování řeči, relevatní vědní obory, informační obsah.
  • Číslicové zpracování řečových signálů
  • Tvorba a slyšení řeči, základní pojmy z psychoakustiky, aplikace ve zpracování řeči.
  • Úvod do fonetiky, mezinárodní normy pro označování fonémů.
  • Předzpracování a základní parametry. 
  • Lineárně-prediktivní model, spektrum pomocí lineární predikce. Aplikace LP.
  • Cepstrální analýza, Mel-frekvenční cepstrum
  • Určování základního tónu hlasu
  • Kódování řeči.
  • Rozpoznávání řeči, dynamické programování DTW, skryté Markovovy modely HMM
  • Syntéza řeči
  • Software a knihovny pro zpracování řeči.

Cvičení na počítači

26 hod., povinná

Vyučující / Lektor

Osnova

    V laboratořích (kromě poslední) je používán Matlab.
  • Rámce, okna, spektrum, předzpracování.
  • Lineární predikce (LPC).
  • Určování základního tónu.
  • Kódování.
  • Rozpoznávání - Dynamic time Warping (DTW).
  • Rozpoznávání - skryté Markovovy modely (Hidden Markov Model Toolkit - HTK).