Detail předmětu

Zpracování řečových signálů

FIT-ZREAk. rok: 2017/2018

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.

Jazyk výuky

čeština

Počet kreditů

5

Výsledky učení předmětu

Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Prerekvizity

Nejsou žádné prerekvizity.

Způsob a kritéria hodnocení

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Osnovy výuky

Osnova přednášek:
  • Úvod, aplikace zpracování řeči, relevatní vědní obory,  informační obsah.
  • Číslicové zpracování řečových signálů
  • Tvorba a slyšení řeči, základní pojmy z psychoakustiky, aplikace ve zpracování řeči.
  • Úvod do fonetiky, mezinárodní normy pro označování fonémů.
  • Předzpracování a základní parametry. 
  • Lineárně-prediktivní model, spektrum pomocí lineární predikce. Aplikace LP. 
  • Cepstrální analýza, Mel-frekvenční cepstrum
  • Určování základního tónu hlasu
  • Kódování řeči.
  • Rozpoznávání řeči, dynamické programování DTW, skryté Markovovy modely HMM
  • Syntéza řeči
  • Software a knihovny pro zpracování řeči.

Osnova numerických cvičení:
  • Paramatrizace, DTW, HMM.
  • Prezentace projektů.

Osnova počítačových cvičení:
  • V laboratořích (kromě poslední) je používán Matlab.
  • Rámce, okna, spektrum, předzpracování.
  • Lineární predikce (LPC).
  • Určování základního tónu.
  • Kódování.
  • Rozpoznávání - Dynamic time Warping (DTW).
  • Rozpoznávání - skryté Markovovy modely (Hidden Markov Model Toolkit - HTK).

Učební cíle

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

  • půlsemestrální test 14b
  • projekty 29b
  • presentace výsledků na poč. cvičeních 6b

Základní literatura

Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0 

Doporučená literatura

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7

Zařazení předmětu ve studijních plánech

  • Program IT-MGR-2 magisterský navazující

    obor MBS , libovolný ročník, letní semestr, volitelný
    obor MBI , libovolný ročník, letní semestr, povinně volitelný
    obor MIS , libovolný ročník, letní semestr, volitelný
    obor MIN , libovolný ročník, letní semestr, povinně volitelný
    obor MMM , libovolný ročník, letní semestr, volitelný
    obor MPV , libovolný ročník, letní semestr, povinně volitelný
    obor MGM , 1. ročník, letní semestr, povinný
    obor MSK , 2. ročník, letní semestr, povinně volitelný