Detail předmětu

Zpracování řečových signálů

FIT-ZREAk. rok: 2013/2014

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.

Jazyk výuky

čeština

Počet kreditů

5

Výsledky učení předmětu

Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Prerekvizity

Nejsou žádné prerekvizity.

Plánované vzdělávací činnosti a výukové metody

Výuka předmětu je realizována formou: Přednáška - 2 vyučovací hodiny týdně, Cvičení odb. zák. - 1 vyučovací hodina týdně, Cvičení na poč. - 1 vyučovací hodina týdně, Projekty - 1 vyučovací hodina týdně.

Způsob a kritéria hodnocení

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Osnovy výuky

Osnova přednášek:
  • Úvod, aplikace zpracování řeči, relevatní vědní obory,  informační obsah.
  • Číslicové zpracování řečových signálů
  • Tvorba a slyšení řeči, základní pojmy z psychoakustiky, aplikace ve zpracování řeči.
  • Úvod do fonetiky, mezinárodní normy pro označování fonémů.
  • Předzpracování a základní parametry. 
  • Lineárně-prediktivní model, spektrum pomocí lineární predikce. Aplikace LP. 
  • Cepstrální analýza, Mel-frekvenční cepstrum
  • Určování základního tónu hlasu
  • Kódování řeči.
  • Rozpoznávání řeči, dynamické programování DTW, skryté Markovovy modely HMM
  • Syntéza řeči
  • Software a knihovny pro zpracování řeči.

Osnova numerických cvičení:
  • Paramatrizace, DTW, HMM.
  • Prezentace projektů.

Osnova počítačových cvičení:
  • V laboratořích (kromě poslední) je používán Matlab.
  • Rámce, okna, spektrum, předzpracování.
  • Lineární predikce (LPC).
  • Určování základního tónu.
  • Kódování.
  • Rozpoznávání - Dynamic time Warping (DTW).
  • Rozpoznávání - skryté Markovovy modely (Hidden Markov Model Toolkit - HTK).

Učební cíle

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

  • půlsemestrální test 14b
  • projekty 29b
  • presentace výsledků na poč. cvičeních 6b

Základní literatura

Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0 

Doporučená literatura

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7

Zařazení předmětu ve studijních plánech

  • Program IT-MGR-2 magisterský navazující

    obor MBS , libovolný ročník, letní semestr, volitelný
    obor MBI , libovolný ročník, letní semestr, povinně volitelný
    obor MIS , libovolný ročník, letní semestr, volitelný
    obor MIN , libovolný ročník, letní semestr, povinně volitelný
    obor MMI , libovolný ročník, letní semestr, povinně volitelný
    obor MMM , libovolný ročník, letní semestr, volitelný
    obor MGM , 1. ročník, letní semestr, povinný
    obor MPV , 2. ročník, letní semestr, povinně volitelný
    obor MSK , 2. ročník, letní semestr, povinně volitelný

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Osnova

  • Úvod, aplikace zpracování řeči, relevatní vědní obory,  informační obsah.
  • Číslicové zpracování řečových signálů
  • Tvorba a slyšení řeči, základní pojmy z psychoakustiky, aplikace ve zpracování řeči.
  • Úvod do fonetiky, mezinárodní normy pro označování fonémů.
  • Předzpracování a základní parametry. 
  • Lineárně-prediktivní model, spektrum pomocí lineární predikce. Aplikace LP. 
  • Cepstrální analýza, Mel-frekvenční cepstrum
  • Určování základního tónu hlasu
  • Kódování řeči.
  • Rozpoznávání řeči, dynamické programování DTW, skryté Markovovy modely HMM
  • Syntéza řeči
  • Software a knihovny pro zpracování řeči.

Cvičení odborného základu

2 hod., nepovinná

Vyučující / Lektor

Osnova

  • Paramatrizace, DTW, HMM.
  • Prezentace projektů.

Cvičení na počítači

12 hod., nepovinná

Vyučující / Lektor

Osnova

    V laboratořích (kromě poslední) je používán Matlab.
  • Rámce, okna, spektrum, předzpracování.
  • Lineární predikce (LPC).
  • Určování základního tónu.
  • Kódování.
  • Rozpoznávání - Dynamic time Warping (DTW).
  • Rozpoznávání - skryté Markovovy modely (Hidden Markov Model Toolkit - HTK).

Projekt

12 hod., nepovinná

Vyučující / Lektor