Detail předmětu

Zpracování řečových signálů

FIT-ZREAk. rok: 2018/2019

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.

Výsledky učení předmětu

Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Doporučená nebo povinná literatura

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7 
  • Krčmová, N.: Fonetika a fonologie: zvuková stavba současné češtiny. ISBN 80-210-0137-2. Masarykova univerzita, Brno, 1990
  • Rabiner, L., Juang, B.H.: Fundamentals of Speech Recognition, Signal Processing, Prentice Hall, Engelwood Cliffs, NJ, 1993, ISBN 0-13-015157-2 

Způsob a kritéria hodnocení


  • půlsemestrální test 14b
  • projekt 29b
  • presentace výsledků na poč. cvičeních 6b

Jazyk výuky

čeština

Osnovy výuky

    Osnova přednášek:
    • Úvod, aplikace zpracování řeči, relevatní vědní obory,  informační obsah.
    • Číslicové zpracování řečových signálů
    • Tvorba a slyšení řeči, základní pojmy z psychoakustiky, aplikace ve zpracování řeči.
    • Úvod do fonetiky, mezinárodní normy pro označování fonémů.
    • Předzpracování a základní parametry. 
    • Lineárně-prediktivní model, spektrum pomocí lineární predikce. Aplikace LP. 
    • Cepstrální analýza, Mel-frekvenční cepstrum
    • Určování základního tónu hlasu
    • Kódování řeči.
    • Rozpoznávání řeči, dynamické programování DTW, skryté Markovovy modely HMM
    • Syntéza řeči
    • Software a knihovny pro zpracování řeči.

    Osnova numerických cvičení:
    • Paramatrizace, DTW, HMM.
    • Prezentace projektů.

    Osnova počítačových cvičení:
      V laboratořích (kromě poslední) je používán Matlab.
    • Rámce, okna, spektrum, předzpracování.
    • Lineární predikce (LPC).
    • Určování základního tónu.
    • Kódování.
    • Rozpoznávání - Dynamic time Warping (DTW).
    • Rozpoznávání - skryté Markovovy modely (Hidden Markov Model Toolkit - HTK).

Cíl

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.

Zařazení předmětu ve studijních plánech

  • Program IT-MGR-2 magisterský navazující

    obor MBS , libovolný ročník, letní semestr, 5 kreditů, volitelný
    obor MBI , libovolný ročník, letní semestr, 5 kreditů, povinně volitelný
    obor MIS , libovolný ročník, letní semestr, 5 kreditů, volitelný
    obor MIN , libovolný ročník, letní semestr, 5 kreditů, povinně volitelný
    obor MMM , libovolný ročník, letní semestr, 5 kreditů, volitelný
    obor MPV , libovolný ročník, letní semestr, 5 kreditů, povinně volitelný
    obor MGM , 1. ročník, letní semestr, 5 kreditů, povinný
    obor MSK , 2. ročník, letní semestr, 5 kreditů, povinně volitelný

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Osnova

  1. Úvod, aplikace zpracování řeči. 
  2. Číslicové zpracování řečových signálů.
  3. Tvorba a řeči a její signálový model.
  4. Předzpracování a základní parametry, cepstrum. 
  5. Lineárně-prediktivní model. 
  6. Určování základního tónu hlasu
  7. Kódování řeči - základy.
  8. Kódování řeči CELP. 
  9. Základy rozpoznávání řeči, DTW. 
  10. Skryté Markovovy modely HMM. 
  11. Systémy pro rozpoznávání řeči s velkým slovníkem (LVCSR). 
  12. Rozpoznávání mluvčího a jazyka. Využití neuronových sítí ve zpracování řeči. 
  13. Syntéza řeči z textu. 

Cvičení odb. zák.

2 hod., povinná

Vyučující / Lektor

Osnova

  1. Paramatrizace, DTW, HMM.

Cvičení na poč.

12 hod., povinná

Vyučující / Lektor

Osnova

    V laboratořích (kromě poslední) je používán Matlab.
  1. Úvod. 
  2. Lineární predikce a vektorové kvantování. 
  3. Určování základního tónu a kódování řeči.
  4. Základy klasifikace. 
  5. Rozpoznávání - Dynamic time Warping (DTW).
  6. Rozpoznávání - skryté Markovovy modely (HTK).

Projekty

12 hod., povinná

Vyučující / Lektor

eLearning