Publication detail

Závěrečná zpráva projektu GAČR 102/00/1084: RTD technologie hláskové separace zamaskované v šumu

SMÉKAL, Z.

Original Title

Závěrečná zpráva projektu GAČR 102/00/1084: RTD technologie hláskové separace zamaskované v šumu

English Title

RTD Technology of Sound Separation from Speech Hidden in Noise

Type

report

Language

Czech

Original Abstract

Byla navržena a ověřena modifikovaná jednokanálová metoda spektrálního odečítání s uvažováním fyziologických vlastností lidského sluchu. Bylo zjištěno, že navržený přístup umožňuje na základě modifikace rozdílových parametrů nalézt kompromis mezi mírou potlačení šumu, zkreslením řeči a zejména hladinou tzv. hudebního šumu, který je produktem metody spektrálního odečítání. Dále byla vyvinuta statistická metoda prahování s využitím waveletovy transformace. Řečový signál je svou povahou nestacionární s kvazistacionárními úseky. Ke změnám fonémů přitom dochází v podstatě skokově. Fourierova transformace ve své obvyklé podobě není schopna postihnout vývoj signálu v čase. Krátkodobá Fourierova analýza poskytuje lepší výsledky, ale pevná délka okna nesleduje proměnnou délku fonému a ani různé tempo řeči. Tyto nevýhody řeší waveletová transformace. Je vhodné ji použít jak pro detekci základního tónu, tak i pro potlačení šumu.

English abstract

A modified single-channel method of spectral subtraction was proposed and tested, taking into consideration the physiological properties of human hearing. The proposed approach was found to enable (on the basis of modifying the difference parameters) a compromise between the measure of noise suppression, speech distortion and, in particular, the level of so-called music noise, which is a product of the spectral subtraction method. Further, a statistical method of thresholding was developed, using the wavelet transform. By its nature, the speech signal is non-stationary, with quasi-stationary segments, with changes in phonemes occurring in jumps. In its usual form, the Fourier transform cannot capture the signal development in time. Short-term Fourier analysis yields better results but the fixed window length does not track the variable phoneme length or the different speech paces. The wavelet transform resolves these disadvantages. It can be used with advantage for both the detection of basic tone and noise suppression.

Keywords

Zvýrazňování řeči

Key words in English

Speech enhancement

Authors

SMÉKAL, Z.

Released

20. 12. 2002

BibTex

@techreport{BUT65117,
  author="Zdeněk {Smékal}",
  title="Závěrečná zpráva projektu GAČR 102/00/1084: RTD technologie hláskové separace zamaskované v šumu",
  year="2002"
}