dizertační práce

Klasifikace audia hlubokým učením s limitovanými zdroji dat

Text práce 6.59 MB Teze 386.73 kB

Autor práce: Ing. Pavol Harár

Ak. rok: 2019/2020

Vedoucí: Ing. Jiří Mekyska, Ph.D.

Oponenti: doc. Ing. Jan Platoš, Ph.D., prof. Ing. Boris Šimák, CSc.

Abstrakt:

Standardní postupy diagnózy dysfonie klinickým logopedem mají své nevýhody, především tu, že je tento proces velmi subjektivní. Nicméně v poslední době získala popularitu automatická objektivní analýza stavu mluvčího. Vědci úspěšně založili své metody na různých algoritmech strojového učení a ručně vytvořených příznacích. Tyto metody nejsou bohužel přímo škálovatelné na jiné poruchy hlasu, samotný proces tvorby příznaků je pracný a také náročný z hlediska financí a talentu. Na základě předchozích úspěchů může přístup založený na hlubokém učení pomoci překlenout některé problémy se škálovatelností a generalizací, nicméně překážkou je omezené množství trénovacích dat. Jedná se o společný jmenovatel téměř ve všech systémech pro automatizovanou analýzu medicínských dat. Hlavním cílem této práce je výzkum nových přístupů prediktivního modelování založeného na hlubokém učení využívající omezené sady zvukových dat, se zaměřením zejména na hodnocení patologických hlasů. Tato práce je první, která experimentuje s hlubokým učením v této oblasti, a to na dosud největší kombinované databázi dysfonických hlasů, která byla v rámci této práce vytvořena. Předkládá důkladný průzkum veřejně dostupných zdrojů dat a identifikuje jejich limitace. Popisuje návrh nových časově-frekvenčních reprezentací založených na Gaborově transformaci a představuje novou třídu chybových funkcí, které přinášejí reprezentace výstupů prospěšné pro učení. V numerických experimentech demonstruje zlepšení výkonu konvolučních neuronových sítí trénovaných na omezených zvukových datových sadách pomocí tzv. "augmented target loss function" a navržených časově-frekvenčních reprezentací "Gabor" a "Mel scattering".

Klíčová slova:

hluboké učení, patologie hlasu, Gabor scattering, limitovaná data, zvuk

Termín obhajoby

27.11.2019

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znakmkaPznamka

Jazyk práce

angličtina

Fakulta

Ústav

Studijní obor

Teleinformatika (PK-TLI)

Složení komise

prof. Ing. Zdeněk Smékal, CSc. (předseda)
prof. Ing. Ivan Baroňák, Ph.D. (člen)
Ing. Jiří Přinosil, Ph.D. (člen)
doc. Ing. Radim Burget, Ph.D. (člen)
doc. Mgr. Pavel Rajmic, Ph.D. (člen)
prof. Ing. Boris Šimák, CSc. - oponent (člen)
doc. Ing. Jan Platoš, Ph.D. - oponent (člen)

Posudek vedoucího
Ing. Jiří Mekyska, Ph.D.

Ing. Pavol Harár se aktivně zapojil do řady odborných činností zajišťovaných Ústavem telekomunikací, FEKT, Vysokého učení technického v Brně, jako např. vedení výuky předmětů zabývajících se programováním v jazyce JAVA, koordinace studentských prací a řešení výzkumných projektů. Má vysoce profesionální přístup, pracuje pečlivě a efektivně a do Laboratoře analýzy onemocnění mozku (BDALab, http://bdalab.utko.feec.vutbr.cz/) centra SIX přinesl mnoho inovací, především v oblasti strojového učení.

Ing. Pavol Harár během svých studií jasně identifikoval nedostatky v modelování malých medicínských data setů pomocí hlubokého učení a tyto nedostatky ve svém výzkumu úspěšně adresoval. Dosáhl v této oblasti výborných výsledků, což potvrzují mj. 3 publikace v mezinárodních časopisech (jako první autor je na článku publikovaném v časopise ležícím v 1. kvartilu). Dosažené výsledky rovněž pravidelně publikoval na mezinárodních konferencích.

Student má za sebou i velmi aktivní mezinárodní spolupráci. Během svých studií absolvoval měsíční stáž na University of Las Palmas de Gran Canaria pod vedením prof. Jesúse Alonsa-Hernándeze, Ph.D. V rámci této stáže se zapojil do výzkumu automatizované diagnózy řečových/hlasových patologií. Následně absolvoval více jak roční stáž na University of Vienna pod vedením doc. Moniky Dörfler, Ph.D., kde se zapojil do výzkumu nových časově-kmitočtových reprezentací signálů. V této oblasti se velmi dobře etabloval a prohloubil spolupráci mezi oběma univerzitami. Během této stáže rovněž navázal spolupráci s výzkumnými týmy z Austrian Research Institute for Artificial Intelligence (OFAI), Acoustic Research Instititute (ARI) a z Medical University of Vienna. Díky jeho úspěchům na mezinárodním poli dělá dobré jméno jak Vysokému učení technickému v Brně, tak České a Slovenské republice obecně.

Během svého čtyřletého působení na vědeckém poli se zapojil do 2 národních (AZVČR, GAČR) a do 2 mezinárodního projektu (H2020 ve spolupráci se Středoevropským technologickým institutem – CEITEC a Vienna Science and Technology Fund ve spolupráci s University of Vienna). Z hlediska spolupráce s komerční sférou např. organizoval pro studenty FEKT workshop zaměřen na programování, přičemž workshop samotný byl řízen společností Seznam.cz. Ing. Pavol Harár má i velmi dobré didaktické vlastnosti a je oblíbeným pedagogem. Mimo jiné se umístil v Top 10 studenty nejlépe hodnocených pedagogů na VUT v Brně.

Vědecká práce Ing. Pavla Harára má mezinárodní impakt v oblasti strojového učení a v oblasti automatizované diagnózy patologie hlasu. Zde byl mj. první na světě, kdo navrhl nový koncept této diagnózy založený na hlubokém učení. Článek, který na toto téma publikoval (v časopise ležícím v Q1), byl mezinárodní komunitou velmi dobře přijat. Jeho H-index k 7. 11. 2019 je dle WoS 2 (4 záznamy, 6 citací bez autocitací) a H-index dle SCOPUS 3 (6 záznamů, 26 citací bez autocitací). Všechny již zmíněné výsledky svědčí o tom, že Ing. Pavol Harár úspěšně prokázal svoji způsobilost samostatně provádět vědeckou činnost včetně všech souvisejících povinností zahrnujících především předávání nových výsledků svým kolegům, vědecké komunitě i studentům. Současně se stal plně vyzrálou osobností s vysokým potenciálem k samostatné vědecké práci.

Dizertační práci a dosavadní vědecké výsledky Ing. Pavla Harára považuji za dostatečně rozsáhlé a kvalitní k tomu, aby byly předloženy zkušební komisi k posouzení a v případě úspěšné obhajoby doporučuji Ing. Pavlovi Harárovi udělit akademický titul Ph.D.

Posudek oponenta
doc. Ing. Jan Platoš, Ph.D.

viz příloha PDF
Soubor vložený oponentem Velikost
Posudek oponenta [.pdf] 146.99 kB

viz příloha pdf
Soubor vložený oponentem Velikost
Posudek oponenta [.pdf] 211.47 kB