Product detail

Software pro sekvenční selekci příznaků

GALÁŽ, Z. MEKYSKA, J. SMÉKAL, Z.

Product type

software

Abstract

V oblasti analýzy biomedicínských signálů (např. zpracování řeči, zpracování ručně psaného projevu, atd.) se často stává, že výsledkem parametrizačního procesu, kterého účelem je kvantifikace užitečné informace obsažené v datech pomocí parametrů (příznaků), je vysoce dimenzionální prostor, který je nazýván také parametrizačním prostorem. Tento prostor popisuje vypočtené parametry pro všechna pozorování a výsledkem parametrizace je tzv. matice parametrů. Následujícím krokem je ve většině případů analýza matice parametrů, která zahrnuje kupříkladu výběr nejvhodnějších parametrů pro další klasifikaci nebo regresi. Výběr množiny parametrů, které obsahují nejvíce užitečné informace a jsou tedy nejvhodnějšími kandidáty pro následnou klasifikaci nebo regresi je důležitým krokem analýzy parametrizačního prostoru. Problematice vysoké dimenze dat byl přiřazen termín „Curse of dimensionality“, který popisuje skutečnost, že použití velkého počtu parametrů (vysoké dimenze matice) může způsobit tzv. přetrénování a v konečném důsledku zhoršit následnou analýzu. Účelem výběru parametrů je tedy tuto množinu zredukovat na statisticky významné parametry, které jsou nejvhodnější pro uvažovanou aplikaci. Software SFFS disponuje možností výběru parametrů na základě klasifikace, kde aktuální verze tohoto softwaru poskytuje 6 různých klasifikačních technik (metoda podpůrných vektorů, naivní Bayesovy sítě, diskriminační analýza, k-nejbližších sousedů, klasifikační stromy a Gaussovy smíšené modely), a také na základě regrese, kde je a aktuální verzi podporován algoritmus klasifikačních a regresních stromů. Software obsahuje také vícero metrik pro hodnocení kvality výběru: 18 metrik pro klasifikaci (klasifikační přesnost, senzitivita, specificita, atd.); 10 metrik pro regresi (gini index, absolutní chyba, střední kvadratická chyba, atd.). Balík navíc obsahuje i funkce potřebné pro cross-validaci (k-fold, leave-one-out) při procesu dopředné selekce. Tento software je celý naprogramován v programovém prostředí MATLAB. K otestování je možné použít přiložené skripty demo_cls.m a demo_reg.m, které načítají data ze souboru test_cls.mat a test_reg.mat (obsahují matici parametrů „feat_matrix“: sloupce popisují parametry; řádky popisují pozorování, a také vektor tzv. labelů „labels“ (pro klasifikaci jsou to skupiny, např. 0/1 – zdravý/nemocný a pro regresi to je spojitá škála hodnot)).

Keywords

Výběr parametrů, klasifikace, regrese

Create date

29.06.2015

Location

http://splab.cz/download/software/software-pro-sekvencni-selekci-priznaku

www