Sdílet prostřednictvím


Výběr funkcí na základě filtrů

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Identifikuje funkce v datové sadě s největším prediktivním výkonem.

Kategorie: moduly výběru funkcí

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak použít modul výběru funkcí založený na filtrech v Machine Learning studiu (classic) k identifikaci sloupců ve vstupní datové sadě, které mají největší prediktivní výkon.

Obecně platí, že Výběr funkcí odkazuje na proces použití statistických testů na vstupy, které mají zadaný výstup, k určení, které sloupce mají více prediktivní výstup. Modul výběru funkcí založený na filtrech poskytuje pro výběr více než jednu ze způsobů výběru funkcí, včetně korelačních metod, jako je například korelace Pearsons nebo Kendall, vzájemné skóre informací a hodnoty chí-kvadrát. Machine Learning také podporuje počty hodnot funkcí jako indikátor hodnoty informací.

Když použijete modul výběru funkce založený na filtrech , zadáte datovou sadu, určíte sloupec, který obsahuje popisek nebo závislou proměnnou, a pak zadáte jedinou metodu, která se má použít při měření důležitosti funkce.

Modul výstupuje datovou sadu, která obsahuje nejlepší sloupce funkce seřazené podle prediktivního výkonu. Také Vypíše názvy funkcí a jejich skóre z vybrané metriky.

Co je výběr funkcí založených na filtrech a proč ho používat?

Tento modul pro výběr funkcí se nazývá "založený na filtrech", protože vybranou metriku můžete použít k identifikaci nepodstatných atributů a odfiltrovat redundantní sloupce z modelu. Zvolíte jednu statistickou míru, která bude vyhovovat vašim datům, a modul vypočítá skóre pro každý sloupec funkce. Sloupce se vrátí podle skóre jejich funkcí.

Výběrem správných funkcí můžete potenciálně zlepšit přesnost a efektivitu klasifikace.

Obvykle používáte pouze sloupce s nejlepším skóre k sestavení prediktivního modelu. Sloupce s nedostatečným skóre výběru funkcí mohou být ponechány v datové sadě a při sestavování modelu ignorovány.

Volba metriky výběru funkcí

Výběr funkcí založených na filtrech poskytuje celou řadu metrik pro vyhodnocení hodnoty informací v jednotlivých sloupcích. V této části najdete obecný popis jednotlivých metrik a jejich použití. Další požadavky na použití jednotlivých metrik jsou uvedeny v části technické poznámky a v pokynech ke konfiguraci jednotlivých modulů.

  • Korelace Pearsonova

    Korelační korelace Pearsonova nebo korelačního koeficientu Pearsonova je také známo ve statistických modelech jako r hodnota. U všech dvou proměnných vrátí hodnotu, která označuje sílu korelace.

    Korelační koeficient Pearsonova je vypočítán tím, že přijímá koodchylku dvou proměnných a vydělí součin jejich směrodatných odchylek. Koeficient není ovlivněn změnami měřítka ve dvou proměnných.

  • Vzájemné informace

    Skóre vzájemného údaje měří příspěvek proměnné k omezení nejistoty na hodnotu jiné proměnné: konkrétně popisek. Mnohé změny skóre vzájemného hodnocení jsou navrženy tak, aby vyhovovaly různým distribucím.

    Vzájemné skóre informací je užitečné zejména při výběru funkcí, protože maximalizuje vzájemné informace mezi společnou distribucí a cílovými proměnnými v datových sadách s mnoha dimenzemi.

  • Korelace Kendall

    Korelace klasifikace Kendall je jednou z několika statistik, které měří vztah mezi pořadím různých pořadových proměnných nebo různými hodnoceními stejné proměnné. Jinými slovy, měří podobnost pořadí řazení podle množství. Tento koeficient i korelační koeficient Spearman jsou navržené pro použití s nestandardními a nenormálně distribuovanými daty, která nejsou typu parametry.

  • Korelace Spearman

    Koeficient Spearman je neparametrní míra statistické závislosti mezi dvěma proměnnými a je někdy označena řeckým písmenem ró. Koeficient Spearman vyjadřuje míru, na kterou se rovnoměrně zvětšující vztahují dvě proměnné. Nazývá se taky korelace klasifikace Spearman, protože se dá použít s ordinálními proměnnými.

  • Chí na druhou

    Obousměrný test chí-kvadrát je statistická metoda, která měří způsob, jakým se očekává, že se očekávané hodnoty blíží skutečným výsledkům. Metoda předpokládá, že proměnné jsou náhodné a vykresleny z adekvátního vzorku nezávislých proměnných. Výsledné statistiky chí-kvadrát ukazují, jak daleko jsou výsledky z očekávaného (náhodného) výsledku.

  • Fisherský výsledek

    Fisherský výsledek (označovaný také jako Fisherská metoda nebo mezihodnocení Fisher v kombinaci) se někdy označuje jako skóre informací, protože představuje množství informací, které jedna proměnná poskytuje na neznámém parametru, na kterém závisí.

    Skóre je vypočítáno měřením odchylky mezi očekávanou hodnotou informací a zjištěnou hodnotou. Při minimalizaci odchylky se informace maximalizují. Vzhledem k tomu, že je očekávané skóre nula, jsou údaje o Fisherích také odchylkou skóre.

  • Podle počtu

    Výběr funkcí založených na počtu je jednoduchý, ale poměrně výkonný způsob vyhledávání informací o předpovídat. Základní nápad, který je založený na počtu featurization založených na počtu, je jednoduchý: počítáním počtů jednotlivých hodnot ve sloupci získáte představu o rozdělení a hmotnosti hodnot a z toho, které sloupce obsahují nejdůležitější informace.

    Výběr funkcí na základě počtu je metoda výběru funkcí bez dohledu, což znamená, že nepotřebujete sloupec popisku. Tato metoda také snižuje dimenzionální velikost dat, aniž by došlo ke ztrátě informací.

    další informace o tom, jak se vytvářejí funkce založené na počtu a proč jsou užitečné ve službě machine learning, najdete v tématu Učení s počty.

Tip

Pokud pro metodu výběru vlastní funkce potřebujete jinou možnost, použijte modul spuštění skriptu jazyka R .

Jak nakonfigurovat výběr funkcí Filter-Based

Tento modul poskytuje dvě metody pro určení skóre funkcí:

Generování skóre funkcí pomocí tradiční statistické metriky

  1. Přidejte modul výběru funkce založený na filtrech k experimentu. Můžete ji najít v kategorii výběru funkcí v nástroji Studio (Classic).

  2. Připojení vstupní datovou sadu, která obsahuje alespoň dva sloupce, které jsou potenciálními funkcemi.

    Aby se zajistilo, že by se měl analyzovat sloupec a vygenerovalo se skóre funkce, použijte modul Upravit metadata a nastavte atribut infeature .

    Důležité

    Ujistěte se, že sloupce, které poskytujete jako vstup, jsou potenciální funkce. Například sloupec, který obsahuje jednu hodnotu, nemá žádnou hodnotu informace.

    Pokud víte, že existují sloupce, které by měly špatné funkce, můžete je odebrat z výběru sloupce. Můžete také použít modul Upravit metadata a označit ho jako kategorií.

  3. V případě metody bodování funkcívyberte jednu z následujících vytvořených statistických metod, které se použijí při výpočtu skóre.

    Metoda Požadavky
    Korelace Pearsonova Popisek může být text nebo číslo. Funkce musí být číselné.
    Vzájemné informace Popisky a funkce mohou být textové nebo číselné. Tuto metodu použijte pro výpočet důležitosti funkcí pro dva kategorií sloupce.
    Korelace Kendall Popisek může být text nebo číslo, ale funkce musí být číselné.
    Korelace Spearman Popisek může být text nebo číslo, ale funkce musí být číselné.
    Chí na druhou Popisky a funkce mohou být textové nebo číselné. Tuto metodu použijte pro výpočet důležitosti funkcí pro dva sloupce kategorií.
    Fisher Score Popisek může být text nebo číselný, ale funkce musí být číselné.
    Počty Viz: Použití Count-Based funkcí

    Tip

    Pokud vybranou metriku změníte, všechny ostatní výběry se resetují, proto tuto možnost nastavte jako první.)

  4. Výběrem možnosti Pracovat se sloupci funkcí pouze vygenerujte skóre pouze pro sloupce, které byly dříve označeny jako funkce.

    Pokud výběr této možnosti zrušíte, modul vytvoří skóre pro libovolný sloupec, který jinak splňuje kritéria, až do počtu sloupců zadaných v části Počet požadovaných funkcí.

  5. V poli Cílový sloupec klikněte na Spustit selektor sloupců a zvolte sloupec popisku podle názvu nebo podle jeho indexu (indexy jsou založené na jednom).

    Sloupec popisku je vyžadován pro všechny metody, které zahrnují statistickou korelaci. Pokud zvolíte sloupec s popiskem nebo více sloupců popisků, modul vrátí chybu při návrhu.

  6. Do pole Počet požadovaných funkcí zadejte počet sloupců funkcí, které se mají vrátit jako výsledek.

    • Minimální počet funkcí, které můžete zadat, je 1, ale doporučujeme tuto hodnotu zvýšit.

    • Pokud je zadaný počet požadovaných funkcí větší než počet sloupců v datové sadě, vrátí se všechny funkce, a to i ty, které mají nulové skóre.

    • Pokud zadáte méně sloupců výsledků, než ve kterých jsou sloupce funkcí, funkce se seřadí sestupně podle skóre a vrátí se pouze hlavní funkce.

  7. Spusťte experiment nebo vyberte modul Výběr funkcí na základě filtru a pak klikněte na Spustit vybrané.

Výsledky výběru funkcí

Po dokončení zpracování:

  • Pokud chcete zobrazit úplný seznam analyzovaných sloupců funkcí a jejich skóre, klikněte pravým tlačítkem na modul, vyberte Funkce a klikněte na Vizualizovat.

  • Pokud chcete zobrazit datovou sadu, která se generuje na základě kritérií výběru funkcí, klikněte pravým tlačítkem na modul, vyberte Datová sada a klikněte na Vizualizovat.

Pokud datová sada obsahuje méně sloupců, než jste očekávali, zkontrolujte nastavení modulu a datové typy sloupců poskytovaných jako vstup. Pokud například nastavíte Počet požadovaných funkcí na 1, výstupní datová sada bude obsahovat jen dva sloupce: sloupec popisků a sloupec s nejřadnějšími funkcemi.

Použití výběru funkcí na základě počtu

  1. Přidejte do experimentu modul Výběr funkcí na základě filtru. Najdete ho v seznamu modulů v sadě Studio (classic) ve skupině Výběr funkcí.

  2. Připojení vstupní datovou sadu, která obsahuje alespoň dva sloupce, které jsou možné funkce.

  3. V seznamu statistických metod v rozevíracím seznamu Metoda bodování funkcí vyberte Počet na základě.

  4. V části Minimální počet nenulových prvků určete minimální počet sloupců prvků, které se mají zahrnout do výstupu.

    Ve výchozím nastavení je výstupem modulu všechny sloupce, které splňují požadavky. Modul nemůže zobrazit výstup žádného sloupce, který získá skóre nula.

  5. Spusťte experiment nebo vyberte pouze modul a klikněte na Spustit vybrané.

Výsledky výběru funkcí na základě počtu

  • Pokud chcete zobrazit seznam sloupců funkcí s jejich skóre, klikněte pravým tlačítkem na modul, vyberte Funkce a klikněte naVizualizovat .
  • Pokud chcete zobrazit datovou sadu obsahující analyzované sloupce, klikněte pravým tlačítkem na modul, vyberte Datová sada a klikněte na Vizualizovat.

Na rozdíl od jiných metod metoda výběru funkce Na základě počtu seřadí proměnné podle nejvyššího skóre, ale vrátí všechny proměnné s nenulovou hodnotou v původním pořadí.

Řetězcové funkce vždy mají nulové (0) skóre, a proto nejsou výstupem.

Příklady

Příklady použití výběru funkcí najdete v Azure AI Gallery:

  • Klasifikace textu; Ve třetím kroku této ukázky se k identifikaci 15 nejlepších funkcí používá výběr funkcí na základě filtru. Hashování funkcí se používá k převodu textových dokumentů na číselné vektory. Pearsonova korelace se pak používá u vektorových vlastností.

  • Výběr funkcí strojového učení a přípravu funkcí: Tento článek obsahuje úvod do výběru funkcí a přípravu funkcí ve strojovém učení.

Pokud chcete zobrazit příklady skóre funkcí, podívejte se na tabulku porovnání skóre.

Technické poznámky

Tento modul najdete v kategorii Filtryv části Transformace dat.

Podrobnosti o implementaci

Pokud použijete Pearsonovou korelaci, Kendall Correlation nebo Spearmanův korelační znak u číselné funkce a popisek kategorií, skóre funkce se vypočítá takto:

  1. Pro každou úroveň ve sloupci kategorií vypočítá podmíněný průměr číselného sloupce.

  2. Korelovat sloupec podmíněných znamená s číselným sloupcem.

Požadavky

  • Skóre výběru funkce nelze vygenerovat pro žádný sloupec, který je určen jako popisek nebojako sloupec skóre.

  • Pokud se pokusíte použít metodu bodování se sloupcem datového typu, který metoda nepodporuje, buď modul vyvolá chybu, nebo se ke sloupci přiřadí nulové skóre.

  • Pokud sloupec obsahuje logické hodnoty (true/false), zpracují se jako True = 1 a False = 0.

  • Sloupec nemůže být funkce, pokud byl určen jako Popisek nebo Skóre.

Způsob zpracování chybějících hodnot

  • Jako cílový sloupec (popisek) nemůžete zadat žádný sloupec, který obsahuje všechny chybějící hodnoty.

  • Pokud sloupec obsahuje chybějící hodnoty, při výpočtu skóre pro sloupec se ignorují.

  • Pokud sloupec označený jako sloupec funkce obsahuje všechny chybějící hodnoty, přiřadí se nulové skóre.

Tabulka porovnání skóre

Abyste získali představu o tom, jak se skóre porovnávají při použití různých metrik, uvádí následující tabulka několik skóre výběru vlastností z více vlastností v datové sadě cen automobilů vzhledem k závislé proměnné highway-mpg.

Sloupec funkce Pearsonova skóre Skóre počtu Skóre Kendall Vzájemné informace
spotřeba na dálnici (mil/gal.) 1 205 1 1
city-mpg 0.971337 205 0.892472 0.640386
curb-weight 0.797465 171 0.673447 0.326247
výkon 0.770908 203 0.728289 0.448222
price 0.704692 201 0.651805 0.321788
length 0.704662205 205 0.53193 0.281317
objem motoru 0.67747 205 0.581816 0.342399
šířka 0.677218 205 0.525585 0.285006
bore 0.594572 201 0.467345 0.263846
rozvor kol 0.544082 205 0.407696 0.250641
compression-ratio 0.265201 205 0.337031 0.288459
systém paliva není k dispozici není k dispozici není k dispozici 0.308135
make není k dispozici není k dispozici není k dispozici 0.213872
diskové kolečko není k dispozici není k dispozici není k dispozici 0.213171
výška není k dispozici není k dispozici není k dispozici 0.1924
normalized-losses není k dispozici není k dispozici není k dispozici 0.181734
symboling není k dispozici není k dispozici není k dispozici 0.159521
num-of-cylindrů není k dispozici není k dispozici není k dispozici 0.154731
typ modulu není k dispozici není k dispozici není k dispozici 0.135641
Aspirace není k dispozici není k dispozici není k dispozici 0.068217
karosérie není k dispozici není k dispozici není k dispozici 0.06369
typ paliva není k dispozici není k dispozici není k dispozici 0.049971
num-of-doors (počet dveří) není k dispozici není k dispozici není k dispozici 0.017459
umístění modulu není k dispozici není k dispozici není k dispozici 0.010166
  • Skóre vzájemných informací lze vytvořit pro všechny typy sloupců, včetně řetězců.

  • Další skóre zahrnutá v této tabulce, jako je Pearsonova korelace nebo výběr atributů na základě počtu, vyžadují číselné hodnoty. Řetězcové funkce mají skóre 0, a proto nejsou zahrnuté ve výstupu. Výjimky najdete v části Technické poznámky.

  • Metoda založená na počtu nezachází se sloupcem popisku jinak než se sloupci funkcí.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Parametry modulu

Name Rozsah Typ Výchozí Description
Metoda bodování funkcí Seznam Metoda bodování Zvolte metodu, která se má použít pro bodování.
Pracovat jenom se sloupci funkcí Všechny Logická hodnota true Určete, jestli se mají v procesu vyhodnocování používat jenom sloupce funkcí.
Cílový sloupec Všechny Výběr sloupce Žádné Zadání cílového sloupce
Počet požadovaných funkcí >=1 Integer 1 Určení počtu funkcí, které se mají ve výsledcích zobrazit
Minimální počet nenulových prvků >=1 Integer 1 Zadejte počet funkcí, které se mají zobrazit (pro metodu CountBased).

Výstupy

Název Typ Description
Filtrovaná datová sada Tabulka dat Filtrovaná datová sada
Funkce Tabulka dat Názvy výstupních sloupců a skóre výběru funkcí

Výjimky

Výjimka Description
Chyba 0001 K výjimce dochází v případě, že se nenašel jeden nebo více zadaných sloupců datové sady.
Chyba 0003 K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný.
Chyba 0004 K výjimce dochází, pokud je parametr menší nebo roven konkrétní hodnotě.
Chyba 0017 K výjimce dochází v případě, že aktuální modul nepodporuje jeden nebo více zadaných sloupců.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Výběr funkce
Fisher Linear Discriminant Analysis
Seznam modulů A až Z