Sdílet prostřednictvím


Moduly výběru funkcí

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

tento článek popisuje moduly v aplikaci Machine Learning Studio (classic), které můžete použít pro výběr funkcí.

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Výběr funkcí je důležitý nástroj ve strojovém učení. Machine Learning Studio (classic) poskytuje několik metod, jak provádět výběr funkcí. Vyberte metodu výběru funkcí v závislosti na typu dat, která máte, a požadavcích na použitou statistickou techniku.

Tento článek popisuje:

každý modul výběru funkcí v aplikaci Machine Learning Studio (classic) používá jako vstup datovou sadu. Modul potom v datových sloupcích, které jsou zadány jako vstup, používá známé statistické metody. Výstupem je sada metrik, které vám pomůžou identifikovat sloupce, které mají nejvyšší hodnotu informace.

O výběru funkcí

V Machine Learning a statistice je Výběr funkcí proces výběru podmnožiny relevantních, užitečných funkcí, které se použijí při sestavování analytického modelu. Výběr funkcí pomáhá omezit pole dat na nejcennější vstupy. Zúžení pole dat pomáhá snižovat šum a zlepšovat výkon školení.

Funkce se často vytvářejí z nezpracovaných dat pomocí procesu strojírenství. Například časové razítko samotné nemusí být vhodné pro modelování, dokud nejsou tyto informace transformované na jednotky dnů, měsíců nebo kategorií, které jsou relevantní pro daný problém, jako je například svátek na pracovní den.

Novým uživatelům strojového učení se může zvážit, že budou zahrnovat všechna data, která jsou k dispozici. Můžou očekávat, že algoritmus nalezne něco zajímavého s použitím dalších dat. Výběr funkcí ale může obvykle zlepšit váš model a zabránit běžným problémům:

  • Data obsahují nadbytečné nebo nedůležité funkce, které neposkytují žádné další informace než aktuálně vybrané funkce.
  • Data obsahují nepodstatné funkce, které neposkytují žádné užitečné informace v jakémkoli kontextu. Včetně nepodstatných polí nezvyšuje jenom čas potřebný ke školení dat, ale může také vést k špatným výsledkům.
  • S některými algoritmy můžou mít duplicitní informace v školicích datech k tomuto jevu s názvem multicollinearity. V multicollinearity může přítomnost dvou vysoce korelačních proměnných způsobit, že výpočty pro jiné proměnné budou mnohem méně přesné.

Tip

některé algoritmy strojového učení v Machine Learning studiu (classic) také v rámci školicího procesu používají výběr funkcí nebo snížení dimenzionální. Když tyto informace použijete, můžete přeskočit proces výběru funkcí a nechat algoritmus zvolit nejlepší vstupy.

Použití výběru funkcí v experimentu

Výběr funkcí se obvykle provádí při prozkoumávání dat a vývoji nového modelu. Při použití výběru funkcí mějte na paměti tyto tipy:

  • Při testování přidejte do experimentu výběr funkcí, abyste vygenerovali skóre, která informují o tom, které sloupce se mají použít.
  • Odeberte výběr funkcí z experimentu, když zprovoznění model.
  • Pravidelně spouštějte výběr funkcí, abyste se ujistili, že se data a nejlepší funkce nezměnily.

Výběr funkcí se liší od metodologie funkcí, která se zaměřuje na vytváření nových funkcí mimo stávající data.

Zdroje informací

metody výběru funkcí v Machine Learning studiu (klasické)

v Machine Learning studiu (classic) jsou k dispozici následující moduly výběru funkcí.

Výběr funkcí na základě filtrů

Když použijete modul výběru funkce založený na filtrech , můžete si vybrat ze známých metod výběru funkcí. Modul výstupuje jak statistiky výběru funkcí, tak i filtrovaný objekt DataSet.

Výběr metody výběru filtru závisí částečně na tom, jaký druh vstupních dat máte.

Metoda Podporované vstupy funkcí Podporované popisky
Korelace Pearsonova Pouze číselné a logické sloupce Jeden numerický nebo logický sloupec
Skóre vzájemného hodnocení informací Všechny typy dat Jeden sloupec libovolného datového typu
Korelační koeficient Kendall Pouze číselné a logické sloupce Jeden numerický nebo logický sloupec

Sloupce by měly mít hodnoty, které lze seřadit
Korelační koeficient Spearman Pouze číselné a logické sloupce Jeden numerický nebo logický sloupec
Statistiky chí-kvadrát Všechny typy dat Jeden sloupec libovolného datového typu
Fisherský výsledek Pouze číselné a logické sloupce Jeden numerický nebo logický sloupec

Řetězcovým sloupcům je přiřazeno skóre 0.
Výběr funkcí na základě počtu Všechny typy dat Sloupec popisku není povinný.

Rybář lineární analýzy Discriminant

Lineární analýza Discriminant je pod dohledem výukové techniky, kterou můžete použít ke klasifikaci číselných proměnných ve spojení s jedním cílem kategorií. Metoda je užitečná pro výběr funkcí, protože identifikuje kombinaci funkcí nebo parametrů, které nejlépe oddělují skupiny.

K vygenerování sady výsledků pro kontrolu můžete použít modul Fisher lineární Discriminant Analysis a můžete použít náhradní datovou sadu vygenerovanou modulem pro školení.

Důležitost funkce permutací

Použijte modul důležitost funkcí permutace k simulaci efektu jakékoli sady funkcí v datové sadě. Modul vypočítá skóre výkonu pro model založený na náhodném náhodném rozmísení hodnot funkcí.

Skóre, které modul vrací, představuje potenciální změnu přesnosti trained model, pokud se změní hodnoty. Pomocí skóre můžete určit účinek jednotlivých proměnných modelu.

Algoritmy strojového učení, které zahrnují výběr funkcí

některé algoritmy strojového učení v Machine Learning studiu (classic) optimalizují výběr funkcí během školení. Můžou taky poskytovat parametry, které vám pomůžou s výběrem funkcí. Pokud používáte metodu, která má svou vlastní heuristickou volbu pro výběr funkcí, je často vhodnější spoléhat na tuto heuristickou funkci namísto předvolbě funkcí.

Tyto algoritmy a metody výběru funkcí se používají interně:

  • Zesílené modely rozhodovacího stromu pro klasifikaci a regresi

    V těchto modulech je souhrn funkcí vytvořen interně. Funkce s váhou 0 nejsou využívány žádnými rozdělenými stromovou strukturou. Když vizualizujete nejlépe vyškolený model, můžete se podívat na všechny stromy. Pokud se funkce nikdy nepoužije v žádném stromu, je tato funkce nejspíš kandidátem na odebrání. Pro optimalizaci výběru je také vhodné použít rozmazání parametrů.

  • Logistické regresní modely a lineární modely

    Moduly pro více tříd a binární logistické regrese podporují zajištění L1 a L2. Pravidelná analýza představuje způsob přidávání omezení během školení, aby bylo možné ručně zadat aspekt zjištěného modelu. Často se používá k tomu, aby se zabránilo přebudování. Machine Learning Studio (classic) podporuje pravidelnou podporu pro normy L1 nebo L2 vektoru váhy v algoritmech lineární klasifikace:

    • Pravidelná schopnost L1 je užitečná v případě, že cílem je model, který je jako zhuštěný.
    • Pravidelná navýšení L2 brání v tom, aby se jedna souřadnice ve velikosti vektoru rozrůsta příliš daleko. Je užitečné, pokud je cílem mít model s malým celkovým hmotností.
    • Pravidelná Logistická regrese L1 je výkonnější o přiřazení váhy 0 k funkcím. Je užitečné při určování funkcí, které je možné odebrat.

Technické poznámky

Všechny moduly výběru funkcí a analytické metody, které podporují číselné a logické sloupce, podporují také sloupce data a času. Tyto sloupce jsou považovány za jednoduché číselné sloupce, ve kterých každá hodnota se rovná počtu impulsů.

Následující moduly nejsou v kategorii výběru funkcí , ale můžete je použít pro související úlohy. Moduly vám můžou přispět k omezení dimenzionálních dat nebo k hledání korelace:

Pokud máte datovou sadu, která má mnoho sloupců, použijte modul Analýza hlavních komponent k detekci sloupců, které obsahují nejvíc informací o původních datech.

Tento modul je v kategorii transformace dat v části škálovat a snížit.

Featurization na základě počtu je nová technika, kterou můžete použít k určení užitečných funkcí pomocí velkých datových sad. Pomocí těchto modulů můžete analyzovat datové sady a vyhledat nejlepší funkce, uložit sadu funkcí pro použití s novými daty nebo aktualizovat existující sadu funkcí.

Tento modul použijte k výpočtu sady korelačních Pearsonova korelace pro každý možný pár proměnných ve vstupní datové sadě. Korelační koeficient Pearsonova, označovaný také jako Pearsonova R test, je statistická hodnota, která měří lineární vztah mezi dvěma proměnnými.

Tento modul je v kategorii statistické funkce .

Seznam modulů

Kategorie výběru funkcí zahrnuje tyto moduly:

Viz také