Analýza hlavní komponenty

Článek
05/06/2019

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
přečtěte si další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vypočítá sadu funkcí s menším rozměrem pro efektivnější učení.

Kategorie: transformace/ukázka a rozdělení dat

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak použít modul analýzy hlavních komponent v Machine Learning studiu (classic) k omezení dimenzionálního data školicích dat. Modul analyzuje vaše data a vytvoří omezenou sadu funkcí, která zachycuje všechny informace obsažené v datové sadě, ale s menším počtem funkcí.

Modul také vytvoří transformaci, kterou můžete použít na nová data, abyste dosáhli podobného snížení rozměru a komprimace funkcí bez nutnosti dalšího školení.

Další informace o analýze základních komponent

Analýza hlavních komponent (DPS) je oblíbená technika v rámci Machine Learning. Spoléhá na to, že mnoho typů dat ve vektorovém prostoru je komprimovat a že komprese může být efektivně dosaženo vzorkováním.

Přidání výhod DPS je vylepšená vizualizace dat a optimalizace využití prostředků pomocí výukového algoritmu.

modul analýza hlavní komponenty v Machine Learning studiu (classic) převezme sadu sloupců funkcí v zadané datové sadě a vytvoří projekci prostoru funkcí, který má nižší dimenzionální hodnotu. Algoritmus používá metody náhodnosti k identifikaci podprostoru funkce, který zachycuje většinu informací v celé matrici funkce. Proto transformované matice dat zachycují odchylku v původních datech a zároveň snižuje vliv hluku a minimalizuje riziko přebudování.

Obecné informace o analýze hlavních komponent (DPS) najdete v tomto článku Wikipedii. Informace o přístupech DPS používaných v tomto modulu najdete v těchto článcích:

Hledání struktury s náhodností: pravděpodobnostní algoritmy pro vytváření přibližných rozkladů matice. Halko, Martinsson a Tropp, 2010.
Kombinování strukturovaných a nestrukturovaných náhodností ve velkém měřítku DPS Kombinování strukturovaných a nestrukturovaných Náhodností ve velkém měřítku DPS. Karampatziakis a Mineiro, 2013.

Jak nakonfigurovat analýzu základní součásti

Přidejte do experimentu modul Analýza hlavní součásti . Můžete ji najít v části transformace datv kategorii škálování a zmenšení .
Připojení datovou sadu, kterou chcete transformovat, a vyberte sloupce funkcí, které chcete analyzovat.

Pokud ještě nevymažete, které sloupce jsou funkce a které jsou popisky, doporučujeme použít modul Upravit metadata k tomu, abyste sloupce označili předem.
Počet rozměrů, které se mají snížit: zadejte požadovaný počet sloupců v konečném výstupu. Každý sloupec představuje dimenzi, která zachytí určitou část informací ve vstupních sloupcích.

Pokud má zdrojová datová sada například osm sloupců a Vy zadáte 3 , vrátí se tři nové sloupce, které zachytí informace o osmi vybraných sloupcích. Sloupce jsou pojmenovány Col1 , Col2 a Col3 . Tyto sloupce nejsou namapovány přímo na zdrojové sloupce; místo toho sloupce obsahují aproximaci prostoru funkce, který je popsaný v původních sloupcích 1-8.

Tip

Algoritmus funguje optimálně, pokud je počet zmenšených dimenzí mnohem menší než původní rozměry.
Normalizovat hustou datovou sadu na nulový význam: tuto možnost vyberte, pokud je datová sada zhuštěná, což znamená, že obsahuje několik chybějících hodnot. Pokud je tato možnost vybrána, modul normalizuje hodnoty ve sloupcích na střední hodnotu nula před jakýmkoli jiným zpracováním.

Pro zhuštěné datové sady by tato možnost neměla být vybraná. Pokud je zjištěna zhuštěná datová sada, je parametr přepsán.
Spusťte experiment.

Výsledky

Modul vypíše omezenou sadu sloupců, které můžete použít při vytváření modelu. Výstup můžete uložit jako novou datovou sadu nebo použít v experimentu.

V případě potřeby můžete proces analýzy Uložit jako uloženou transformaci a použít ji pro jinou datovou sadu pomocí transformace použít.

Datová sada, na kterou aplikujete transformaci, musí mít stejné schéma jako původní datová sada.

Příklady

Příklady, jak se ve službě Machine Learning používá analytická komponenta, najdete v Azure AI Gallery:

Clusteringu: Vyhledání podobných společností: používá analýzu základní komponenty ke snížení počtu hodnot z dolování textu až po spravovatelný počet funkcí.

I když je v této ukázce Pomocník s protokolem DPS použit pomocí vlastního skriptu jazyka R, ukazuje, jak se obvykle používá DPS.

Technické poznámky

Existují dva fáze pro výpočet s horšími komponentami.

První je vytvořit malý prostor, který zachycuje akci matice.
Druhým je omezit matici na místo a pak vypočítat standardní faktoring redukované matice.

Očekávané vstupy

Název	Typ	Description
Datová sada	Tabulka dat	Datová sada, jejíž rozměry se mají snížit

Parametry modulu

Název	Typ	Rozsah	Volitelné	Description	Výchozí
Vybrané sloupce	ColumnSelection		Vyžadováno		Vybrané sloupce, pro které se má použít DPS
Počet rozměrů, které se mají snížit	Integer	>= 1	Vyžadováno		Počet požadovaných dimenzí v redukované datové sadě
Normalizovat hustou datovou sadu na nulový význam	Logická hodnota		Vyžadováno	true	Označuje, zda budou vstupní sloupce normalizovány pro zhuštěné datové sady (pro parametr zhuštěných dat je ignorováno).

Výstupy

Název	Typ	Description
Datová sada výsledků	Tabulka dat	Datová sada s menšími rozměry
Transformace DPS	Rozhraní ITransform	Transformace, která je použita pro datovou sadu, poskytne novou datovou sadu s menšími rozměry.

Výjimky

Výjimka	Description
Chyba 0001	K výjimce dojde v případě, že se nepovedlo najít jeden nebo více zadaných sloupců datové sady.
Chyba 0003	K výjimce dojde v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné.
Chyba 0,0004	K výjimce dojde, pokud je parametr menší nebo roven konkrétní hodnotě.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Ukázka a rozdělení
Výběr funkcí

Sdílet prostřednictvím