Fő összetevő elemzése

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Csökkentett dimenziós funkciókat számít ki a hatékonyabb tanulás érdekében

Kategória: Adatátalakítás / Minta és felosztás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használhatja a fő összetevő-elemzési modult a Machine Learning Studióban a betanítás adatainak dimenziójának csökkentésére. A modul elemzi az adatokat, és létrehoz egy csökkentett funkciókészletet, amely az adathalmazban található összes információt rögzíti, de kevesebb jellemzőt tartalmaz.

A modul olyan átalakítást is létrehoz, amely új adatokra is alkalmazható, hogy további betanítás nélkül hasonló módon csökken a dimenziók és a tömörítés mértéke.

További információ a fő összetevők elemzésével kapcsolatban

A fő összetevő-elemzés (PCA) a gépi tanulás egyik népszerű technikája. Arra a tényre támaszkodik, hogy a vektortéradatok számos típusa tömöríthető, és hogy a tömörítés mintavételezéssel a leghatékonyabban érhető el.

A PCA további előnyei a továbbfejlesztett adatvizualizáció és az erőforrások tanulási algoritmus által való használatának optimalizálása.

A Machine Learning Studio (klasszikus) fő összetevőelemzési modulja a megadott adathalmaz jellemzőoszlopainak készletét veszi fel, és leképezi a kisebb dimenziós jellemzőterületet. Az algoritmus véletlenszerű technikákkal azonosít egy jellemző-alteret, amely a teljes funkciómátrixban rögzíti a legtöbb információt. Ezért az átalakított adatmátörök rögzítik az eredeti adatok varianciáját, ugyanakkor csökkentik a zaj hatását és minimalizálják a túlilledés kockázatát.

A fő összetevők elemzésével (PCA) kapcsolatos általános információkért tekintse meg ezt a Wikipedia-cikket. Az ebben a modulban használt PCA-megközelítésekkel kapcsolatos információkért tekintse meg az alábbi cikkeket:

Struktúra keresése véletlenszerűséggel: Valószínűségi algoritmusok a hozzávetőleges mátrix-felbontások felépítéséhez. Halko, Martinsson és Tropp, 2010.
Strukturált és strukturálatlan véletlenszerűség kombinálása nagy méretű PCA-ban Strukturált és strukturálatlan véletlenszerűség kombinálása nagy méretű PCA-ban. Karampatésekis és Mineiro, 2013.

Az elsődleges összetevő elemzésének konfigurálása

Adja hozzá a főösszetevő-elemzés modult a kísérlethez. Ezt a Skálázás és Csökkentés kategóriában , az Adatátalakítás alatt találja .
Csatlakozás az átalakítani kívánt adatkészletet, és válassza ki az elemezni kívánt jellemzőoszlopokat.

Ha még nem egyértelmű, hogy mely oszlopok jellemzők, és melyek a címkék, javasoljuk, hogy a Metaadatok szerkesztése modullal előre jelölje meg az oszlopokat.
A lecsökkent dimenziók száma: Írja be a végső kimenetben a kívánt számú oszlopot. Minden oszlop egy dimenziót képvisel, amely az információk egy részét a bemeneti oszlopokban tartalmazza.

Ha például 3a forrásadatkészlet nyolc oszlopot tartalmaz, és begépeli a parancsot, a rendszer három új oszlopot ad vissza, amelyek a nyolc kijelölt oszlop adatait rögzítik. Az oszlopok neve Col1, és Col2Col3. Ezek az oszlopok nem közvetlenül a forrásoszlopra vannak leképezve; ehelyett az oszlopok az eredeti 1–8. oszlopok által leírt jellemzőterület közelítését tartalmazzák.

Tipp

Az algoritmus optimálisan működik, ha a csökkentett dimenziók száma sokkal kisebb, mint az eredeti dimenziók.
Sűrű adatkészlet nullára való normalizálása: Akkor válassza ezt a lehetőséget, ha az adatkészlet sűrű, tehát kevés hiányzó értéket tartalmaz. Ha be van jelölve, a modul nullára normalizálja az oszlopok értékeit a többi feldolgozás előtt.

Ritka adatkészletek esetén ez a beállítás ne legyen kiválasztva. Ha a rendszer ritka adatkészletet észlel, a rendszer felülírja a paramétert.
Futtassa a kísérletet.

Results (Eredmények)

A modul csökkentett oszlopkészletet ad vissza, amely modell létrehozásához használható. A kimenetet mentheti új adatkészletként, vagy használhatja a kísérletben.

Az elemzési folyamatot mentheti mentett átalakításként is, ha egy másik adatkészletre is alkalmaznia kell az Átalakítás alkalmazása funkcióval.

Annak az adatkészletnek, amelyre az átalakítást alkalmazza, az eredeti adatkészlet sémáját kell tartalmazni.

Példák

A fő összetevőelemzés gépi tanulásban való használatára vonatkozó példákért lásd a következő Azure AI Gallery:

Fürtözés: Hasonló vállalatok megkeresása: Fő összetevőelemzéssel csökkenti az értékek számát a szövegbányászattól a kezelhető számú jellemzőre.

Bár ebben a mintában a PCA egyéni R-szkript használatával van alkalmazva, jól szemlélteti a PCA jellemző használatának módszerét.

Technikai megjegyzések

Az alacsonyabb dimenziós összetevők számítása két fázisból áll.

Az első egy alacsony dimenziós altér, amely rögzíti a mátrix műveletét.
A második a mátrix altérre való korlátozása, majd a csökkentett mátrix szabványos faktorizálásának kiszámítása.

Várt bemenetek

Név	Típus	Description
Adathalmaz	Adattábla	Azon adatkészletek, amelyeknek a méreteit csökkenteni kell

Modulparaméterek

Név	Típus	Tartomány	Választható	Description	Alapértelmezett
Kijelölt oszlopok	ColumnSelection (Oszlopválasztás)		Kötelező		Kijelölt oszlopok a PCA alkalmazáshoz
A méretre csökkentenünk kell a dimenziók számát	Egész szám	>=1	Kötelező		A csökkentett adatkészlet kívánt dimenzióinak száma
Sűrű adatkészlet normalizálása nullára	Logikai		Kötelező	true	Annak jelzése, hogy a bemeneti oszlopok normalizálva lesznek-e a sűrű adatkészletek esetén (a ritka adatparaméter figyelmen kívül lesz hagyva)

Kimenetek

Név	Típus	Description
Eredményadatkészlet	Adattábla	Adatkészlet csökkentett dimenziókkal
PCA-átalakítás	ITransform interfész	Átalakítás, amely az adatkészletre alkalmazva csökkentett dimenziókkal fog új adatkészletet adni

Kivételek

Kivétel	Description
0001-es hiba	Kivétel történik, ha az adatkészlet egy vagy több megadott oszlopa nem található.
0003-as hiba	Kivétel történik, ha egy vagy több bemenet null vagy üres.
0004-es hiba	Kivétel akkor fordul elő, ha a paraméter kisebb vagy egyenlő egy adott értékkel.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.

Lásd még

Minta és felosztás
Funkció kiválasztása

Megosztás a következőn keresztül: