Megosztás a következőn keresztül:


Fisher Linear Discriminant Analysis

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Azonosítja a jellemzőváltozók lineáris kombinációját, amely a legjobban csoportosítja az adatokat külön osztályokba

Kategória: Funkcióválasztási modulok

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Linear Linear Discriminant Analysis (Lineáris diszrimináns elemzés) modul a Machine Learning Studióban (klasszikus) egy új funkcióadatkészlet létrehozásához, amely a két vagy több osztályt legjobban elkülönítő funkciók kombinációját rögzíti.

Ezt a módszert gyakran használják dimenziócsökkentésre, mert több jellemzőt vet be egy kisebb jellemzőtérre, miközben megőrzi az osztályok között megkülönböztetés alatt álló információkat. Ez nem csupán csökkenti egy adott besorolási feladat számítási költségeit, de segíthet megelőzni a túlilledést.

A pontszámok létrehozásához meg kell adnia egy címkeoszlopot és numerikus jellemzőoszlopok készletét bemenetként. Az algoritmus meghatározza a bemeneti oszlopok optimális kombinációját, amely lineárisan választja el az egyes adatcsoportokat, miközben minimalizálja az egyes csoportokon belüli távolságokat. A modul egy olyan adatkészletet ad vissza, amely tartalmazza a kompakt, átalakított jellemzőket, valamint egy átalakítást, amely egy másik adatkészletre mentve alkalmazható.

További információ a lineáris diszkrimináns elemzésről

A lineáris diszkrimináns elemzés hasonló a varianciaelemzéshez (ANOVA), mert a változók módszerének összehasonlításával működik. Az ANOVA-hoz hasonló feltételezésekre támaszkodik:

  • A prediktívok függetlenek
  • Az egyes minták feltételes valószínűségi sűrűségének függvénye általában el van osztva
  • A csoportok közötti varianciák hasonlóak

A lineáris diszrimináns elemzést olykor LDA-nak rövidítve is használják, de ez könnyen összekeverhető a rejtett diritletlefoglalással. A technikák teljesen eltérőek, ezért ebben a dokumentációban a teljes nevet használjuk, ahol csak lehetséges.

Lineáris diszrimináns elemzés konfigurálása

  1. Adja hozzá a bemeneti adatkészletet, és ellenőrizze, hogy a bemeneti adatok megfelelnek-e a következő követelményeknek:

    • Az adatoknak a lehető legnagyobb mértékben teljesnek kell lennie. A hiányzó értékeket tartalmazó sorokat a rendszer figyelmen kívül hagyja.
    • Az értékeknek normál eloszlást kell tartalmazni. A Linear Discriminant Analysis (Lineáris diszkrimináns elemzés) használata előtt tekintse át a kihozott adatok adatait, vagy tesztelje az eloszlást.
    • Kevesebb preditornak kell lennie, mint a mintáknak.
    • Távolítsa el a nem numerikus oszlopokat. Az algoritmus megvizsgálja a bemenetek összes érvényes numerikus oszlopát, és hibát ad vissza, ha érvénytelen oszlopok szerepelnek benne. Ha ki kell zárnia egy numerikus oszlopot, adjon hozzá egy Select Columns in Dataset (Adatkészlet oszlopainak kijelölése) modult a Lineáris lineáris discriminant elemzés előtt, hogy olyan nézetet hozzon létre, amely csak az elemezni kívánt oszlopokat tartalmazza. Később újracsatlakozhat az oszlopokhoz az Oszlopok hozzáadása használatával. A sorok eredeti sorrendje megmarad.
  2. Csatlakozás a bemeneti adatokat a Linear Discriminant Analysis (Lineáris diszkrimináns elemzés) modulba.

  3. Az Osztályfeliratok oszlopnál kattintson az Oszlopválasztó indítása elemre , és válasszon ki egy címkeoszlopot.

  4. A Funkcióelnyerők száma mezőbe írja be az eredményként kívánt oszlopok számát.

    Ha például az adatkészlet nyolc numerikus jellemzőoszlopot tartalmaz, 3 a begépelhető, hogy összecsukja őket egy új, kevesebb, csak három oszlopból álló jellemzőtérbe.

    Fontos tudni, hogy a kimeneti oszlopok nem felelnek meg pontosan a bemeneti oszlopoknak, hanem a bemeneti oszlopok értékeinek tömör átalakítását képviselik.

    Ha a Funkcióelnyerők száma mezőben a 0 értéket használja, ésn oszlopot használ bemenetként, a rendszer n jellemző-kinyerőt ad vissza, amelyek új értékeket tartalmaznak, amelyek az n-dimenziós jellemzőterületet képviselik.

  5. Futtassa a kísérletet.

Results (Eredmények)

Az algoritmus meghatározza a bemeneti oszlopok értékeinek kombinációját, amely lineárisan választja el az adatcsoportokat, miközben minimalizálja az egyes csoportokon belüli távolságokat, és két kimenetet hoz létre:

  • Átalakított funkciók. Egy adott számú jellemző-kinyerő oszlopot tartalmazó adatkészlet, col1, col2, col3 stb. névvel. A kimenet tartalmazza az osztály- vagy címkeváltozót is.

    Ezt a kompakt értékkészletet használhatja a modell betanítása során.

  • Lineáris diszkrimináns elemzési átalakítás. Egy olyan átalakítás, amely menthet, majd alkalmazhat egy azonos sémával rendelkezik adatkészletre. Ez akkor hasznos, ha sok azonos típusú adatkészletet szeretne elemezni, és mindegyikre ugyanazt a jellemzőcsökkentést szeretné alkalmazni. Az adatkészletnek, amelyre alkalmazza, ugyanaz a séma kell, hogy legyen.

Példák

Példák a gépi tanulásban a funkciók kiválasztására: Azure AI Gallery:

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Használati tippek

  • Ez a metódus csak folyamatos változók esetén működik, nem kategorikus vagy sorrendi változók esetében.

  • A rendszer figyelmen kívül hagyja a hiányzó értékeket tartalmazó sorokat az átalakítási mátrix számítása során.

  • Ha egy kísérletből menti az átalakítást, az eredeti kísérletből kiszámított átalakítások minden új adathalmazra újraalkalmazva, és nem lesz újraszámítva. Ezért ha minden adatkészlethez új funkciókészletet szeretne kiszámítani, minden adatkészlethez használja a Lineáris lineáris diszkrét elemzés új példányát.

Megvalósítás részletei

A jellemzők adatkészlete eigenvektorok használatával lesz átalakítva. A bemeneti adatkészlet eigenvektorai a megadott jellemzőoszlopok, más néven mátrix alapján vannak kiszámítva.

A modul transzformációs kimenete tartalmazza ezeket a sajátvektorokat, amelyek egy másik, azonos sémával rendelkezik adatkészlet átalakítására alkalmazhatók.

Az eigenvalue-k kiszámításával kapcsolatos további információkért tekintse meg ezt a tanulmányt (PDF): Eigenvector-based Feature Extraction for Classification (Eigenvector-alapú funkciókinyerés besoroláshoz). Tymbal, Puuronen et al.

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Bemeneti adatkészlet

Modulparaméterek

Név Típus Tartomány Választható Alapértelmezett Description
Osztályfeliratok oszlop ColumnSelection (Oszlopválasztás) Kötelező None Jelölje ki a kategorikus osztálycímkéket tartalmazó oszlopot
Funkcióelnyerők száma Egész szám >=0 Kötelező 0 A használni használt jellemző-kinyerők száma. Ha nulla, akkor a rendszer az összes jellemző-kinyerőt használja

Kimenetek

Név Típus Description
Átalakított funkciók Adattábla Lineáris discriminant elemzési funkciók a sajátvektortérre átalakítva
Lineáris diszrimináns elemzési átalakítás ITransform interfész A Lineáris diszkrimináns elemzés átalakítása

Kivételek

Kivétel Description
0001-es hiba Kivétel akkor fordul elő, ha az adatkészlet egy vagy több megadott oszlopa nem található.
0003-as hiba Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres.
0017-es hiba Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Funkció kiválasztása
Szűrőalapú szolgáltatásválasztás
Fő összetevő elemzése