Szűrőalapú szolgáltatásválasztás
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Egy adatkészlet legnagyobb prediktív teljesítményre vonatkozó jellemzőit azonosítja
Kategória: Funkcióválasztási modulok
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Filter Based Feature Selection (Szűrőalapú funkciók kiválasztása) modulja a bemeneti adatkészlet azon oszlopainak azonosítására, amelyek a legnagyobb prediktív teljesítményt kínálják.
A jellemzőválasztás általánosságban arra a folyamatra utal, amely statisztikai teszteket alkalmaz a bemenetre egy adott kimenet esetén annak meghatározásához, hogy mely oszlopok prediktívabb kimenetet tartalmaznak. A Szűrőalapú funkcióválasztás modul több funkciókiválasztási algoritmust biztosít, köztük korrelációs módszereket, például Pearsons vagy Kendall korrelációját, kölcsönös információpontszámait és khi-négyzetre négyzetes értékeit. Machine Learning a szolgáltatásértékek számát is támogatja, amely az információ értékét jelzi.
A Szűrőalapú szolgáltatás kiválasztása modul használata esetén meg kell adnia egy adatkészletet, azonosítania kell a címkét vagy a függő változót tartalmazó oszlopot, majd egyetlen módszert kell megadnia a funkció fontosságának mérésére.
A modul egy adatkészletet ad ki, amely a legjobb jellemzőoszlopokat tartalmazza, a prediktív teljesítmény szerint rangsorolva. Emellett a kiválasztott metrikában szereplő jellemzők nevét és pontszámait is kihozja.
Mi az a szűrőalapú funkcióválasztás, és miért érdemes használni?
A funkcióválasztás ezen modulját "szűrőalapúnak" nevezzük, mert a kiválasztott metrikát használjuk az irreleváns attribútumok azonosításához, és kiszűrjük a redundáns oszlopokat a modellből. Egyetlen statisztikai mértéket választ, amely megfelel az adatoknak, és a modul kiszámítja az egyes jellemzőoszlopok pontszámát. Az oszlopokat a rendszer a jellemzőpontszámaik szerint rangsorolja.
A megfelelő jellemzők kiválasztásával javíthatja a besorolás pontosságát és hatékonyságát.
Általában csak a legjobb pontszámokkal bíró oszlopokat használja a prediktív modell felépítéséhez. A gyenge jellemzőkiválasztási pontszámmal rendelkezik oszlopok az adatkészletben hagyhatóak, és figyelmen kívül hagyhatóak a modell buildelése során.
Funkcióválasztási metrika kiválasztása
A Szűrőalapú funkcióválasztás különböző metrikákat biztosít az egyes oszlopokban található információértékek értékeléséhez. Ez a szakasz az egyes metrikák általános leírását és alkalmazását tartalmazza. Az egyes metrikák használatának további követelményeit a Műszaki megjegyzések szakaszban és az egyes modulok konfigurálására vonatkozó utasítások között lehet kihozni.
Pearson-korreláció
A Pearson korrelációs statisztikája vagy Pearson korrelációs együtthatója a statisztikai modellekben is értékként ismert
r
. Bármely két változó esetében visszaad egy értéket, amely a korreláció erősségét jelziPearson korrelációs együtthatóját úgy számítjuk ki, hogy két változó kovaciáját osztjuk el a szórásuk szorozva. Az együtthatót nem befolyásolja a két változó léptékének változásai.
Kölcsönös információk
A kölcsönös információpontszám egy változó hozzájárulását méri egy másik változó, nevezetesen a címke értékével kapcsolatos bizonytalanság csökkentése érdekében. A kölcsönös információ pontszámának számos változatát úgy alakítottuk ki, hogy megfeleljen a különböző eloszlásnak.
A kölcsönös információ pontszáma különösen hasznos a funkciók kiválasztásában, mert maximalizálja a közös eloszlás és a célváltozók közötti kölcsönös információkat a számos dimenzióval rendelkezik adatkészletekben.
Kendall Correlation
Kendall rangsorolási korrelációja a különböző sorrendi változók rangsorolása vagy ugyanazon változó különböző rangsorolásai közötti kapcsolatot mérő számos statisztika egyike. Más szóval a rendelés hasonlóságát méri, ha a mennyiség szerint rangsorolja őket. Ezt az együtthatót és a Spearman korrelációs együtthatóját is nem parametrikus és nem egyenletesen elosztott adatokhoz tervezték.
Spearman-korreláció
A Spearman-együttható a két változó közötti statisztikai függőség nemparametrikus mértéke, amelyet néha a páva görög betűvel írnak le. A Spearman-együttható azt fejezi ki, hogy két változó milyen mértékben kapcsolódik monoton módon. Más néven Spearman-rangsor korrelációnak is nevezik, mert sorszámváltozókhoz is használható.
Chi Squared
A kétútos khi-négyzetes teszt egy statisztikai módszer, amely azt méri, hogy milyen közel vannak a várt értékek a tényleges eredményekhez. A metódus feltételezi, hogy a változók véletlenszerűek, és független változók megfelelő mintából vannak kirajzolva. Az eredményül kapott chi-squared statisztikai adat azt jelzi, hogy milyen messze vannak az eredmények a várt (véletlenszerű) eredménytől.
Score (Pontszám)
A Score score (más néven a Fog metódus, más néven a Foga módszer, más néven a Fog összesített valószínűségi pontszáma) néha információpontszámnak is nevezik, mivel ez azt az információt jelöli, amelyet egy változó biztosít valamilyen ismeretlen paraméterről, amelytől függ.
A pontszám kiszámítása az információ várt értéke és a megfigyelt érték közötti variancia mérésével számítható ki. A variancia minimalizálásakor az információk teljes méretűek. Mivel a pontszámra való várakozás nulla, a szintinformáció a pontszám varianciáját is mutatja.
Számalapú
A számalapú jellemzőkiválasztás egyszerű, mégis viszonylag hatékony módszer a prediktív információk megtalálására. A számalapú featurizálás alapötlete egyszerű: egy oszlop egyes értékeinek darabszámának kiszámításával átlássa az értékek eloszlását és súlyozását, és ebből tudhatja meg, hogy mely oszlopok tartalmazzák a legfontosabb információkat.
A számlálásalapú funkcióválasztás a funkciók kiválasztásának nem felügyelt módja, ami azt jelenti, hogy nincs szükség címkeoszlopra. Ez a módszer az adatok dimenzióját is csökkenti információvesztés nélkül.
A számalapú funkciók létrehozási mikéntjével és a gépi tanulásban hasznos jellemzőik okával kapcsolatos további információkért lásd: Tanulás a Counts (Darabszámok) beállítással.
Tipp
Ha más beállításra van szüksége az egyéni funkcióválasztási módszerhez, használja az R-szkript végrehajtása modult .
A szolgáltatáskiválasztás Filter-Based konfigurálása
Ez a modul két módszert biztosít a jellemzőpontszámok meghatározásához:
Jellemzőpontszámok létrehozása hagyományos statisztikai metrikával
Kiválaszt egy szabványos statisztikai metrikát, és a modul kiszámítja a két oszlop, a címkeoszlop és a jellemzőoszlop közötti korrelációt
Számalapú funkcióválasztás használata
A számalapú metódussal a modul kizárólag az oszlopban lévő értékek alapján számítja ki a pontszámot.
Jellemzőpontszámok létrehozása hagyományos statisztikai metrikával
Adja hozzá a kísérlethez a Szűrőalapú funkcióválasztás modult. Ezt a Studio (klasszikus ) Funkcióválasztás kategóriájában találhatja meg.
Csatlakozás olyan bemeneti adatkészletet, amely legalább két olyan oszlopot tartalmaz, amelyek lehetséges jellemzők.
Az oszlop elemzésének és a szolgáltatáspontszám generálása érdekében használja a Metaadatok szerkesztése modult az IsFeature attribútum beállítására .
Fontos
Győződjön meg arról, hogy a bemenetként megadott oszlopok lehetséges jellemzők. Például egy egyetlen értéket tartalmazó oszlopnak nincs információs értéke.
Ha tudja, hogy vannak olyan oszlopok, amelyek rossz funkciókat hoznak létre, eltávolíthatja őket az oszlopválasztásból. A Metaadatok szerkesztése modullalkategorikusként is megjelölheti őket.
A Funkciópontozási módszerhez válasszon egyet a pontszámok kiszámításához az alábbi meghatározott statisztikai módszerek közül.
Metódus Követelmények Pearson-korreláció A címke lehet szöveg vagy numerikus. A jellemzőknek numerikusnak kell lennie. Kölcsönös információk A címkék és jellemzők szöveg vagy numerikusak is lehet. Ezt a módszert két kategorikus oszlop funkció fontosságának számításához használhatja. Kendall Correlation A címke lehet szöveg vagy numerikus, de a jellemzőknek numerikusnak kell lennie. Spearman-korreláció A címke lehet szöveg vagy numerikus, de a jellemzőknek numerikusnak kell lennie. Chi Squared A címkék és jellemzők szöveg vagy numerikusak is lehet. Ezt a módszert két kategorikus oszlop funkció fontosságának számításához használhatja. Score (Pontszám) A címke lehet szöveg vagy numerikus, de a jellemzőknek numerikusnak kell lennie. Darabszám Lásd: A Count-Based funkció kiválasztása Tipp
Ha módosítja a kiválasztott metrikát, az összes többi beállítás alaphelyzetbe áll, ezért először ezt a beállítást állítsa be!)
Válassza a Csak funkcióoszlopok használata lehetőséget , hogy csak a korábban jellemzőként megjelölt oszlopokhoz hozzon létre pontszámot.
Ha nem választja ki ezt a beállítást, a modul létrehoz egy pontszámot bármely olyan oszlophoz, amely egyébként megfelel a feltételeknek, a Kívánt jellemzők száma alatt megadott számú oszlopra.
A Céloszlop mezőben kattintson az Oszlopválasztó indítása elemre a címkeoszlop név vagy index alapján való kiválasztásához (az indexek egyalapúak).
A statisztikai korrelációt tartalmazó összes metódushoz címkeoszlopra van szükség. A modul tervezési hibát ad vissza, ha nem választ címkeoszlopot vagy több címkeoszlopot.
A Kívánt jellemzők száma mezőbe írja be az eredményként visszaadni kívánt jellemzőoszlopok számát.
A megadható funkciók minimális száma 1, de javasoljuk, hogy növelje ezt az értéket.
Ha a kívánt jellemzők megadott száma nagyobb, mint az adatkészlet oszlopainak száma, akkor a rendszer az összes jellemzőt visszaadja, még a nulla pontszámmal is.
Ha kevesebb eredményoszlopot ad meg, mint a jellemzőoszlopok, a funkciók csökkenő pontszám szerint lesznek rangsorolva, és csak a legfontosabb jellemzők lesznek visszaadva.
Futtassa a kísérletet, vagy válassza a Szűrőalapú szolgáltatás kiválasztása modult, majd kattintson a Futtatás kiválasztva lehetőségre.
A funkciók kiválasztásának eredményei
A feldolgozás befejezése után:
Az elemzett funkcióoszlopok és pontszámaik teljes listájának megjelenítéséhez kattintson a jobb gombbal a modulra, válassza a Funkciók lehetőséget, majd kattintson a Vizualizáció elemre.
A szolgáltatásválasztási feltételek alapján létrehozott adatkészlet megtekintéséhez kattintson a jobb gombbal a modulra, válassza az Adatkészlet lehetőséget, majd kattintson a Vizualizáció elemre.
Ha az adatkészlet a vártnál kevesebb oszlopot tartalmaz, ellenőrizze a modul beállításait és a bemenetként megadott oszlopok adattípusait. Ha például a Kívánt jellemzők száma 1-re van állítva, a kimeneti adatkészlet csak két oszlopot tartalmaz: a címkeoszlopot és a legmagasabb rangsorban lévő jellemzőoszlopot.
Számalapú funkcióválasztás használata
Adja hozzá a kísérlethez a Szűrőalapú funkcióválasztás modult. Ezt a Studio (klasszikus) moduljainak listájában, a Funkcióválasztás csoportban találhatja meg.
Csatlakozás olyan bemeneti adatkészletet, amely legalább két, lehetséges jellemzőt tartalmazó oszlopot tartalmaz.
A Funkciópontozási módszer legördülő listában válassza a Számalapú lehetőséget a statisztikai metódusok listájából.
A Nem nulla elemek minimális száma mezőben adja meg a kimenetbe foglalni szükséges jellemzőoszlopok minimális számát.
Alapértelmezés szerint a modul a követelményeknek megfelelő összes oszlopot kihozja. A modul nem tud olyan oszlopot kimenetként kihozni, amely nulla pontszámot kap.
Futtassa a kísérletet, vagy válassza ki csak a modult, és kattintson a Futtatás kiválasztva lehetőségre.
A számláláson alapuló funkcióválasztás eredményei
- A pontszámokat tartalmazó funkcióoszlopok listájának megjelenítéséhez kattintson a jobb gombbal a modulra, válassza a Funkciók lehetőséget, majd kattintson a Vizualizáció elemre .
- Az elemzett oszlopokat tartalmazó adatkészlet megjelenítéséhez kattintson a jobb gombbal a modulra, válassza az Adatkészlet lehetőséget, majd kattintson a Vizualizáció elemre.
Más metódusokkal ellentétben a Számlálóalapú jellemzőkiválasztási módszer nem a legmagasabb pontszám szerint rangsorolja a változókat, hanem az összes nem nulla pontszámmal rendelkező változót az eredeti sorrendben adja vissza.
A sztring jellemzők mindig nulla (0) pontszámot kapnak, ezért nem kimenetek.
Példák
Példákat láthat arra, hogyan használható a funkcióválasztás a Azure AI Gallery:
Szövegbesorolás; A minta harmadik lépésében a szűrőalapú funkcióválasztás a 15 legjobb funkció azonosítására használható. A funkció kivonatolása a szöveges dokumentumok numerikus vektorokká konvertálására használható. A pearson korrelációja ezt követően a vektor jellemzőkre lesz használva.
Gépi tanulási funkciók kiválasztása és a funkciótervezés: Ez a cikk bevezetőt nyújt a gépi tanulás funkcióválasztási és funkciótervezési folyamatának bemutatásához.
A jellemzőpontszámok példáiért tekintse meg az összehasonlítani a pontszámok táblázatát.
Technikai megjegyzések
Ezt a modult az Adatátalakítás alatt, a Szűrők kategóriában találja .
Megvalósítás részletei
Ha Pearson-korrelációt, Kendall Korrelációt vagy Spearman-korrelációt használ egy numerikus jellemzőn és egy kategorikus címkén, a funkció pontszáma a következőképpen lesz kiszámítva:
A kategorikus oszlop minden szintjéhez számítsa ki a numerikus oszlop feltételes átlagos értékét.
Korrelálja a feltételes értékek oszlopát a numerikus oszloppal.
Követelmények
A funkcióválasztási pontszám nem generálható címkeként vagy pontszámoszlopként kijelölt oszlophoz.
Ha olyan adattípussal próbál pontozási metódust használni, amelyet a metódus nem támogat, a modul hibát jelez, vagy nulla pontszámot rendel az oszlophoz.
Ha egy oszlop logikai (igaz/hamis) értékeket tartalmaz, a rendszer True = 1 és False = 0 értékkel feldolgozva lesz feldolgozva.
Egy oszlop nem lehet funkció, ha címkeként vagy pontszámként van megcímkézve.
A hiányzó értékek kezelése
Céloszlopként (címkeként) nem adhat meg olyan oszlopot, amely az összes hiányzó értéket tartalmaz.
Ha egy oszlop hiányzó értékeket tartalmaz, a rendszer figyelmen kívül hagyja őket az oszlop pontszámának számításakor.
Ha egy jellemzőoszlopként kijelölt oszlopban az összes hiányzó érték található, a rendszer nulla pontszámot rendel hozzá.
Összehasonlított pontszámok táblázata
Annak érdekében, hogy képet kapjon arról, hogyan viszonyulnak a pontszámok a különböző metrikák használata esetén, az alábbi táblázat az autóárak adatkészletének több jellemzőjéhez kapott jellemzők néhány pontszámát mutatja be a függő highway-mpg változó alapján.
Funkcióoszlop | Pearson-pontszám | Számpontszám | Kendall-pontszám | Kölcsönös információk |
---|---|---|---|---|
highway-mpg | 1 | 205 | 1 | 1 |
city-mpg (fogyasztás városban) | 0.971337 | 205 | 0.892472 | 0.640386 |
curb-weight (önsúly) | 0.797465 | 171 | 0.673447 | 0.326247 |
horsepower | 0.770908 | 203 | 0.728289 | 0.448222 |
price | 0.704692 | 201 | 0.651805 | 0.321788 |
hossz | 0.704662205 | 205 | 0.53193 | 0.281317 |
engine-size | 0.67747 | 205 | 0.581816 | 0.342399 |
szélesség | 0.677218 | 205 | 0.525585 | 0.285006 |
bore (furat) | 0.594572 | 201 | 0.467345 | 0.263846 |
wheel-base | 0.544082 | 205 | 0.407696 | 0.250641 |
compression-ratio (kompressziós arány) | 0.265201 | 205 | 0.337031 | 0.288459 |
üzemanyag-rendszer | na | na | na | 0.308135 |
make | na | na | na | 0.213872 |
drive-wheels (kerekes meghajtó) | na | na | na | 0.213171 |
magasság | na | na | na | 0.1924 |
normalizált veszteségek | na | na | na | 0.181734 |
symboling (embléma) | na | na | na | 0.159521 |
Hengerek száma | na | na | na | 0.154731 |
motortípus | na | na | na | 0.135641 |
Aspirációs | na | na | na | 0.068217 |
body-style | na | na | na | 0.06369 |
üzemanyagtípus | na | na | na | 0.049971 |
num-of-doors (ajtószám) | na | na | na | 0.017459 |
motor helye | na | na | na | 0.010166 |
Kölcsönös információpontszámok minden oszloptípushoz, beleértve a sztringeket is.
A táblázatban szereplő egyéb pontszámok, például Pearson korrelációja vagy számalapú jellemzőkiválasztása numerikus értékeket igényelnek. A sztring jellemzők 0 pontszámot kapnak, ezért nem szerepelnek a kimenetben. Kivételekért lásd a Műszaki megjegyzések szakaszt .
A számalapú metódus a címkeoszlopokat nem kezeli másképp, mint a jellemzőoszlopokat.
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Funkciópontozási módszer | Lista | Pontozási módszer | Válassza ki a pontozáshoz használt metódust | |
Csak funkcióoszlopok használata | Bármelyik | Logikai | true | Annak jelzése, hogy a pontozási folyamat csak funkcióoszlopokat használjon-e |
Céloszlop | Bármelyik | ColumnSelection (Oszlopválasztás) | None | A céloszlop megadása |
A kívánt funkciók száma | >=1 | Egész szám | 1 | Adja meg az eredményekben kimenetként megadni kívánt funkciók számát |
Nem nulla elemek minimális száma | >=1 | Egész szám | 1 | Adja meg a kimenetben található szolgáltatások számát (CountBased metódushoz) |
Kimenetek
Név | Típus | Description |
---|---|---|
Szűrt adatkészlet | Adattábla | Szűrt adatkészlet |
Funkciók | Adattábla | A kimeneti oszlopok nevei és a funkciók kiválasztási pontszámai |
Kivételek
Kivétel | Description |
---|---|
0001-es hiba | Kivétel történik, ha az adatkészlet egy vagy több megadott oszlopa nem található. |
0003-as hiba | Kivétel történik, ha egy vagy több bemenet null vagy üres. |
0004-es hiba | Kivétel akkor fordul elő, ha a paraméter kisebb vagy egyenlő egy adott értékkel. |
0017-es hiba | Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.
Lásd még
Funkció kiválasztása
Fisher Linear Discriminant Analysis
A–Z modullista