Szűrőalapú szolgáltatásválasztás

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Egy adatkészlet legnagyobb prediktív teljesítményre vonatkozó jellemzőit azonosítja

Kategória: Funkcióválasztási modulok

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Filter Based Feature Selection (Szűrőalapú funkciók kiválasztása) modulja a bemeneti adatkészlet azon oszlopainak azonosítására, amelyek a legnagyobb prediktív teljesítményt kínálják.

A jellemzőválasztás általánosságban arra a folyamatra utal, amely statisztikai teszteket alkalmaz a bemenetre egy adott kimenet esetén annak meghatározásához, hogy mely oszlopok prediktívabb kimenetet tartalmaznak. A Szűrőalapú funkcióválasztás modul több funkciókiválasztási algoritmust biztosít, köztük korrelációs módszereket, például Pearsons vagy Kendall korrelációját, kölcsönös információpontszámait és khi-négyzetre négyzetes értékeit. Machine Learning a szolgáltatásértékek számát is támogatja, amely az információ értékét jelzi.

A Szűrőalapú szolgáltatás kiválasztása modul használata esetén meg kell adnia egy adatkészletet, azonosítania kell a címkét vagy a függő változót tartalmazó oszlopot, majd egyetlen módszert kell megadnia a funkció fontosságának mérésére.

A modul egy adatkészletet ad ki, amely a legjobb jellemzőoszlopokat tartalmazza, a prediktív teljesítmény szerint rangsorolva. Emellett a kiválasztott metrikában szereplő jellemzők nevét és pontszámait is kihozja.

Mi az a szűrőalapú funkcióválasztás, és miért érdemes használni?

A funkcióválasztás ezen modulját "szűrőalapúnak" nevezzük, mert a kiválasztott metrikát használjuk az irreleváns attribútumok azonosításához, és kiszűrjük a redundáns oszlopokat a modellből. Egyetlen statisztikai mértéket választ, amely megfelel az adatoknak, és a modul kiszámítja az egyes jellemzőoszlopok pontszámát. Az oszlopokat a rendszer a jellemzőpontszámaik szerint rangsorolja.

A megfelelő jellemzők kiválasztásával javíthatja a besorolás pontosságát és hatékonyságát.

Általában csak a legjobb pontszámokkal bíró oszlopokat használja a prediktív modell felépítéséhez. A gyenge jellemzőkiválasztási pontszámmal rendelkezik oszlopok az adatkészletben hagyhatóak, és figyelmen kívül hagyhatóak a modell buildelése során.

Funkcióválasztási metrika kiválasztása

A Szűrőalapú funkcióválasztás különböző metrikákat biztosít az egyes oszlopokban található információértékek értékeléséhez. Ez a szakasz az egyes metrikák általános leírását és alkalmazását tartalmazza. Az egyes metrikák használatának további követelményeit a Műszaki megjegyzések szakaszban és az egyes modulok konfigurálására vonatkozó utasítások között lehet kihozni.

Pearson-korreláció

A Pearson korrelációs statisztikája vagy Pearson korrelációs együtthatója a statisztikai modellekben is értékként ismert r . Bármely két változó esetében visszaad egy értéket, amely a korreláció erősségét jelzi

Pearson korrelációs együtthatóját úgy számítjuk ki, hogy két változó kovaciáját osztjuk el a szórásuk szorozva. Az együtthatót nem befolyásolja a két változó léptékének változásai.
Kölcsönös információk

A kölcsönös információpontszám egy változó hozzájárulását méri egy másik változó, nevezetesen a címke értékével kapcsolatos bizonytalanság csökkentése érdekében. A kölcsönös információ pontszámának számos változatát úgy alakítottuk ki, hogy megfeleljen a különböző eloszlásnak.

A kölcsönös információ pontszáma különösen hasznos a funkciók kiválasztásában, mert maximalizálja a közös eloszlás és a célváltozók közötti kölcsönös információkat a számos dimenzióval rendelkezik adatkészletekben.
Kendall Correlation

Kendall rangsorolási korrelációja a különböző sorrendi változók rangsorolása vagy ugyanazon változó különböző rangsorolásai közötti kapcsolatot mérő számos statisztika egyike. Más szóval a rendelés hasonlóságát méri, ha a mennyiség szerint rangsorolja őket. Ezt az együtthatót és a Spearman korrelációs együtthatóját is nem parametrikus és nem egyenletesen elosztott adatokhoz tervezték.
Spearman-korreláció

A Spearman-együttható a két változó közötti statisztikai függőség nemparametrikus mértéke, amelyet néha a páva görög betűvel írnak le. A Spearman-együttható azt fejezi ki, hogy két változó milyen mértékben kapcsolódik monoton módon. Más néven Spearman-rangsor korrelációnak is nevezik, mert sorszámváltozókhoz is használható.
Chi Squared

A kétútos khi-négyzetes teszt egy statisztikai módszer, amely azt méri, hogy milyen közel vannak a várt értékek a tényleges eredményekhez. A metódus feltételezi, hogy a változók véletlenszerűek, és független változók megfelelő mintából vannak kirajzolva. Az eredményül kapott chi-squared statisztikai adat azt jelzi, hogy milyen messze vannak az eredmények a várt (véletlenszerű) eredménytől.
Score (Pontszám)

A Score score (más néven a Fog metódus, más néven a Foga módszer, más néven a Fog összesített valószínűségi pontszáma) néha információpontszámnak is nevezik, mivel ez azt az információt jelöli, amelyet egy változó biztosít valamilyen ismeretlen paraméterről, amelytől függ.

A pontszám kiszámítása az információ várt értéke és a megfigyelt érték közötti variancia mérésével számítható ki. A variancia minimalizálásakor az információk teljes méretűek. Mivel a pontszámra való várakozás nulla, a szintinformáció a pontszám varianciáját is mutatja.
Számalapú

A számalapú jellemzőkiválasztás egyszerű, mégis viszonylag hatékony módszer a prediktív információk megtalálására. A számalapú featurizálás alapötlete egyszerű: egy oszlop egyes értékeinek darabszámának kiszámításával átlássa az értékek eloszlását és súlyozását, és ebből tudhatja meg, hogy mely oszlopok tartalmazzák a legfontosabb információkat.

A számlálásalapú funkcióválasztás a funkciók kiválasztásának nem felügyelt módja, ami azt jelenti, hogy nincs szükség címkeoszlopra. Ez a módszer az adatok dimenzióját is csökkenti információvesztés nélkül.

A számalapú funkciók létrehozási mikéntjével és a gépi tanulásban hasznos jellemzőik okával kapcsolatos további információkért lásd: Tanulás a Counts (Darabszámok) beállítással.

Tipp

Ha más beállításra van szüksége az egyéni funkcióválasztási módszerhez, használja az R-szkript végrehajtása modult .

A szolgáltatáskiválasztás Filter-Based konfigurálása

Ez a modul két módszert biztosít a jellemzőpontszámok meghatározásához:

Jellemzőpontszámok létrehozása hagyományos statisztikai metrikával

Kiválaszt egy szabványos statisztikai metrikát, és a modul kiszámítja a két oszlop, a címkeoszlop és a jellemzőoszlop közötti korrelációt
Számalapú funkcióválasztás használata

A számalapú metódussal a modul kizárólag az oszlopban lévő értékek alapján számítja ki a pontszámot.

Jellemzőpontszámok létrehozása hagyományos statisztikai metrikával

Adja hozzá a kísérlethez a Szűrőalapú funkcióválasztás modult. Ezt a Studio (klasszikus ) Funkcióválasztás kategóriájában találhatja meg.
Csatlakozás olyan bemeneti adatkészletet, amely legalább két olyan oszlopot tartalmaz, amelyek lehetséges jellemzők.

Az oszlop elemzésének és a szolgáltatáspontszám generálása érdekében használja a Metaadatok szerkesztése modult az IsFeature attribútum beállítására .

Fontos

Győződjön meg arról, hogy a bemenetként megadott oszlopok lehetséges jellemzők. Például egy egyetlen értéket tartalmazó oszlopnak nincs információs értéke.

Ha tudja, hogy vannak olyan oszlopok, amelyek rossz funkciókat hoznak létre, eltávolíthatja őket az oszlopválasztásból. A Metaadatok szerkesztése modullalkategorikusként is megjelölheti őket.

A Funkciópontozási módszerhez válasszon egyet a pontszámok kiszámításához az alábbi meghatározott statisztikai módszerek közül.

Metódus	Követelmények
Pearson-korreláció	A címke lehet szöveg vagy numerikus. A jellemzőknek numerikusnak kell lennie.
Kölcsönös információk	A címkék és jellemzők szöveg vagy numerikusak is lehet. Ezt a módszert két kategorikus oszlop funkció fontosságának számításához használhatja.
Kendall Correlation	A címke lehet szöveg vagy numerikus, de a jellemzőknek numerikusnak kell lennie.
Spearman-korreláció	A címke lehet szöveg vagy numerikus, de a jellemzőknek numerikusnak kell lennie.
Chi Squared	A címkék és jellemzők szöveg vagy numerikusak is lehet. Ezt a módszert két kategorikus oszlop funkció fontosságának számításához használhatja.
Score (Pontszám)	A címke lehet szöveg vagy numerikus, de a jellemzőknek numerikusnak kell lennie.
Darabszám	Lásd: A Count-Based funkció kiválasztása

Tipp

Ha módosítja a kiválasztott metrikát, az összes többi beállítás alaphelyzetbe áll, ezért először ezt a beállítást állítsa be!)

Válassza a Csak funkcióoszlopok használata lehetőséget , hogy csak a korábban jellemzőként megjelölt oszlopokhoz hozzon létre pontszámot.

Ha nem választja ki ezt a beállítást, a modul létrehoz egy pontszámot bármely olyan oszlophoz, amely egyébként megfelel a feltételeknek, a Kívánt jellemzők száma alatt megadott számú oszlopra.
A Céloszlop mezőben kattintson az Oszlopválasztó indítása elemre a címkeoszlop név vagy index alapján való kiválasztásához (az indexek egyalapúak).

A statisztikai korrelációt tartalmazó összes metódushoz címkeoszlopra van szükség. A modul tervezési hibát ad vissza, ha nem választ címkeoszlopot vagy több címkeoszlopot.
A Kívánt jellemzők száma mezőbe írja be az eredményként visszaadni kívánt jellemzőoszlopok számát.
- A megadható funkciók minimális száma 1, de javasoljuk, hogy növelje ezt az értéket.
- Ha a kívánt jellemzők megadott száma nagyobb, mint az adatkészlet oszlopainak száma, akkor a rendszer az összes jellemzőt visszaadja, még a nulla pontszámmal is.
- Ha kevesebb eredményoszlopot ad meg, mint a jellemzőoszlopok, a funkciók csökkenő pontszám szerint lesznek rangsorolva, és csak a legfontosabb jellemzők lesznek visszaadva.
Futtassa a kísérletet, vagy válassza a Szűrőalapú szolgáltatás kiválasztása modult, majd kattintson a Futtatás kiválasztva lehetőségre.

A funkciók kiválasztásának eredményei

A feldolgozás befejezése után:

Az elemzett funkcióoszlopok és pontszámaik teljes listájának megjelenítéséhez kattintson a jobb gombbal a modulra, válassza a Funkciók lehetőséget, majd kattintson a Vizualizáció elemre.
A szolgáltatásválasztási feltételek alapján létrehozott adatkészlet megtekintéséhez kattintson a jobb gombbal a modulra, válassza az Adatkészlet lehetőséget, majd kattintson a Vizualizáció elemre.

Ha az adatkészlet a vártnál kevesebb oszlopot tartalmaz, ellenőrizze a modul beállításait és a bemenetként megadott oszlopok adattípusait. Ha például a Kívánt jellemzők száma 1-re van állítva, a kimeneti adatkészlet csak két oszlopot tartalmaz: a címkeoszlopot és a legmagasabb rangsorban lévő jellemzőoszlopot.

Számalapú funkcióválasztás használata

Adja hozzá a kísérlethez a Szűrőalapú funkcióválasztás modult. Ezt a Studio (klasszikus) moduljainak listájában, a Funkcióválasztás csoportban találhatja meg.
Csatlakozás olyan bemeneti adatkészletet, amely legalább két, lehetséges jellemzőt tartalmazó oszlopot tartalmaz.
A Funkciópontozási módszer legördülő listában válassza a Számalapú lehetőséget a statisztikai metódusok listájából.
A Nem nulla elemek minimális száma mezőben adja meg a kimenetbe foglalni szükséges jellemzőoszlopok minimális számát.

Alapértelmezés szerint a modul a követelményeknek megfelelő összes oszlopot kihozja. A modul nem tud olyan oszlopot kimenetként kihozni, amely nulla pontszámot kap.
Futtassa a kísérletet, vagy válassza ki csak a modult, és kattintson a Futtatás kiválasztva lehetőségre.

A számláláson alapuló funkcióválasztás eredményei

A pontszámokat tartalmazó funkcióoszlopok listájának megjelenítéséhez kattintson a jobb gombbal a modulra, válassza a Funkciók lehetőséget, majd kattintson a Vizualizáció elemre .
Az elemzett oszlopokat tartalmazó adatkészlet megjelenítéséhez kattintson a jobb gombbal a modulra, válassza az Adatkészlet lehetőséget, majd kattintson a Vizualizáció elemre.

Más metódusokkal ellentétben a Számlálóalapú jellemzőkiválasztási módszer nem a legmagasabb pontszám szerint rangsorolja a változókat, hanem az összes nem nulla pontszámmal rendelkező változót az eredeti sorrendben adja vissza.

A sztring jellemzők mindig nulla (0) pontszámot kapnak, ezért nem kimenetek.

Példák

Példákat láthat arra, hogyan használható a funkcióválasztás a Azure AI Gallery:

Szövegbesorolás; A minta harmadik lépésében a szűrőalapú funkcióválasztás a 15 legjobb funkció azonosítására használható. A funkció kivonatolása a szöveges dokumentumok numerikus vektorokká konvertálására használható. A pearson korrelációja ezt követően a vektor jellemzőkre lesz használva.
Gépi tanulási funkciók kiválasztása és a funkciótervezés: Ez a cikk bevezetőt nyújt a gépi tanulás funkcióválasztási és funkciótervezési folyamatának bemutatásához.

A jellemzőpontszámok példáiért tekintse meg az összehasonlítani a pontszámok táblázatát.

Technikai megjegyzések

Ezt a modult az Adatátalakítás alatt, a Szűrők kategóriában találja .

Megvalósítás részletei

Ha Pearson-korrelációt, Kendall Korrelációt vagy Spearman-korrelációt használ egy numerikus jellemzőn és egy kategorikus címkén, a funkció pontszáma a következőképpen lesz kiszámítva:

A kategorikus oszlop minden szintjéhez számítsa ki a numerikus oszlop feltételes átlagos értékét.
Korrelálja a feltételes értékek oszlopát a numerikus oszloppal.

Követelmények

A funkcióválasztási pontszám nem generálható címkeként vagy pontszámoszlopként kijelölt oszlophoz.
Ha olyan adattípussal próbál pontozási metódust használni, amelyet a metódus nem támogat, a modul hibát jelez, vagy nulla pontszámot rendel az oszlophoz.
Ha egy oszlop logikai (igaz/hamis) értékeket tartalmaz, a rendszer True = 1 és False = 0 értékkel feldolgozva lesz feldolgozva.
Egy oszlop nem lehet funkció, ha címkeként vagy pontszámként van megcímkézve.

A hiányzó értékek kezelése

Céloszlopként (címkeként) nem adhat meg olyan oszlopot, amely az összes hiányzó értéket tartalmaz.
Ha egy oszlop hiányzó értékeket tartalmaz, a rendszer figyelmen kívül hagyja őket az oszlop pontszámának számításakor.
Ha egy jellemzőoszlopként kijelölt oszlopban az összes hiányzó érték található, a rendszer nulla pontszámot rendel hozzá.

Összehasonlított pontszámok táblázata

Annak érdekében, hogy képet kapjon arról, hogyan viszonyulnak a pontszámok a különböző metrikák használata esetén, az alábbi táblázat az autóárak adatkészletének több jellemzőjéhez kapott jellemzők néhány pontszámát mutatja be a függő highway-mpg változó alapján.

Funkcióoszlop	Pearson-pontszám	Számpontszám	Kendall-pontszám	Kölcsönös információk
highway-mpg	1	205	1	1
city-mpg (fogyasztás városban)	0.971337	205	0.892472	0.640386
curb-weight (önsúly)	0.797465	171	0.673447	0.326247
horsepower	0.770908	203	0.728289	0.448222
price	0.704692	201	0.651805	0.321788
hossz	0.704662205	205	0.53193	0.281317
engine-size	0.67747	205	0.581816	0.342399
szélesség	0.677218	205	0.525585	0.285006
bore (furat)	0.594572	201	0.467345	0.263846
wheel-base	0.544082	205	0.407696	0.250641
compression-ratio (kompressziós arány)	0.265201	205	0.337031	0.288459
üzemanyag-rendszer	na	na	na	0.308135
make	na	na	na	0.213872
drive-wheels (kerekes meghajtó)	na	na	na	0.213171
magasság	na	na	na	0.1924
normalizált veszteségek	na	na	na	0.181734
symboling (embléma)	na	na	na	0.159521
Hengerek száma	na	na	na	0.154731
motortípus	na	na	na	0.135641
Aspirációs	na	na	na	0.068217
body-style	na	na	na	0.06369
üzemanyagtípus	na	na	na	0.049971
num-of-doors (ajtószám)	na	na	na	0.017459
motor helye	na	na	na	0.010166

Kölcsönös információpontszámok minden oszloptípushoz, beleértve a sztringeket is.
A táblázatban szereplő egyéb pontszámok, például Pearson korrelációja vagy számalapú jellemzőkiválasztása numerikus értékeket igényelnek. A sztring jellemzők 0 pontszámot kapnak, ezért nem szerepelnek a kimenetben. Kivételekért lásd a Műszaki megjegyzések szakaszt .
A számalapú metódus a címkeoszlopokat nem kezeli másképp, mint a jellemzőoszlopokat.

Várt bemenetek

Név	Típus	Description
Adathalmaz	Adattábla	Bemeneti adatkészlet

Modulparaméterek

Name	Tartomány	Típus	Alapértelmezett	Description
Funkciópontozási módszer	Lista	Pontozási módszer		Válassza ki a pontozáshoz használt metódust
Csak funkcióoszlopok használata	Bármelyik	Logikai	true	Annak jelzése, hogy a pontozási folyamat csak funkcióoszlopokat használjon-e
Céloszlop	Bármelyik	ColumnSelection (Oszlopválasztás)	None	A céloszlop megadása
A kívánt funkciók száma	>=1	Egész szám	1	Adja meg az eredményekben kimenetként megadni kívánt funkciók számát
Nem nulla elemek minimális száma	>=1	Egész szám	1	Adja meg a kimenetben található szolgáltatások számát (CountBased metódushoz)

Kimenetek

Név	Típus	Description
Szűrt adatkészlet	Adattábla	Szűrt adatkészlet
Funkciók	Adattábla	A kimeneti oszlopok nevei és a funkciók kiválasztási pontszámai

Kivételek

Kivétel	Description
0001-es hiba	Kivétel történik, ha az adatkészlet egy vagy több megadott oszlopa nem található.
0003-as hiba	Kivétel történik, ha egy vagy több bemenet null vagy üres.
0004-es hiba	Kivétel akkor fordul elő, ha a paraméter kisebb vagy egyenlő egy adott értékkel.
0017-es hiba	Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.

Lásd még

Funkció kiválasztása
Fisher Linear Discriminant Analysis
A–Z modullista

Megosztás a következőn keresztül: