Szűrőalapú szolgáltatásválasztás
Ez a cikk azt ismerteti, hogyan használhatja a Szűrőalapú funkciókijelölés összetevőt az Azure Machine Learning Designerben. Ez az összetevő segít azonosítani a bemeneti adathalmaz azon oszlopait, amelyek a legnagyobb prediktív teljesítménnyel rendelkeznek.
A funkcióválasztás általában a statisztikai tesztek bemenetekre való alkalmazásának folyamatára vonatkozik, adott kimenet alapján. A cél annak meghatározása, hogy mely oszlopok prediktívabbak a kimenetben. A Szűrőalapú funkciókijelölés összetevő több funkciókijelölési algoritmus közül választhat. Az összetevő olyan korrelációs módszereket tartalmaz, mint a Pearson-korreláció és a khi-négyzetes értékek.
A Szűrőalapú funkciókijelölés összetevő használatakor meg kell adnia egy adatkészletet, és azonosítania kell a címkét vagy függő változót tartalmazó oszlopot. Ezután meg kell adnia egyetlen metódust, amelyet a funkció fontosságának mérésére használhat.
Az összetevő egy olyan adatkészletet ad ki, amely a legjobb funkcióoszlopokat tartalmazza a prediktív teljesítmény alapján rangsorolva. Emellett a kiválasztott metrikából adja ki a funkciók nevét és pontszámait.
Mi a szűrőalapú funkció kiválasztása?
Ezt a funkciókijelölési összetevőt "szűrőalapúnak" nevezik, mert a kiválasztott metrika használatával keres irreleváns attribútumokat. Ezután kiszűri a redundáns oszlopokat a modellből. Egyetlen statisztikai mértéket választ ki, amely megfelel az adatoknak, és az összetevő kiszámítja az egyes funkcióoszlopok pontszámát. Az oszlopok a funkciópontszámuk alapján lesznek rangsorolva.
A megfelelő funkciók kiválasztásával javíthatja a besorolás pontosságát és hatékonyságát.
A prediktív modell létrehozásához általában csak a legjobb pontszámmal rendelkező oszlopokat használja. A gyenge funkciókijelölési pontszámokkal rendelkező oszlopok az adathalmazban hagyhatók, és figyelmen kívül hagyhatók a modell létrehozásakor.
Funkciókijelölési metrikák kiválasztása
A Filter-Based funkciókijelölési összetevő különböző metrikákat biztosít az egyes oszlopokban található információs érték értékeléséhez. Ez a szakasz az egyes metrikák általános leírását és alkalmazásának módját ismerteti. Az egyes metrikák használatára vonatkozó további követelményeket a műszaki megjegyzésekben és az egyes összetevők konfigurálására vonatkozó utasításokban találja.
Pearson-korreláció
A Pearson korrelációs statisztikáját vagy Pearson korrelációs együtthatóját a statisztikai modellekben értékként
r
ismerjük. Bármely két változó esetében egy értéket ad vissza, amely a korreláció erősségét jelzi.A Pearson korrelációs együtthatóját két változó kovarianciája alapján számítjuk ki, és elosztjuk a szórások szorzatával. A két változó skálázási változásai nem befolyásolják az együtthatót.
Khi négyzet
A kétirányú khi-négyzetes teszt egy statisztikai módszer, amely azt méri, hogy milyen közel vannak a várt értékek a tényleges eredményekhez. A módszer feltételezi, hogy a változók véletlenszerűek, és független változók megfelelő mintájából származnak. Az eredményként kapott khi-négyzetes statisztika azt jelzi, hogy milyen messze vannak az eredmények a várt (véletlenszerű) eredménytől.
Tipp
Ha az egyéni funkciókijelölési módszerhez másik beállításra van szüksége, használja az R-szkript végrehajtása összetevőt.
Filter-Based funkciókijelölés konfigurálása
Szabványos statisztikai metrikát választ. Az összetevő kiszámítja az oszloppárok közötti korrelációt: a címkeoszlopot és egy funkcióoszlopot.
Adja hozzá a Filter-Based Funkciókijelölés összetevőt a folyamathoz. A tervezőben a Funkció kiválasztása kategóriában találja.
Csatlakoztassa a bemeneti adatkészletet, amely legalább két olyan oszlopot tartalmaz, amelyek potenciális funkciók.
Az IsFeature attribútum beállításához a Metaadatok szerkesztése összetevővel győződjön meg arról, hogy egy oszlop elemzése és egy funkciópontszám létrehozása történik.
Fontos
Győződjön meg arról, hogy a bemenetként megadott oszlopok potenciális funkciók. Egy egyetlen értéket tartalmazó oszlop például nem tartalmaz információs értéket.
Ha tudja, hogy egyes oszlopok rossz szolgáltatásokat jelentenek, eltávolíthatja őket az oszlopkijelölésből. A Metaadatok szerkesztése összetevő használatával kategorikusként is megjelölheti őket.
A Funkciópontozási módszer esetében válassza ki az alábbi, a pontszámok kiszámításához használni kívánt statisztikai módszerek egyikét.
Metódus Követelmények Pearson-korreláció A címke lehet szöveg vagy numerikus. A szolgáltatásoknak numerikusnak kell lenniük. Khi négyzet A címkék és a funkciók lehetnek szövegesek vagy numerikusak. Ez a módszer két kategorikus oszlopban használható a funkció fontosságának kiszámításához. Tipp
Ha módosítja a kijelölt metrikát, az összes többi kijelölés alaphelyzetbe áll. Ezért először ezt a beállítást kell beállítania.
Válassza a Csak funkcióoszlopok használata lehetőséget, ha csak a korábban funkcióként megjelölt oszlopokhoz szeretne pontszámot létrehozni.
Ha törli ezt a beállítást, az összetevő létrehoz egy pontszámot bármely olyan oszlophoz, amely egyébként megfelel a feltételeknek, a kívánt funkciók számában megadott oszlopok számával.
A Cél oszlopnál válassza a Launch column selector (Oszlop indítása) lehetőséget a címkeoszlop név vagy index szerinti kiválasztásához. (Az indexek egy-alapúak.)
Minden statisztikai korrelációt tartalmazó metódushoz címkeoszlop szükséges. Az összetevő tervezési időt jelző hibát ad vissza, ha nem választ címkeoszlopot vagy több címkeoszlopot.A Kívánt szolgáltatások száma mezőben adja meg az eredményül visszaadni kívánt szolgáltatásoszlopok számát:
A minimálisan megadható funkciók száma egy, de javasoljuk, hogy növelje ezt az értéket.
Ha a kívánt funkciók megadott száma nagyobb, mint az adathalmaz oszlopainak száma, akkor a rendszer az összes szolgáltatást visszaadja. A rendszer még a nulla pontszámmal rendelkező funkciókat is visszaadja.
Ha kevesebb eredményoszlopot ad meg, mint a funkcióoszlopok, a szolgáltatások csökkenő pontszámmal lesznek rangsorolva. A rendszer csak a legfontosabb funkciókat adja vissza.
Küldje el a folyamatot.
Fontos
Ha a szűrőalapú funkciókijelölési következtetést szeretné használni, az Oszlopok kiválasztása átalakítás funkcióval kell tárolnia a kiválasztott funkciót, az Átalakítás alkalmazása lehetőséget pedig a kiválasztott funkciónak a pontozási adathalmazra való alkalmazásához.
A folyamat létrehozásához tekintse meg az alábbi képernyőképet, és győződjön meg arról, hogy az oszlopkijelölések megegyeznek a pontozási folyamattal.
Results (Eredmények)
A feldolgozás befejezése után:
Az elemzett funkciók oszlopainak és pontszámainak teljes listájának megtekintéséhez kattintson a jobb gombbal az összetevőre, és válassza a Vizualizáció lehetőséget.
Ha a funkcióválasztási feltételek alapján szeretné megtekinteni az adathalmazt, kattintson a jobb gombbal az összetevőre, és válassza a Vizualizáció lehetőséget.
Ha az adathalmaz a vártnál kevesebb oszlopot tartalmaz, ellenőrizze az összetevő beállításait. Ellenőrizze a bemenetként megadott oszlopok adattípusait is. Ha például a Kívánt szolgáltatások számát 1 értékre állítja, a kimeneti adatkészlet csak két oszlopot tartalmaz: a címkeoszlopot és a legrangosabban rangsorolt funkcióoszlopot.
Technikai megjegyzések
Megvalósítás részletei
Ha Pearson-korrelációt használ egy numerikus funkcióhoz és egy kategorikus címkéhez, a függvény pontszáma a következőképpen lesz kiszámítva:
A kategorikus oszlop minden szintjén számítsa ki a numerikus oszlop feltételes középértékét.
A feltételes eszközök oszlopának korrelációja a numerikus oszlopmal.
Követelmények
A funkciókijelölési pontszám nem hozható létre egyetlen címke vagy pontszám oszlopként megjelölt oszlophoz sem.
Ha olyan adattípusú pontozási metódust próbál használni, amelyet a metódus nem támogat, az összetevő hibát fog okozni. Vagy nulla pontszám lesz hozzárendelve az oszlophoz.
Ha egy oszlop logikai (igaz/hamis) értékeket tartalmaz, azokat a és
False = 0
a értékkéntTrue = 1
dolgozza fel a rendszer.Az oszlop nem lehet funkció, ha címkeként vagy pontszámként lett megjelölve.
A hiányzó értékek kezelése
Céloszlopként (címkeként) nem adható meg olyan oszlop, amely az összes hiányzó értékkel rendelkezik.
Ha egy oszlop hiányzó értékeket tartalmaz, az összetevő figyelmen kívül hagyja őket, amikor az oszlop pontszámát számítja ki.
Ha egy funkcióoszlopként kijelölt oszlop összes hiányzó értékkel rendelkezik, az összetevő nulla pontszámot rendel hozzá.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket .
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: