Megosztás a következőn keresztül:


Szűrőalapú szolgáltatásválasztás

Ez a cikk azt ismerteti, hogyan használhatja a Szűrőalapú funkciókijelölés összetevőt az Azure Machine Learning Designerben. Ez az összetevő segít azonosítani a bemeneti adathalmaz azon oszlopait, amelyek a legnagyobb prediktív teljesítménnyel rendelkeznek.

A funkcióválasztás általában a statisztikai tesztek bemenetekre való alkalmazásának folyamatára vonatkozik, adott kimenet alapján. A cél annak meghatározása, hogy mely oszlopok prediktívabbak a kimenetben. A Szűrőalapú funkciókijelölés összetevő több funkciókijelölési algoritmus közül választhat. Az összetevő olyan korrelációs módszereket tartalmaz, mint a Pearson-korreláció és a khi-négyzetes értékek.

A Szűrőalapú funkciókijelölés összetevő használatakor meg kell adnia egy adatkészletet, és azonosítania kell a címkét vagy függő változót tartalmazó oszlopot. Ezután meg kell adnia egyetlen metódust, amelyet a funkció fontosságának mérésére használhat.

Az összetevő egy olyan adatkészletet ad ki, amely a legjobb funkcióoszlopokat tartalmazza a prediktív teljesítmény alapján rangsorolva. Emellett a kiválasztott metrikából adja ki a funkciók nevét és pontszámait.

Mi a szűrőalapú funkció kiválasztása?

Ezt a funkciókijelölési összetevőt "szűrőalapúnak" nevezik, mert a kiválasztott metrika használatával keres irreleváns attribútumokat. Ezután kiszűri a redundáns oszlopokat a modellből. Egyetlen statisztikai mértéket választ ki, amely megfelel az adatoknak, és az összetevő kiszámítja az egyes funkcióoszlopok pontszámát. Az oszlopok a funkciópontszámuk alapján lesznek rangsorolva.

A megfelelő funkciók kiválasztásával javíthatja a besorolás pontosságát és hatékonyságát.

A prediktív modell létrehozásához általában csak a legjobb pontszámmal rendelkező oszlopokat használja. A gyenge funkciókijelölési pontszámokkal rendelkező oszlopok az adathalmazban hagyhatók, és figyelmen kívül hagyhatók a modell létrehozásakor.

Funkciókijelölési metrikák kiválasztása

A Filter-Based funkciókijelölési összetevő különböző metrikákat biztosít az egyes oszlopokban található információs érték értékeléséhez. Ez a szakasz az egyes metrikák általános leírását és alkalmazásának módját ismerteti. Az egyes metrikák használatára vonatkozó további követelményeket a műszaki megjegyzésekben és az egyes összetevők konfigurálására vonatkozó utasításokban találja.

  • Pearson-korreláció

    A Pearson korrelációs statisztikáját vagy Pearson korrelációs együtthatóját a statisztikai modellekben értékként r ismerjük. Bármely két változó esetében egy értéket ad vissza, amely a korreláció erősségét jelzi.

    A Pearson korrelációs együtthatóját két változó kovarianciája alapján számítjuk ki, és elosztjuk a szórások szorzatával. A két változó skálázási változásai nem befolyásolják az együtthatót.

  • Khi négyzet

    A kétirányú khi-négyzetes teszt egy statisztikai módszer, amely azt méri, hogy milyen közel vannak a várt értékek a tényleges eredményekhez. A módszer feltételezi, hogy a változók véletlenszerűek, és független változók megfelelő mintájából származnak. Az eredményként kapott khi-négyzetes statisztika azt jelzi, hogy milyen messze vannak az eredmények a várt (véletlenszerű) eredménytől.

Tipp

Ha az egyéni funkciókijelölési módszerhez másik beállításra van szüksége, használja az R-szkript végrehajtása összetevőt.

Filter-Based funkciókijelölés konfigurálása

Szabványos statisztikai metrikát választ. Az összetevő kiszámítja az oszloppárok közötti korrelációt: a címkeoszlopot és egy funkcióoszlopot.

  1. Adja hozzá a Filter-Based Funkciókijelölés összetevőt a folyamathoz. A tervezőben a Funkció kiválasztása kategóriában találja.

  2. Csatlakoztassa a bemeneti adatkészletet, amely legalább két olyan oszlopot tartalmaz, amelyek potenciális funkciók.

    Az IsFeature attribútum beállításához a Metaadatok szerkesztése összetevővel győződjön meg arról, hogy egy oszlop elemzése és egy funkciópontszám létrehozása történik.

    Fontos

    Győződjön meg arról, hogy a bemenetként megadott oszlopok potenciális funkciók. Egy egyetlen értéket tartalmazó oszlop például nem tartalmaz információs értéket.

    Ha tudja, hogy egyes oszlopok rossz szolgáltatásokat jelentenek, eltávolíthatja őket az oszlopkijelölésből. A Metaadatok szerkesztése összetevő használatával kategorikusként is megjelölheti őket.

  3. A Funkciópontozási módszer esetében válassza ki az alábbi, a pontszámok kiszámításához használni kívánt statisztikai módszerek egyikét.

    Metódus Követelmények
    Pearson-korreláció A címke lehet szöveg vagy numerikus. A szolgáltatásoknak numerikusnak kell lenniük.
    Khi négyzet A címkék és a funkciók lehetnek szövegesek vagy numerikusak. Ez a módszer két kategorikus oszlopban használható a funkció fontosságának kiszámításához.

    Tipp

    Ha módosítja a kijelölt metrikát, az összes többi kijelölés alaphelyzetbe áll. Ezért először ezt a beállítást kell beállítania.

  4. Válassza a Csak funkcióoszlopok használata lehetőséget, ha csak a korábban funkcióként megjelölt oszlopokhoz szeretne pontszámot létrehozni.

    Ha törli ezt a beállítást, az összetevő létrehoz egy pontszámot bármely olyan oszlophoz, amely egyébként megfelel a feltételeknek, a kívánt funkciók számában megadott oszlopok számával.

  5. A Cél oszlopnál válassza a Launch column selector (Oszlop indítása) lehetőséget a címkeoszlop név vagy index szerinti kiválasztásához. (Az indexek egy-alapúak.)
    Minden statisztikai korrelációt tartalmazó metódushoz címkeoszlop szükséges. Az összetevő tervezési időt jelző hibát ad vissza, ha nem választ címkeoszlopot vagy több címkeoszlopot.

  6. A Kívánt szolgáltatások száma mezőben adja meg az eredményül visszaadni kívánt szolgáltatásoszlopok számát:

    • A minimálisan megadható funkciók száma egy, de javasoljuk, hogy növelje ezt az értéket.

    • Ha a kívánt funkciók megadott száma nagyobb, mint az adathalmaz oszlopainak száma, akkor a rendszer az összes szolgáltatást visszaadja. A rendszer még a nulla pontszámmal rendelkező funkciókat is visszaadja.

    • Ha kevesebb eredményoszlopot ad meg, mint a funkcióoszlopok, a szolgáltatások csökkenő pontszámmal lesznek rangsorolva. A rendszer csak a legfontosabb funkciókat adja vissza.

  7. Küldje el a folyamatot.

Fontos

Ha a szűrőalapú funkciókijelölési következtetést szeretné használni, az Oszlopok kiválasztása átalakítás funkcióval kell tárolnia a kiválasztott funkciót, az Átalakítás alkalmazása lehetőséget pedig a kiválasztott funkciónak a pontozási adathalmazra való alkalmazásához.

A folyamat létrehozásához tekintse meg az alábbi képernyőképet, és győződjön meg arról, hogy az oszlopkijelölések megegyeznek a pontozási folyamattal.

Mintafolyamat

Results (Eredmények)

A feldolgozás befejezése után:

  • Az elemzett funkciók oszlopainak és pontszámainak teljes listájának megtekintéséhez kattintson a jobb gombbal az összetevőre, és válassza a Vizualizáció lehetőséget.

  • Ha a funkcióválasztási feltételek alapján szeretné megtekinteni az adathalmazt, kattintson a jobb gombbal az összetevőre, és válassza a Vizualizáció lehetőséget.

Ha az adathalmaz a vártnál kevesebb oszlopot tartalmaz, ellenőrizze az összetevő beállításait. Ellenőrizze a bemenetként megadott oszlopok adattípusait is. Ha például a Kívánt szolgáltatások számát 1 értékre állítja, a kimeneti adatkészlet csak két oszlopot tartalmaz: a címkeoszlopot és a legrangosabban rangsorolt funkcióoszlopot.

Technikai megjegyzések

Megvalósítás részletei

Ha Pearson-korrelációt használ egy numerikus funkcióhoz és egy kategorikus címkéhez, a függvény pontszáma a következőképpen lesz kiszámítva:

  1. A kategorikus oszlop minden szintjén számítsa ki a numerikus oszlop feltételes középértékét.

  2. A feltételes eszközök oszlopának korrelációja a numerikus oszlopmal.

Követelmények

  • A funkciókijelölési pontszám nem hozható létre egyetlen címke vagy pontszám oszlopként megjelölt oszlophoz sem.

  • Ha olyan adattípusú pontozási metódust próbál használni, amelyet a metódus nem támogat, az összetevő hibát fog okozni. Vagy nulla pontszám lesz hozzárendelve az oszlophoz.

  • Ha egy oszlop logikai (igaz/hamis) értékeket tartalmaz, azokat a és False = 0a értékként True = 1 dolgozza fel a rendszer.

  • Az oszlop nem lehet funkció, ha címkeként vagy pontszámként lett megjelölve.

A hiányzó értékek kezelése

  • Céloszlopként (címkeként) nem adható meg olyan oszlop, amely az összes hiányzó értékkel rendelkezik.

  • Ha egy oszlop hiányzó értékeket tartalmaz, az összetevő figyelmen kívül hagyja őket, amikor az oszlop pontszámát számítja ki.

  • Ha egy funkcióoszlopként kijelölt oszlop összes hiányzó értékkel rendelkezik, az összetevő nulla pontszámot rendel hozzá.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .