Értékek levágása
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
A Clip Values összetevővel azonosíthatja és igény szerint lecserélheti a megadott küszöbérték feletti vagy alatti adatértékeket középértékre, állandóra vagy más helyettesítő értékre.
Az összetevőt egy olyan adatkészlethez csatlakoztatja, amely tartalmazza a kivágni kívánt számokat, kiválasztja a használni kívánt oszlopokat, majd beállít egy küszöbértéket vagy értéktartományt, valamint egy helyettesítő módszert. Az összetevő csak az eredményeket, vagy az eredeti adatkészlethez hozzáfűzött módosított értékeket is képes kimenetelni.
Clip Values konfigurálása
Mielőtt hozzákezdene, azonosítsa a kivágni kívánt oszlopokat és a használni kívánt módszert. Javasoljuk, hogy először tesztelje a kivágási módszereket egy kis adathalmazon.
Az összetevő ugyanazokat a feltételeket és a cseremetódusokat alkalmazza a kijelölésben szereplő összes oszlopra. Ezért mindenképpen zárja ki azokat az oszlopokat, amelyeket nem szeretne módosítani.
Ha kivágási módszereket vagy különböző feltételeket kell alkalmaznia egyes oszlopokra, minden hasonló oszlopkészlethez új Clip Values-példányt kell használnia.
Adja hozzá a Clip Values összetevőt a folyamathoz, és csatlakoztassa a módosítani kívánt adatkészlethez. Ezt az összetevőt az Adatátalakítás területen, a Méretezés és a Csökkentés kategóriában találja.
Az oszlopok listájában az Oszlopkijelölő használatával válassza ki azokat az oszlopokat, amelyekre a clip values értéket alkalmazza.
Küszöbértékek halmaza esetén válassza az alábbi lehetőségek egyikét a legördülő listából. Ezek a beállítások határozzák meg, hogyan állíthatja be a felső és az alsó határt az elfogadható értékekhez és a kivágandó értékekhez.
ClipPeaks: Ha csúcsok szerint vágja ki az értékeket, csak egy felső határt kell megadnia. A rendszer lecseréli a határértéknél nagyobb értékeket.
ClipSubpeaks: Ha alrészletek szerint vágja ki az értékeket, csak egy alsó határt kell megadnia. A rendszer lecseréli azokat az értékeket, amelyek kisebbek a határértéknél.
ClipPeaksAndSubpeaks: Ha csúcsok és almappák szerint vágja ki az értékeket, a felső és az alsó határt is megadhatja. A tartományon kívüli értékek lecserélődnek. A határértékekkel egyező értékek nem változnak.
Az előző lépésben megadott beállítástól függően a következő küszöbértékeket állíthatja be:
- Alsó küszöbérték: Csak akkor jelenik meg, ha a ClipSubPeaks lehetőséget választja
- Felső küszöbérték: Csak akkor jelenik meg, ha a ClipPeaks lehetőséget választja
- Küszöbérték: Csak akkor jelenik meg, ha a ClipPeaksAndSubPeaks lehetőséget választja
Minden küszöbértéktípushoz válassza az Állandó vagy a Percentilis lehetőséget.
Ha az Állandó lehetőséget választja, írja be a szövegmezőbe a maximális vagy minimális értéket. Tegyük fel például, hogy tudja, hogy a 999 értéket helyőrző értékként használták. Választhatja az Állandót a felső küszöbértékhez, a 999-es értéket pedig a felső küszöbérték Állandó értékéhez.
Ha a Percentilis lehetőséget választja, az oszlopértékeket egy percentilistartományra korlátozza.
Tegyük fel például, hogy csak a 10–80 percentilis tartomány értékeit szeretné megtartani, és az összes többit lecserélni. Válassza a Percentilis lehetőséget, majd írja be a 10 értéket a percentilis értékhez az alsó küszöbértékhez, a 80-at pedig a percentilis értékhez a felső küszöbértékhez.
A percentilistartományok használatára vonatkozó példákért tekintse meg a percentilisekről szóló szakaszt.
Adjon meg egy helyettesítő értéket.
A megadott határokkal pontosan egyező számok az engedélyezett értéktartományon belülre kerülnek, ezért nem lesznek lecserélve. A megadott tartományon kívül eső számok helyébe a helyettesítő érték lép.
- Csúcsérték helyettesítése: A megadott küszöbértéknél nagyobb összes oszlopérték helyettesítésére szolgáló értéket határozza meg.
- Helyettesítő érték az altevékenységekhez: A megadott küszöbértéknél kisebb összes oszlopérték helyettesítésére használandó értéket határozza meg.
- Ha a ClipPeaksAndSubpeaks beállítást használja, külön helyettesítő értékeket adhat meg a felső és az alsó levágott értékekhez.
A következő helyettesítő értékek támogatottak:
Küszöbérték: A levágott értékeket a megadott küszöbértékre cseréli.
Középérték: A levágott értékeket az oszlopértékek középértékére cseréli. A középérték kiszámítása az értékek kivágása előtt történik.
Medián: A levágott értékeket az oszlopértékek mediánjára cseréli. A medián kiszámítása az értékek kivágása előtt történik.
Hiányzik. A levágott értékeket a hiányzó (üres) értékre cseréli.
Mutatóoszlopok hozzáadása: Válassza ezt a beállítást, ha új oszlopot szeretne létrehozni, amely jelzi, hogy a megadott kivágási művelet alkalmazva van-e az adott sor adataira. Ez a beállítás akkor hasznos, ha új kivágási és helyettesítési értékeket tesztel.
Felülírás jelző: Adja meg, hogyan szeretné létrehozni az új értékeket. Alapértelmezés szerint a Clip Values egy új oszlopot hoz létre, amely a csúcsértékeket a kívánt küszöbértékre vágja. Az új értékek felülírják az eredeti oszlopot.
Ha meg szeretné tartani az eredeti oszlopot, és új oszlopot szeretne hozzáadni a levágott értékekkel, törölje a kijelölést.
Küldje el a folyamatot.
Kattintson a jobb gombbal a Clip Values összetevőre, és válassza a Vizualizáció vagy az összetevő kiválasztása lehetőséget, és váltson a jobb oldali panel Kimenetek lapjára, kattintson a portkimenetek hisztogram ikonjára, és tekintse át az értékeket, és győződjön meg arról, hogy a kivágási művelet megfelel az elvárásainak.
Példák a percentilisek használatával végzett kivágáshoz
A percentilisek szerinti kivágás működésének megértéséhez fontolja meg egy 10 sorból álló adatkészletet, amelynek mindegyik értéke 1–10.
Ha a percentilist használja a felső küszöbértékként, a 90. percentilis értékénél az adathalmaz összes értékének 90 százalékának ennél kisebbnek kell lennie.
Ha a percentilist használja alsó küszöbértékként, a 10. percentilis értékénél az adathalmaz összes értékének 10 százalékának ennél kisebbnek kell lennie.
A küszöbértékek halmazához válassza a ClipPeaksAndSubPeaks lehetőséget.
Felső küszöbérték esetén válassza a Percentilis lehetőséget, és a Percentilis számhoz írja be a 90 értéket.
A felső helyettesítő értéknél válassza a Hiányzó érték lehetőséget.
Alsó küszöbérték esetén válassza a Percentilis lehetőséget, és a Percentilis számhoz írja be a 10 értéket.
Az Alacsonyabb helyettesítő érték beállításnál válassza a Hiányzó érték lehetőséget.
Törölje a jelölőnégyzet felülírása jelző kijelölését, és válassza ki a választógombot, a Jelzőoszlop hozzáadása lehetőséget.
Most próbálja ki ugyanazt a folyamatot a 60-assal, mint a felső percentilis küszöbérték, 30 pedig az alsó percentilis küszöbérték, és használja a küszöbértéket helyettesítő értékként. Az alábbi táblázat a következő két eredményt hasonlítja össze:
Cserélje le a hiányzóra; Felső küszöbérték = 90; Alsó küszöbérték = 20
Cserélje le a küszöbértéket; Felső percentilis = 60; Alsó percentilis = 40
Eredeti adatok | Csere hiányzóra | Csere küszöbértékre |
---|---|---|
0 2 3 4 5 6 7 8 9 10 |
IGAZ IGAZ 3, HAMIS 4, HAMIS 5, HAMIS 6, HAMIS 7, HAMIS 8, HAMIS 9, HAMIS IGAZ |
4, IGAZ 4, IGAZ 4, IGAZ 4, IGAZ 5, HAMIS 6, HAMIS 7, IGAZ 7, IGAZ 7, IGAZ 7, IGAZ |
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket.