Hiányzó adatok eltávolítása összetevő
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
Az összetevő használatával eltávolíthatja, lecserélheti vagy kikövetkezheti a hiányzó értékeket.
Az adattudósok gyakran ellenőrzik a hiányzó értékeket, majd különböző műveleteket hajtanak végre az adatok javítása vagy új értékek beszúrása érdekében. Az ilyen tisztítási műveletek célja, hogy megelőzzék a modellek betanítása során felmerülő hiányzó adatok által okozott problémákat.
Ez az összetevő több művelettípust támogat a hiányzó értékek "tisztításához", például:
- Hiányzó értékek lecserélése helyőrzőre, középértékre vagy más értékre
- Hiányzó értékekkel rendelkező sorok és oszlopok teljes eltávolítása
- Értékek következtetése statisztikai módszerek alapján
Az összetevő használata nem módosítja a forrásadatkészletet. Ehelyett létrehoz egy új adatkészletet a munkaterületen, amelyet a következő munkafolyamatban használhat. Az új, megtisztított adatkészletet is mentheti újra.
Ez az összetevő a hiányzó értékek törléséhez használt átalakítás definícióját is kiadja. Ezt az átalakítást más, azonos sémával rendelkező adathalmazokon is használhatja az Átalakítás alkalmazása összetevővel.
Hiányzó adatok törlése
Ez az összetevő lehetővé teszi a tisztítási művelet meghatározását. A tisztítási műveletet is mentheti, hogy később alkalmazhassa az új adatokra. A tisztítási folyamat létrehozásának és mentésének következő szakaszait tekintheti meg:
Fontos
A hiányzó értékek kezeléséhez használt tisztítási módszer jelentősen befolyásolhatja az eredményeket. Javasoljuk, hogy kísérletezzen különböző módszerekkel. Fontolja meg egy adott módszer használatának indoklását és az eredmények minőségét.
Hiányzó értékek cseréje
Minden alkalommal, amikor a Hiányzó adatok törlése összetevőt egy adatkészletre alkalmazza, a rendszer minden kiválasztott oszlopra ugyanazt a tisztítási műveletet alkalmazza. Ezért ha különböző módszerekkel kell törölnie a különböző oszlopokat, használja az összetevő különálló példányait.
Adja hozzá a Hiányzó adatok törlése összetevőt a folyamathoz, és csatlakoztassa a hiányzó értékeket tartalmazó adatkészletet.
A törölni kívánt oszlopokhoz válassza ki a módosítani kívánt hiányzó értékeket tartalmazó oszlopokat. Több oszlopot is választhat, de az összes kijelölt oszlopban ugyanazt a cseremetódust kell használnia. Ezért általában külön kell törölnie a sztringoszlopokat és a numerikus oszlopokat.
Ha például az összes numerikus oszlopban szeretné ellenőrizni a hiányzó értékeket:
Jelölje ki a Hiányzó adatok törlése összetevőt, és kattintson az összetevő jobb oldali paneljének Szerkesztés oszlopára .
A Belefoglalás beállításnál válassza az Oszloptípusok lehetőséget a legördülő listában, majd válassza a Numerikus lehetőséget.
A választott tisztítási vagy cseremetódusnak a kijelölés minden oszlopára alkalmazhatónak kell lennie. Ha bármelyik oszlop adatai nem kompatibilisek a megadott művelettel, az összetevő hibát ad vissza, és leállítja a folyamatot.
A Hiányzó értékek minimális aránya mezőben adja meg a végrehajtandó művelethez szükséges hiányzó értékek minimális számát.
Ezt a lehetőséget a Hiányzó értékek maximális aránya beállítással kombinálva határozza meg azokat a feltételeket, amelyek mellett tisztítási műveletet hajt végre az adathalmazon. Ha túl sok vagy túl kevés sor hiányzik, a művelet nem hajtható végre.
A megadott szám a hiányzó értékek és az oszlop összes értékének arányát jelöli. Alapértelmezés szerint a Minimális hiányzó érték arány tulajdonság értéke 0. Ez azt jelenti, hogy a hiányzó értékek akkor is törlődnek, ha csak egy hiányzó érték van.
Figyelmeztetés
Ezt a feltételt minden oszlopnak teljesítenie kell ahhoz, hogy a megadott művelet alkalmazható legyen. Tegyük fel például, hogy három oszlopot jelölt ki, majd a hiányzó értékek minimális arányát 0,2 -re (20%), de csak egy oszlopban 20%. Ebben az esetben a törlési művelet csak a több mint 20%-os hiányzó értékeket tartalmazó oszlopra vonatkozik. Ezért a többi oszlop változatlan marad.
Ha kétségei vannak a hiányzó értékek módosításával kapcsolatban, válassza a hiányzó értékjelző oszlop létrehozása lehetőséget. Az adatkészlethez egy oszlop van hozzáfűzve, amely jelzi, hogy az egyes oszlopok megfelelnek-e a minimális és maximális tartományokra vonatkozó megadott feltételeknek.
A Hiányzó értékek maximális aránya mezőben adja meg a végrehajtandó művelethez megjeleníthető hiányzó értékek maximális számát.
Előfordulhat például, hogy csak akkor szeretne hiányzó értékhelyettesítést végrehajtani, ha a sorok 30%-a vagy kevesebbe tartalmaz hiányzó értékeket, de ha a sorok több mint 30%-a tartalmaz hiányzó értékeket, hagyja meg az értékeket.
A számot a hiányzó értékek és az oszlop összes értékének arányaként határozza meg. Alapértelmezés szerint a hiányzó értékek maximális aránya 1. Ez azt jelenti, hogy a hiányzó értékek akkor is törlődnek, ha az oszlop értékeinek 100%-a hiányzik.
Tisztítási mód esetén válassza az alábbi lehetőségek egyikét a hiányzó értékek cseréjéhez vagy eltávolításához:
Egyéni helyettesítési érték: Ezzel a beállítással megadhat egy helyőrző értéket (például 0 vagy NA), amely az összes hiányzó értékre vonatkozik. A csereként megadott értéknek kompatibilisnek kell lennie az oszlop adattípusával.
Csere középértékre: Kiszámítja az oszlop középértékét, és a középértéket használja az oszlop minden hiányzó értékéhez.
Csak egész, dupla vagy logikai adattípusú oszlopokra vonatkozik.
Csere mediánra: Kiszámítja az oszlop mediánértékét, és a mediánértéket használja az oszlop hiányzó értékeinek helyettesítésére.
Csak olyan oszlopokra vonatkozik, amelyek egész vagy dupla adattípussal rendelkeznek.
Csere módra: Kiszámítja az oszlop üzemmódját, és az oszlop minden hiányzó értékének csereértékeként használja a módot.
Egész, dupla, logikai vagy kategorikus adattípusú oszlopokra vonatkozik.
Teljes sor eltávolítása: Teljesen eltávolítja az adathalmaz egy vagy több hiányzó értéket tartalmazó sorát. Ez akkor hasznos, ha a hiányzó érték véletlenszerűen hiányzónak tekinthető.
Teljes oszlop eltávolítása: Teljesen eltávolítja az adathalmaz egy vagy több hiányzó értéket tartalmazó oszlopát.
A Helyettesítő érték lehetőség akkor érhető el, ha kiválasztotta az egyéni helyettesítési értéket. Írjon be egy új értéket, amelyet helyettesítő értékként szeretne használni az oszlop összes hiányzó értékéhez.
Vegye figyelembe, hogy ezt a beállítást csak olyan oszlopokban használhatja, amelyekben az egész szám, a dupla, a logikai vagy a sztring szerepel.
Hiányzó értékjelző oszlop létrehozása: Válassza ezt a beállítást, ha azt szeretné jelezni, hogy az oszlop értékei megfelelnek-e a hiányzó értéktisztítás feltételeinek. Ez a lehetőség különösen akkor hasznos, ha új tisztítási műveletet állít be, és meg szeretné győződni arról, hogy a tervezett módon működik.
Küldje el a folyamatot.
Results (Eredmények)
Az összetevő két kimenetet ad vissza:
Megtisztított adatkészlet: A kijelölt oszlopokból álló adatkészlet, a megadott módon kezelt hiányzó értékekkel és egy mutatóoszlopmal, ha ezt a beállítást választotta.
A tisztításhoz nem kijelölt oszlopok szintén "át lettek adva".
Tisztítási átalakítás: A tisztításhoz használt adatátalakítás, amely menthető a munkaterületen, és később alkalmazható az új adatokra.
Mentett tisztítási művelet alkalmazása új adatokra
Ha gyakran kell ismételnie a tisztítási műveleteket, javasoljuk, hogy mentse az adattisztítás receptet átalakításként, hogy ugyanazzal az adatkészlettel újra felhasználhassa őket. A tisztítási átalakítás mentése különösen akkor hasznos, ha gyakran újra kell importálnia, majd törölnie kell az azonos sémával rendelkező adatokat.
Adja hozzá az Átalakítás alkalmazása összetevőt a folyamathoz.
Adja hozzá a törölni kívánt adathalmazt, és csatlakoztassa az adathalmazt a jobb oldali bemeneti porthoz.
Bontsa ki az Átalakítások csoportot a tervező bal oldali paneljén. Keresse meg a mentett átalakítást, és húzza a folyamatba.
Csatlakoztassa a mentett átalakítást az Átalakítás alkalmazása bal oldali bemeneti portjához.
Mentett átalakítás alkalmazásakor nem választhatja ki azokat az oszlopokat, amelyekre az átalakítás vonatkozik. Ennek az az oka, hogy az átalakítás már definiálva van, és automatikusan érvényes az eredeti műveletben megadott oszlopokra.
Tegyük fel azonban, hogy numerikus oszlopok egy részhalmazán hozott létre átalakítást. Ezt az átalakítást hiba nélkül alkalmazhatja vegyes oszloptípusú adathalmazokra, mert a hiányzó értékek csak a megfelelő numerikus oszlopokban módosulnak.
Küldje el a folyamatot.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket.