Megosztás a következőn keresztül:


Hiányzó adatok eltávolítása összetevő

Ez a cikk az Azure Machine Learning-tervező egy összetevőjét ismerteti.

Ezzel az összetevőel eltávolíthatja, lecserélheti vagy kikövetkezheti a hiányzó értékeket.

Az adatelemzők gyakran ellenőrzik a hiányzó értékeket, majd különböző műveleteket hajtanak végre az adatok javításához vagy új értékek beszúrásához. Az ilyen tisztítási műveletek célja, hogy megelőzzék a modellek betanítása során felmerülő hiányzó adatok által okozott problémákat.

Ez az összetevő többféle műveletet támogat a hiányzó értékek "tisztításához", beleértve a következőket:

  • Hiányzó értékek lecserélése helyőrzőre, középértékre vagy más értékre
  • Hiányzó értékekkel rendelkező sorok és oszlopok teljes eltávolítása
  • Értékek következtetése statisztikai módszerek alapján

Az összetevő használata nem módosítja a forrásadatkészletet. Ehelyett létrehoz egy új adatkészletet a munkaterületen, amelyet a következő munkafolyamatban használhat. Az új, megtisztított adatkészletet újra felhasználhatja.

Ez az összetevő a hiányzó értékek tisztításához használt átalakítás definícióját is kiadja. Ezt az átalakítást az Átalakítás alkalmazása összetevővel újra használhatja más, azonos sémával rendelkező adathalmazokon.

Hiányzó adatok törlése

Ez az összetevő lehetővé teszi egy tisztítási művelet meghatározását. A tisztítási műveletet is mentheti, hogy később alkalmazhassa az új adatokra. A tisztítási folyamat létrehozásához és mentéséhez tekintse meg a következő szakaszokat:

Fontos

A hiányzó értékek kezelésére használt tisztítási módszer jelentősen befolyásolhatja az eredményeket. Javasoljuk, hogy kísérletezzen különböző módszerekkel. Vegye figyelembe az adott módszer használatának indoklását és az eredmények minőségét.

Hiányzó értékek cseréje

Minden alkalommal, amikor a Hiányzó adatok törlése összetevőt alkalmazza egy adatkészletre, a rendszer ugyanazt a tisztítási műveletet alkalmazza az összes kiválasztott oszlopra. Ezért ha különböző módszerekkel kell törölnie a különböző oszlopokat, használja az összetevő különálló példányait.

  1. Adja hozzá a Hiányzó adatok törlése összetevőt a folyamathoz, és csatlakoztassa a hiányzó értékeket tartalmazó adatkészletet.

  2. A törölni kívánt oszlopokhoz válassza ki a módosítani kívánt hiányzó értékeket tartalmazó oszlopokat. Több oszlopot is választhat, de minden kijelölt oszlopban ugyanazt a helyettesítő módszert kell használnia. Ezért általában külön kell törölnie a sztringoszlopokat és a numerikus oszlopokat.

    Ha például az összes numerikus oszlopban szeretné ellenőrizni a hiányzó értékeket:

    1. Jelölje ki a Hiányzó adatok törlése összetevőt, és kattintson az összetevő jobb oldali paneljén található Szerkesztés oszlopra .

    2. A Belefoglalás beállításnál válassza az Oszloptípusok lehetőséget a legördülő listából, majd válassza a Numerikus lehetőséget.

    A választott tisztítási vagy cseremetódusnak a kijelölés összes oszlopára alkalmazhatónak kell lennie. Ha egy oszlop adatai nem kompatibilisek a megadott művelettel, az összetevő hibát ad vissza, és leállítja a folyamatot.

  3. A Hiányzó értékek minimális aránya beállításnál adja meg a végrehajtandó művelethez szükséges hiányzó értékek minimális számát.

    Ezt a beállítást a Hiányzó értékek maximális aránya beállítással kombinálva határozhatja meg azokat a feltételeket, amelyek mellett tisztítási művelet történik az adathalmazon. Ha túl sok vagy túl kevés olyan sor van, amelyből hiányoznak értékek, a művelet nem hajtható végre.

    A megadott szám a hiányzó értékek és az oszlop összes értékének arányát jelöli. Alapértelmezés szerint a Minimális hiányzó érték arány tulajdonság értéke 0. Ez azt jelenti, hogy a hiányzó értékek akkor is törlődnek, ha csak egy hiányzó érték van.

    Figyelmeztetés

    Ezt a feltételt minden oszlopnak teljesítenie kell ahhoz, hogy a megadott művelet érvényes legyen. Tegyük fel például, hogy három oszlopot jelölt ki, majd a hiányzó értékek minimális arányát állítsa 0,2 (20%) értékre, de csak egy oszlopban vannak 20%-os hiányzó értékek. Ebben az esetben a törlési művelet csak a több mint 20%-os hiányzó értékeket tartalmazó oszlopra vonatkozik. Ezért a többi oszlop változatlan marad.

    Ha kétségei vannak a hiányzó értékek módosításával kapcsolatban, válassza a Hiányzó értékjelző oszlop létrehozása lehetőséget. A rendszer hozzáfűz egy oszlopot az adathalmazhoz, amely jelzi, hogy az egyes oszlopok megfelelnek-e a minimális és maximális tartományokra vonatkozó feltételeknek.

  4. A Hiányzó értékek maximális aránya beállításnál adja meg a művelet végrehajtásához megjeleníthető hiányzó értékek maximális számát.

    Előfordulhat például, hogy csak akkor szeretne hiányzó értékhelyettesítést végrehajtani, ha a sorok 30%-a vagy kevesebbe tartalmaz hiányzó értékeket, de hagyja változatlanul az értékeket, ha a sorok több mint 30%-ában hiányoznak értékek.

    A számot a hiányzó értékek és az oszlop összes értékének arányaként határozza meg. Alapértelmezés szerint a Hiányzó értékek maximális aránya beállítás értéke 1. Ez azt jelenti, hogy a hiányzó értékek akkor is törlődnek, ha az oszlop értékeinek 100%-a hiányzik.

  5. A Tisztítási mód beállításnál válassza az alábbi lehetőségek egyikét a hiányzó értékek cseréjéhez vagy eltávolításához:

    • Egyéni helyettesítési érték: Ezzel a beállítással megadhat egy helyőrző értéket (például 0 vagy NA), amely az összes hiányzó értékre vonatkozik. A csereként megadott értéknek kompatibilisnek kell lennie az oszlop adattípusával.

    • Csere középértékre: Kiszámítja az oszlop középértékét, és a középértéket használja az oszlop minden hiányzó értékéhez.

      Csak egész, dupla vagy logikai adattípusú oszlopokra vonatkozik.

    • Csere mediánra: Kiszámítja az oszlop mediánértékét, és a mediánértéket használja az oszlop hiányzó értékeinek helyettesítésére.

      Csak az egész vagy dupla adattípusú oszlopokra vonatkozik.

    • Csere móddal: Kiszámítja az oszlop üzemmódját, és az oszlop minden hiányzó értékéhez a módot használja helyettesítő értékként.

      Egész, dupla, logikai vagy kategorikus adattípusú oszlopokra vonatkozik.

    • Teljes sor eltávolítása: Teljesen eltávolítja az adathalmaz egy vagy több hiányzó értéket tartalmazó sorát. Ez akkor hasznos, ha a hiányzó érték véletlenszerűen hiányzónak tekinthető.

    • Teljes oszlop eltávolítása: Teljesen eltávolítja az adathalmaz egy vagy több hiányzó értéket tartalmazó oszlopát.

  6. A Helyettesítő érték lehetőség akkor érhető el, ha az Egyéni helyettesítési érték lehetőséget választotta. Írjon be egy új értéket, amelyet az oszlop összes hiányzó értékének helyettesítő értékeként szeretne használni.

    Vegye figyelembe, hogy ezt a beállítást csak olyan oszlopokban használhatja, amelyek egész számot, dupla, logikai vagy sztringet tartalmaznak.

  7. Hiányzó értékmutató-oszlop létrehozása: Válassza ezt a lehetőséget, ha valamilyen jelzést szeretne megjeleníteni arról, hogy az oszlop értékei megfelelnek-e a hiányzó értéktisztítás feltételeinek. Ez a lehetőség különösen akkor hasznos, ha új tisztítási műveletet állít be, és meg szeretné győződni arról, hogy a tervezett módon működik.

  8. Küldje el a folyamatot.

Results (Eredmények)

Az összetevő két kimenetet ad vissza:

  • Megtisztított adatkészlet: A kijelölt oszlopokból álló adatkészlet, a megadott módon kezelt hiányzó értékekkel, valamint egy mutatóoszloppal, ha ezt a beállítást választotta.

    A tisztításra nem kijelölt oszlopok szintén "átkerülnek".

  • Tisztítási átalakítás: A tisztításhoz használt adatátalakítás, amely menthető a munkaterületen, és később alkalmazható az új adatokra.

Mentett tisztítási művelet alkalmazása új adatokra

Ha gyakran kell megismételnie a tisztítási műveleteket, javasoljuk, hogy mentse az adattisztítási receptet átalakításként, hogy ugyanazzal az adatkészlettel újra felhasználhassa őket. A tisztítási átalakítások mentése különösen hasznos, ha gyakran újra kell importálnia, majd törölnie kell az azonos sémával rendelkező adatokat.

  1. Adja hozzá az Átalakítás alkalmazása összetevőt a folyamathoz.

  2. Adja hozzá a törölni kívánt adathalmazt, és csatlakoztassa az adathalmazt a jobb oldali bemeneti porthoz.

  3. Bontsa ki az Átalakítások csoportot a tervező bal oldali paneljén. Keresse meg a mentett átalakítást, és húzza a folyamatba.

  4. Csatlakoztassa a mentett átalakítást az Átalakítás alkalmazása bal oldali bemeneti portjához.

    Mentett átalakítás alkalmazásakor nem választhatja ki azokat az oszlopokat, amelyekre az átalakítás vonatkozik. Ennek az az oka, hogy az átalakítás már definiálva van, és automatikusan vonatkozik az eredeti műveletben megadott oszlopokra.

    Tegyük fel azonban, hogy numerikus oszlopok egy részhalmazán hozott létre átalakítást. Ezt az átalakítást hiba nélkül alkalmazhatja vegyes oszloptípusú adathalmazokra, mivel a hiányzó értékek csak a megfelelő numerikus oszlopokban módosulnak.

  5. Küldje el a folyamatot.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .