Hiányzó adatok törlése összetevő

Ez a cikk Azure Machine Learning tervező egyik összetevőjét ismerteti.

Ezzel az összetevőel eltávolíthatja, lecserélheti vagy kikövetkezheti a hiányzó értékeket.

Az adatelemzők gyakran ellenőrzik a hiányzó értékeket, majd különböző műveleteket hajtanak végre az adatok kijavítása vagy új értékek beszúrása érdekében. Az ilyen tisztítási műveletek célja, hogy megakadályozzák a modellek betanítása során felmerülő hiányzó adatok által okozott problémákat.

Ez az összetevő többféle típusú műveletet támogat a hiányzó értékek "tisztításához", beleértve a következőket:

  • Hiányzó értékek lecserélése helyőrzőre, középértékre vagy más értékre
  • Hiányzó értékekkel rendelkező sorok és oszlopok teljes eltávolítása
  • Értékek következtetése statisztikai módszerek alapján

Az összetevő használata nem változtatja meg a forrásadatkészletet. Ehelyett létrehoz egy új adatkészletet a munkaterületen, amelyet a következő munkafolyamatban használhat. Az új, megtisztított adatkészletet is mentheti újra.

Ez az összetevő a hiányzó értékek tisztításához használt átalakítás definícióját is kiadja. Ezt az átalakítást az Átalakítás alkalmazása összetevővel újra felhasználhatja más, azonos sémával rendelkező adathalmazokon.

Hiányzó adatok törlése használata

Ez az összetevő lehetővé teszi a tisztítási művelet meghatározását. A tisztítási műveletet mentheti is, hogy később alkalmazhassa az új adatokra. Tekintse meg a tisztítási folyamat létrehozásának és mentésének alábbi szakaszait:

Fontos

A hiányzó értékek kezeléséhez használt tisztítási módszer jelentősen befolyásolhatja az eredményeket. Javasoljuk, hogy kísérletezzen különböző módszerekkel. Vegye figyelembe egy adott módszer használatának indoklását és az eredmények minőségét.

Hiányzó értékek cseréje

Minden alkalommal, amikor a Clean Missing Data összetevőt egy adatkészletre alkalmazza, ugyanazt a tisztítási műveletet alkalmazza a rendszer minden kiválasztott oszlopra. Ezért ha különböző módszerekkel kell megtisztítania a különböző oszlopokat, használja az összetevő különálló példányait.

  1. Adja hozzá a Clean Missing Data összetevőt a folyamathoz, és csatlakoztassa a hiányzó értékeket tartalmazó adatkészletet.

  2. Az oszlopok megtisztításához válassza ki azokat az oszlopokat, amelyek a módosítani kívánt hiányzó értékeket tartalmazzák. Több oszlopot is választhat, de minden kijelölt oszlopban ugyanazt a helyettesítő módszert kell használnia. Ezért általában külön kell törölnie a sztringoszlopokat és a numerikus oszlopokat.

    Ha például az összes numerikus oszlopban keres hiányzó értékeket:

    1. Jelölje ki a Hiányzó adatok törlése összetevőt, és kattintson az összetevő jobb oldali paneljén található Szerkesztés oszlopra .

    2. A Belefoglalás beállításnál válassza ki az Oszloptípusokat a legördülő listából, majd válassza a Numerikus lehetőséget.

    A választott tisztítási vagy cseremetódusnak a kijelölés összes oszlopára alkalmazhatónak kell lennie. Ha egy oszlop adatai nem kompatibilisek a megadott művelettel, az összetevő hibát ad vissza, és leállítja a folyamatot.

  3. A minimális hiányzó érték arányhoz adja meg a végrehajtandó művelethez szükséges hiányzó értékek minimális számát.

    Ezt a lehetőséget a Hiányzó értékek maximális aránya beállítással kombinálva határozhatja meg azokat a feltételeket, amelyek mellett tisztítási műveletet hajtanak végre az adathalmazon. Ha túl sok vagy túl kevés olyan sor van, amelyből hiányoznak értékek, a művelet nem hajtható végre.

    A megadott szám a hiányzó értékek és az oszlop összes értékének arányát jelöli. Alapértelmezés szerint a Minimális hiányzó érték arány tulajdonság értéke 0. Ez azt jelenti, hogy a hiányzó értékek akkor is törlődnek, ha csak egy hiányzó érték van.

    Figyelmeztetés

    Ezt a feltételt minden oszlopnak teljesítenie kell ahhoz, hogy a megadott művelet alkalmazható legyen. Tegyük fel például, hogy három oszlopot jelölt ki, majd a hiányzó értékek minimális arányát állítsa 0,2 -re (20%), de csak egy oszlopban vannak 20%-os hiányzó értékek. Ebben az esetben a törlési művelet csak a több mint 20%-os hiányzó értékeket tartalmazó oszlopra vonatkozik. Ezért a többi oszlop változatlan marad.

    Ha kétségei vannak a hiányzó értékek módosításával kapcsolatban, válassza a hiányzó értékjelző oszlop létrehozása lehetőséget. A rendszer hozzáfűz egy oszlopot az adathalmazhoz, amely jelzi, hogy az egyes oszlopok megfelelnek-e a minimális és maximális tartományokra vonatkozó megadott feltételeknek.

  4. A hiányzó értékek maximális arányaként adja meg a művelet végrehajtásához megjeleníthető hiányzó értékek maximális számát.

    Előfordulhat például, hogy csak akkor szeretne hiányzó értékhelyettesítést végrehajtani, ha a sorok 30%-a vagy kevesebb hiányzó értéket tartalmaz, az értékeket azonban hagyja üresen, ha a sorok több mint 30%-a tartalmaz hiányzó értékeket.

    A számot a hiányzó értékek és az oszlop összes értékének arányaként definiálja. Alapértelmezés szerint a hiányzó értékek maximális aránya 1. Ez azt jelenti, hogy a hiányzó értékek akkor is törlődnek, ha az oszlop értékeinek 100%-a hiányzik.

  5. Tisztítási mód esetén válassza az alábbi lehetőségek egyikét a hiányzó értékek cseréjéhez vagy eltávolításához:

    • Egyéni helyettesítési érték: Ezzel a beállítással megadhat egy helyőrző értéket (például 0 vagy NA), amely az összes hiányzó értékre vonatkozik. A csereként megadott értéknek kompatibilisnek kell lennie az oszlop adattípusával.

    • Csere középértékre: Kiszámítja az oszlop középértékét, és a középértéket használja az oszlop minden hiányzó értékéhez.

      Csak egész, dupla vagy logikai adattípusú oszlopokra vonatkozik.

    • Csere mediánra: Kiszámítja az oszlop mediánértékét, és a mediánértéket használja az oszlop hiányzó értékeinek helyettesítésére.

      Csak az egész vagy dupla adattípusú oszlopokra vonatkozik.

    • Csere módra: Kiszámítja az oszlop üzemmódját, és az oszlop minden hiányzó értékéhez a módot használja helyettesítő értékként.

      Egész, dupla, logikai vagy kategorikus adattípusú oszlopokra vonatkozik.

    • Teljes sor eltávolítása: Teljesen eltávolítja az adathalmaz egy vagy több hiányzó értéket tartalmazó sorát. Ez akkor hasznos, ha a hiányzó érték véletlenszerűen hiányzónak tekinthető.

    • Teljes oszlop eltávolítása: Teljesen eltávolítja az adathalmaz egy vagy több hiányzó értéket tartalmazó oszlopát.

  6. A Csere érték lehetőség akkor érhető el, ha az egyéni helyettesítési értéket választotta. Írjon be egy új értéket, amelyet helyettesítő értékként szeretne használni az oszlop összes hiányzó értékéhez.

    Vegye figyelembe, hogy ezt a beállítást csak olyan oszlopokban használhatja, amelyek egész számot, dupla, logikai vagy sztringet tartalmaznak.

  7. Hiányzó értékmutató oszlop létrehozása: Válassza ezt a lehetőséget, ha azt szeretné megjeleníteni, hogy az oszlop értékei megfelelnek-e a hiányzó értéktisztítás feltételeinek. Ez a lehetőség különösen akkor hasznos, ha új tisztítási műveletet állít be, és meg szeretné győződni arról, hogy a tervezett módon működik.

  8. Küldje el a folyamatot.

Results (Eredmények)

Az összetevő két kimenetet ad vissza:

  • Megtisztított adatkészlet: A kijelölt oszlopokból álló adatkészlet, a megadott módon kezelt hiányzó értékekkel és egy mutatóoszloppal, ha ezt a beállítást választotta.

    A tisztításra nem kijelölt oszlopok szintén "át vannak haladva".

  • Tisztítási átalakítás: Tisztításhoz használt adatátalakítás, amely menthető a munkaterületen, és később alkalmazható az új adatokra.

Mentett tisztítási művelet alkalmazása új adatokra

Ha gyakran kell megismételnie a tisztítási műveleteket, javasoljuk, hogy mentse a receptet az adattisztításhoz átalakításként, hogy ugyanazzal az adatkészlettel újra felhasználhassa. A tisztítási átalakítás mentése különösen hasznos, ha gyakran újra kell importálnia, majd törölnie kell az azonos sémával rendelkező adatokat.

  1. Adja hozzá az Átalakítás alkalmazása összetevőt a folyamathoz.

  2. Adja hozzá a törölni kívánt adathalmazt, és csatlakoztassa az adathalmazt a jobb oldali bemeneti porthoz.

  3. Bontsa ki az Átalakítások csoportot a tervező bal oldali paneljén. Keresse meg a mentett átalakítást, és húzza a folyamatba.

  4. Csatlakozás a mentett átalakítást az Átalakítás alkalmazása bal oldali bemeneti portjára.

    Mentett átalakítás alkalmazásakor nem választhatja ki azokat az oszlopokat, amelyekre az átalakítást alkalmazza. Ennek az az oka, hogy az átalakítás már definiálva van, és automatikusan érvényes az eredeti műveletben megadott oszlopokra.

    Tegyük fel azonban, hogy numerikus oszlopok egy részhalmazán hozott létre átalakítást. Ezt az átalakítást hiba nélkül alkalmazhatja vegyes oszloptípusú adathalmazokra, mert a hiányzó értékek csak a megfelelő numerikus oszlopokban módosulnak.

  5. Küldje el a folyamatot.

Következő lépések

Tekintse meg a Azure Machine Learning elérhető összetevőket.