Vyčištění chybějící datové komponenty

Tento článek popisuje komponentu v návrháři Azure Machine Learning.

Tuto komponentu použijte k odebrání, nahrazení nebo odvozování chybějících hodnot.

Datoví vědci často kontrolují chybějící hodnoty a pak provádějí různé operace pro opravu dat nebo vložení nových hodnot. Cílem takových operací čištění je zabránit problémům způsobeným chybějícími daty, ke kterým může dojít při trénování modelu.

Tato komponenta podporuje více typů operací pro "čištění" chybějících hodnot, včetně:

  • Nahrazení chybějících hodnot zástupným symbolem, střední hodnotou nebo jinou hodnotou
  • Úplné odebrání řádků a sloupců s chybějícími hodnotami
  • Odvození hodnot na základě statistických metod

Použití této komponenty nezmění zdrojovou datovou sadu. Místo toho v pracovním prostoru vytvoří novou datovou sadu, kterou můžete použít v následujícím pracovním postupu. Můžete také uložit novou vyčištěnou datovou sadu pro opakované použití.

Tato komponenta také vypíše definici transformace sloužící k vyčištění chybějících hodnot. Tuto transformaci můžete znovu použít u jiných datových sad, které mají stejné schéma, pomocí komponenty Použít transformaci .

Jak používat vyčištění chybějících dat

Tato komponenta umožňuje definovat operaci čištění. Můžete také uložit operaci čištění, abyste ji mohli později použít na nová data. Postup vytvoření a uložení procesu čištění najdete v následujících částech:

Důležité

Metoda čištění, kterou používáte pro zpracování chybějících hodnot, může výrazně ovlivnit vaše výsledky. Doporučujeme experimentovat s různými metodami. Zvažte odůvodnění použití konkrétní metody i kvalitu výsledků.

Nahrazení chybějících hodnot

Pokaždé, když u sady dat použijete komponentu Vyčistit chybějící data , použije se stejná operace čištění u všech vybraných sloupců. Proto pokud potřebujete vyčistit různé sloupce pomocí různých metod, použijte samostatné instance komponenty.

  1. Přidejte do kanálu komponentu Vyčistit chybějící data a připojte datovou sadu s chybějícími hodnotami.

  2. Pokud chcete sloupce vyčistit, zvolte sloupce obsahující chybějící hodnoty, které chcete změnit. Můžete zvolit více sloupců, ale ve všech vybraných sloupcích musíte použít stejnou metodu nahrazení. Proto obvykle potřebujete vyčistit sloupce řetězců a číselné sloupce samostatně.

    Pokud chcete například zkontrolovat chybějící hodnoty ve všech číselných sloupcích:

    1. Vyberte komponentu Vyčistit chybějící data a v pravém panelu komponenty klikněte na Upravit sloupec .

    2. V rozevíracím seznamu vyberte Typy sloupců a pak vyberte Numeric.

    Jakákoli metoda čištění nebo nahrazení, kterou zvolíte, musí být použitelná pro všechny sloupce ve výběru. Pokud data v libovolném sloupci nejsou kompatibilní se zadanou operací, vrátí komponenta chybu a kanál zastaví.

  3. V případě poměru minimální chybějící hodnoty zadejte minimální počet chybějících hodnot požadovaných pro provedení operace.

    Tuto možnost použijete v kombinaci s poměrem maximální chybějící hodnoty k definování podmínek, za kterých se v datové sadě provádí operace čištění. Pokud chybí příliš mnoho nebo příliš málo řádků, operaci nelze provést.

    Zadané číslo představuje poměr chybějících hodnot ke všem hodnotám ve sloupci. Ve výchozím nastavení je vlastnost Minimální chybějící hodnota poměru nastavena na hodnotu 0. To znamená, že chybějící hodnoty se vyčistí i v případě, že chybí jenom jedna hodnota.

    Upozornění

    Tato podmínka musí být splněna jednotlivými sloupci, aby se mohla použít zadaná operace. Předpokládejme například, že jste vybrali tři sloupce a pak jste nastavili minimální poměr chybějících hodnot na 0 ,2 (20 %), ale ve skutečnosti chybí jenom jeden sloupec s 20 % chybějícími hodnotami. V tomto případě by operace vyčištění platila pouze pro sloupec s více než 20 % chybějícími hodnotami. Ostatní sloupce by se proto nezměnily.

    Pokud máte nějaké pochybnosti o tom, jestli nebyly změněny chybějící hodnoty, vyberte možnost vygenerovat sloupec indikátoru chybějící hodnoty. K datové sadě se připojí sloupec, který označuje, jestli každý sloupec splňuje zadaná kritéria pro minimální a maximální rozsahy.

  4. V případě maximálního chybějícího poměru hodnot zadejte maximální počet chybějících hodnot, které mohou být k dispozici pro operaci, která se má provést.

    Pokud například chybí 30 % řádků obsahujících chybějící hodnoty, ponechte hodnoty tak, jak je, pokud chybí více než 30 % řádků.

    Číslo definujete jako poměr chybějících hodnot ke všem hodnotám ve sloupci. Ve výchozím nastavení je poměr maximální chybějící hodnoty nastaven na hodnotu 1. To znamená, že chybějící hodnoty se vyčistí, i když chybí 100 % hodnot ve sloupci.

  5. V režimu čištění vyberte jednu z následujících možností nahrazení nebo odebrání chybějících hodnot:

    • Vlastní hodnota nahrazení: Tuto možnost použijte k zadání zástupné hodnoty (například 0 nebo NA), která se vztahuje na všechny chybějící hodnoty. Hodnota, kterou zadáte jako náhradu, musí být kompatibilní s datovým typem sloupce.

    • Nahradit střední hodnotou: Vypočítá střední hodnotu sloupce a použije střední hodnotu jako náhradní hodnotu pro každou chybějící hodnotu ve sloupci.

      Platí jenom pro sloupce s datovými typy Integer, Double nebo Boolean.

    • Nahraďte mediánem: Vypočítá medián sloupce a použije střední hodnotu jako náhradu za libovolnou chybějící hodnotu ve sloupci.

      Platí pouze pro sloupce s datovými typy Integer nebo Double.

    • Nahradit režimem: Vypočítá režim sloupce a použije režim jako náhradní hodnotu pro každou chybějící hodnotu ve sloupci.

      Platí pro sloupce s datovými typy Integer, Double, Boolean nebo Categorical.

    • Odebrat celý řádek: Úplně odebere všechny řádky v datové sadě, které mají jednu nebo více chybějících hodnot. To je užitečné v případě, že chybějící hodnota může být považována za náhodně chybějící.

    • Odebrat celý sloupec: Úplně odebere libovolný sloupec v datové sadě, který má jednu nebo více chybějících hodnot.

  6. Možnost Nahradit hodnotu je k dispozici, pokud jste vybrali možnost Custom substituce. Zadejte novou hodnotu, kterou chcete použít jako náhradní hodnotu pro všechny chybějící hodnoty ve sloupci.

    Všimněte si, že tuto možnost můžete použít pouze ve sloupcích, které mají celé číslo, Double, Boolean nebo String.

  7. Vygenerovat sloupec indikátoru chybějící hodnoty: Tuto možnost vyberte, pokud chcete zobrazit informace o tom, jestli hodnoty ve sloupci splňují kritéria pro chybějící čištění hodnot. Tato možnost je zvlášť užitečná při nastavování nové operace čištění a chcete zajistit, aby fungovala tak, jak je navržena.

  8. Odešlete kanál.

Výsledky

Komponenta vrátí dva výstupy:

  • Vyčištěná datová sada: Datová sada skládající se z vybraných sloupců s chybějícími hodnotami, které jsou zpracovávány podle zadání, spolu se sloupcem indikátoru, pokud jste tuto možnost vybrali.

    Sloupce, které nejsou vybrány pro čištění, jsou také "předány".

  • Transformace čištění: Transformace dat používaná k čištění, která se dá uložit do pracovního prostoru a použít ji na nová data později.

Použití uložené operace čištění na nová data

Pokud potřebujete často opakovat operace čištění, doporučujeme uložit recept na čištění dat jako transformaci, abyste mohli znovu použít stejnou datovou sadu. Uložení transformace čištění je užitečné zejména v případě, že je nutné často znovu importovat a poté vyčistit data se stejným schématem.

  1. Přidejte do kanálu komponentu Použít transformaci .

  2. Přidejte datovou sadu, kterou chcete vyčistit, a připojte datovou sadu k pravému vstupnímu portu.

  3. Rozbalte skupinu Transformace v levém podokně návrháře. Vyhledejte uloženou transformaci a přetáhněte ji do kanálu.

  4. Připojení uložené transformace na levý vstupní port Použít transformaci.

    Když použijete uloženou transformaci, nemůžete vybrat sloupce, na které se transformace použije. Důvodem je to, že transformace již byla definována a automaticky se vztahuje na sloupce zadané v původní operaci.

    Předpokládejme ale, že jste vytvořili transformaci v podmnožině číselných sloupců. Tuto transformaci můžete použít u datové sady smíšených typů sloupců bez vyvolání chyby, protože chybějící hodnoty se mění pouze v odpovídajících číselných sloupcích.

  5. Odešlete kanál.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.