Czyszczenie brakującego składnika danych

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj tego składnika, aby usunąć, zastąpić lub wywnioskować brakujące wartości.

Analitycy danych często sprawdzają brakujące wartości, a następnie wykonują różne operacje, aby naprawić dane lub wstawić nowe wartości. Celem takich operacji czyszczenia jest zapobieganie problemom spowodowanym brakiem danych, które mogą wystąpić podczas trenowania modelu.

Ten składnik obsługuje wiele typów operacji na potrzeby "czyszczenia" brakujących wartości, w tym:

  • Zastępowanie brakujących wartości symbolem zastępczym, średnią lub inną wartością
  • Całkowite usuwanie wierszy i kolumn z brakującymi wartościami
  • Wnioskowanie wartości na podstawie metod statystycznych

Użycie tego składnika nie powoduje zmiany źródłowego zestawu danych. Zamiast tego tworzy nowy zestaw danych w obszarze roboczym, którego można użyć w kolejnym przepływie pracy. Możesz również zapisać nowy, oczyszczony zestaw danych do ponownego użycia.

Ten składnik generuje również definicję przekształcenia używanego do czyszczenia brakujących wartości. Możesz ponownie użyć tego przekształcenia w innych zestawach danych, które mają ten sam schemat, przy użyciu składnika Zastosuj przekształcenie .

Jak używać czyszczenia brakujących danych

Ten składnik umożliwia zdefiniowanie operacji czyszczenia. Możesz również zapisać operację czyszczenia, aby później zastosować ją do nowych danych. Zapoznaj się z następującymi sekcjami tworzenia i zapisywania procesu czyszczenia:

Ważne

Metoda czyszczenia używana do obsługi brakujących wartości może znacząco wpłynąć na wyniki. Zalecamy eksperymentowanie z różnymi metodami. Należy wziąć pod uwagę zarówno uzasadnienie użycia określonej metody, jak i jakość wyników.

Zamień brakujące wartości

Za każdym razem, gdy zastosujesz składnik Clean Missing Data do zestawu danych, ta sama operacja czyszczenia jest stosowana do wszystkich wybranych kolumn. W związku z tym, jeśli musisz wyczyścić różne kolumny przy użyciu różnych metod, użyj oddzielnych wystąpień składnika.

  1. Dodaj do potoku składnik Clean Missing Data (Czyszczenie brakujących danych ) i połącz zestaw danych z brakującymi wartościami.

  2. Aby wyczyścić kolumny, wybierz kolumny zawierające brakujące wartości, które chcesz zmienić. Możesz wybrać wiele kolumn, ale musisz użyć tej samej metody zastępczej we wszystkich zaznaczonych kolumnach. W związku z tym zazwyczaj należy oddzielnie wyczyścić kolumny ciągów i kolumny liczbowe.

    Aby na przykład sprawdzić brakujące wartości we wszystkich kolumnach liczbowych:

    1. Wybierz składnik Clean Missing Data (Czyszczenie brakujących danych ), a następnie kliknij pozycję Edit (Edytuj kolumnę ) w prawym panelu składnika.

    2. W polu Uwzględnij wybierz pozycję Typy kolumn z listy rozwijanej, a następnie wybierz pozycję Numeryczne.

    Każda wybrana metoda czyszczenia lub zastępowania musi mieć zastosowanie do wszystkich kolumn w zaznaczeniu. Jeśli dane w dowolnej kolumnie są niezgodne z określoną operacją, składnik zwraca błąd i zatrzymuje potok.

  3. W polu Minimalny współczynnik brakujących wartości określ minimalną liczbę brakujących wartości wymaganych do wykonania operacji.

    Ta opcja jest używana w połączeniu z maksymalnym współczynnikiem brakujących wartości w celu zdefiniowania warunków, w których na zestawie danych jest wykonywana operacja czyszczenia. Jeśli brakuje zbyt wielu lub zbyt kilku wierszy, nie można wykonać operacji.

    Wprowadzona liczba reprezentuje współczynnik brakujących wartości do wszystkich wartości w kolumnie. Domyślnie właściwość Minimalny brak współczynnika wartości jest ustawiona na 0. Oznacza to, że brakujące wartości są czyszczone, nawet jeśli brakuje tylko jednej brakującej wartości.

    Ostrzeżenie

    Ten warunek musi być spełniony przez każdą i każdą kolumnę, aby można było zastosować określoną operację. Załóżmy na przykład, że wybrano trzy kolumny, a następnie ustaw minimalny współczynnik brakujących wartości na wartość .2 (20%), ale tylko jedna kolumna rzeczywiście ma 20% brakujących wartości. W takim przypadku operacja oczyszczania będzie stosowana tylko do kolumny z ponad 20% brakującymi wartościami. W związku z tym pozostałe kolumny byłyby niezmienione.

    Jeśli masz wątpliwości co do tego, czy brakujące wartości zostały zmienione, wybierz opcję Wygeneruj kolumnę wskaźnika brakującej wartości. Kolumna jest dołączana do zestawu danych, aby wskazać, czy każda kolumna spełnia określone kryteria dla minimalnych i maksymalnych zakresów.

  4. W polu Maksymalny współczynnik brakujących wartości określ maksymalną liczbę brakujących wartości, które mogą być obecne dla operacji do wykonania.

    Na przykład możesz chcieć wykonać podstawienie brakującej wartości tylko wtedy, gdy 30% lub mniej wierszy zawiera brakujące wartości, ale pozostaw te wartości, jeśli brakuje więcej niż 30% wierszy.

    Liczbę należy zdefiniować jako współczynnik brakujących wartości do wszystkich wartości w kolumnie. Domyślnie maksymalny brakujący współczynnik wartości jest ustawiony na 1. Oznacza to, że brakujące wartości są czyszczone, nawet jeśli brakuje 100% wartości w kolumnie.

  5. W obszarze Tryb czyszczenia wybierz jedną z następujących opcji zastępowania lub usuwania brakujących wartości:

    • Niestandardowa wartość podstawienia: użyj tej opcji, aby określić wartość symbolu zastępczego (na przykład 0 lub NA), która ma zastosowanie do wszystkich brakujących wartości. Wartość określona jako zamiana musi być zgodna z typem danych kolumny.

    • Zamień na średnią: oblicza średnią kolumny i używa średniej jako wartości zastępczej dla każdej brakującej wartości w kolumnie.

      Dotyczy tylko kolumn, które mają typy danych typu Liczba całkowita, Podwójna lub Wartość logiczna.

    • Zastąp wartością medianą: oblicza medianę kolumny i używa mediany jako zamiany dowolnej brakującej wartości w kolumnie.

      Dotyczy tylko kolumn, które mają typy danych typu Liczba całkowita lub Podwójna.

    • Zamień na tryb: oblicza tryb dla kolumny i używa trybu jako wartości zastępczej dla każdej brakującej wartości w kolumnie.

      Dotyczy kolumn, które mają typy danych typu Liczba całkowita, Podwójna, Wartość logiczna lub Kategoria.

    • Usuń cały wiersz: całkowicie usuwa dowolny wiersz w zestawie danych zawierający co najmniej jedną brakującą wartość. Jest to przydatne, jeśli brakująca wartość może być uznawana za brakującą losowo.

    • Usuń całą kolumnę: całkowicie usuwa wszystkie kolumny w zestawie danych, które mają co najmniej jedną brakującą wartość.

  6. Opcja Wartość zastępcza jest dostępna, jeśli została wybrana opcja Niestandardowa wartość podstawienia. Wpisz nową wartość, która ma być używana jako wartość zastępcza dla wszystkich brakujących wartości w kolumnie.

    Należy pamiętać, że tej opcji można używać tylko w kolumnach, które mają liczbę całkowitą, podwójną, wartość logiczną lub ciąg.

  7. Wygeneruj kolumnę wskaźnika brakującej wartości: wybierz tę opcję, jeśli chcesz wyświetlić pewne wskazanie, czy wartości w kolumnie spełniają kryteria czyszczenia brakującej wartości. Ta opcja jest szczególnie przydatna w przypadku konfigurowania nowej operacji czyszczenia i upewnienia się, że działa zgodnie z projektem.

  8. Prześlij potok.

Wyniki

Składnik zwraca dwa dane wyjściowe:

  • Oczyszczony zestaw danych: zestaw danych składający się z wybranych kolumn z brakującymi wartościami obsługiwanymi zgodnie z określoną wartością wraz z kolumną wskaźnika, jeśli została wybrana ta opcja.

    Kolumny, które nie są zaznaczone do czyszczenia, są również "przekazywane".

  • Przekształcanie czyszczenia: przekształcenie danych używane do czyszczenia, które można zapisać w obszarze roboczym i zastosować do nowych danych później.

Stosowanie zapisanej operacji czyszczenia do nowych danych

Jeśli trzeba często powtarzać operacje czyszczenia, zalecamy zapisanie przepisu na potrzeby czyszczenia danych jako przekształcenia w celu ponownego użycia tego samego zestawu danych. Zapisanie przekształcenia czyszczenia jest szczególnie przydatne, jeśli należy często ponownie importować, a następnie czyścić dane, które mają ten sam schemat.

  1. Dodaj składnik Zastosuj przekształcenie do potoku.

  2. Dodaj zestaw danych, który chcesz wyczyścić, i połącz zestaw danych z portem wejściowym po prawej stronie.

  3. Rozwiń grupę Przekształcenia w okienku po lewej stronie projektanta. Znajdź zapisaną transformację i przeciągnij ją do potoku.

  4. Połącz zapisane przekształcenie z lewym portem wejściowym zastosuj przekształcenie.

    Po zastosowaniu zapisanego przekształcenia nie można wybrać kolumn, do których zastosowano przekształcenie. Wynika to z tego, że przekształcenie zostało już zdefiniowane i jest stosowane automatycznie do kolumn określonych w oryginalnej operacji.

    Załóżmy jednak, że utworzono przekształcenie w podzestawie kolumn liczbowych. To przekształcenie można zastosować do zestawu danych mieszanych typów kolumn bez zgłaszania błędu, ponieważ brakujące wartości są zmieniane tylko w pasujących kolumnach liczbowych.

  5. Prześlij potok.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.