Czyszczenie brakującego składnika danych

W tym artykule opisano składnik w projektancie Azure Machine Learning.

Użyj tego składnika, aby usunąć, zastąpić lub wywnioskować brakujące wartości.

Analitycy danych często sprawdzają dane pod kątem brakujących wartości, a następnie wykonują różne operacje, aby naprawić dane lub wstawić nowe wartości. Celem takich operacji czyszczenia jest zapobieganie problemom spowodowanym brakiem danych, które mogą wystąpić podczas trenowania modelu.

Ten składnik obsługuje wiele typów operacji na potrzeby "czyszczenia" brakujących wartości, w tym:

  • Zastępowanie brakujących wartości symbolem zastępczym, średnią lub inną wartością
  • Całkowite usuwanie wierszy i kolumn, które mają brakujące wartości
  • Wnioskowanie wartości na podstawie metod statystycznych

Użycie tego składnika nie powoduje zmiany źródłowego zestawu danych. Zamiast tego tworzy nowy zestaw danych w obszarze roboczym, którego można użyć w kolejnym przepływie pracy. Możesz również zapisać nowy, oczyszczony zestaw danych do ponownego użycia.

Ten składnik generuje również definicję przekształcenia używanego do czyszczenia brakujących wartości. Możesz ponownie użyć tej transformacji w innych zestawach danych, które mają ten sam schemat, przy użyciu składnika Zastosuj transformację .

Jak używać czyszczenia brakujących danych

Ten składnik umożliwia zdefiniowanie operacji czyszczenia. Możesz również zapisać operację czyszczenia, aby później zastosować ją do nowych danych. Zobacz następujące sekcje dotyczące tworzenia i zapisywania procesu czyszczenia:

Ważne

Metoda czyszczenia używana do obsługi brakujących wartości może znacząco wpłynąć na wyniki. Zalecamy eksperymentowanie z różnymi metodami. Należy wziąć pod uwagę zarówno uzasadnienie użycia określonej metody, jak i jakość wyników.

Zastępowanie brakujących wartości

Za każdym razem, gdy zastosujesz składnik Clean Missing Data do zestawu danych, ta sama operacja czyszczenia jest stosowana do wszystkich wybranych kolumn. W związku z tym, jeśli musisz wyczyścić różne kolumny przy użyciu różnych metod, użyj oddzielnych wystąpień składnika.

  1. Dodaj składnik Clean Missing Data (Czyszczenie brakujących danych ) do potoku i połącz zestaw danych z brakującymi wartościami.

  2. Aby wyczyszczone kolumny, wybierz kolumny zawierające brakujące wartości, które chcesz zmienić. Możesz wybrać wiele kolumn, ale musisz użyć tej samej metody zastępczej we wszystkich wybranych kolumnach. W związku z tym zazwyczaj należy wyczyścić kolumny ciągów i kolumny liczbowe oddzielnie.

    Aby na przykład sprawdzić brakujące wartości we wszystkich kolumnach liczbowych:

    1. Wybierz składnik Clean Missing Data (Czyszczenie brakujących danych ), a następnie kliknij pozycję Edytuj kolumnę w prawym panelu składnika.

    2. W polu Dołącz wybierz pozycję Typy kolumn z listy rozwijanej, a następnie wybierz pozycję Numeryczne.

    Każda wybrana metoda czyszczenia lub zamiany musi mieć zastosowanie do wszystkich kolumn w zaznaczeniu. Jeśli dane w dowolnej kolumnie są niezgodne z określoną operacją, składnik zwraca błąd i zatrzymuje potok.

  3. W polu Minimalny współczynnik brakujących wartości określ minimalną liczbę brakujących wartości wymaganych do wykonania operacji.

    Ta opcja jest używana w połączeniu z maksymalnym współczynnikiem brakującej wartości , aby zdefiniować warunki, w których wykonywana jest operacja czyszczenia zestawu danych. Jeśli brakuje zbyt wielu lub zbyt kilku wierszy, nie można wykonać operacji.

    Wprowadzona liczba reprezentuje stosunek brakujących wartości do wszystkich wartości w kolumnie. Domyślnie właściwość Minimalna brakująca wartość jest ustawiona na 0. Oznacza to, że brakujące wartości są czyszczone, nawet jeśli brakuje tylko jednej brakującej wartości.

    Ostrzeżenie

    Ten warunek musi być spełniony przez każdą i każdą kolumnę w celu zastosowania określonej operacji. Załóżmy na przykład, że wybrano trzy kolumny, a następnie ustaw minimalny współczynnik brakujących wartości na wartość .2 (20%), ale tylko jedna kolumna rzeczywiście ma 20% brakujących wartości. W takim przypadku operacja oczyszczania będzie stosowana tylko do kolumny z ponad 20% brakującymi wartościami. W związku z tym pozostałe kolumny byłyby niezmienione.

    Jeśli masz wątpliwości co do tego, czy brakujące wartości zostały zmienione, wybierz opcję Generuj kolumnę wskaźnika brakującej wartości. Kolumna jest dołączana do zestawu danych, aby wskazać, czy każda kolumna spełnia określone kryteria dla minimalnych i maksymalnych zakresów.

  4. W polu Maksymalny brakujący współczynnik wartości określ maksymalną liczbę brakujących wartości, które mogą być obecne dla operacji do wykonania.

    Na przykład możesz chcieć wykonać brakujące podstawianie wartości tylko wtedy, gdy 30% lub mniej wierszy zawiera brakujące wartości, ale pozostaw wartości tak, jak jest, jeśli brakuje więcej niż 30% wierszy.

    Liczbę można zdefiniować jako stosunek brakujących wartości do wszystkich wartości w kolumnie. Domyślnie domyślny współczynnik maksymalnej brakującej wartości jest ustawiony na 1. Oznacza to, że brakujące wartości są czyszczone, nawet jeśli brakuje 100% wartości w kolumnie.

  5. W obszarze Tryb czyszczenia wybierz jedną z następujących opcji zastępowania lub usuwania brakujących wartości:

    • Niestandardowa wartość podstawień: użyj tej opcji, aby określić wartość symbolu zastępczego (na przykład 0 lub NA), która ma zastosowanie do wszystkich brakujących wartości. Wartość określona jako zamiana musi być zgodna z typem danych kolumny.

    • Zastąp średnią: oblicza średnią kolumny i używa średniej jako wartości zastępczej dla każdej brakującej wartości w kolumnie.

      Dotyczy tylko kolumn z typami danych typu liczba całkowita, podwójna lub logiczna.

    • Zastąp wartością medianą: oblicza wartość mediany kolumny i używa wartości mediany jako zamiany dowolnej brakującej wartości w kolumnie.

      Dotyczy tylko kolumn, które mają typy danych całkowitych lub podwójnych.

    • Zamień na tryb: oblicza tryb dla kolumny i używa trybu jako wartości zastępczej dla każdej brakującej wartości w kolumnie.

      Dotyczy kolumn, które mają typy danych o wartości całkowitej, podwójnej, logicznej lub kategorii.

    • Usuń cały wiersz: całkowicie usuwa dowolny wiersz w zestawie danych zawierającym co najmniej jedną brakującą wartość. Jest to przydatne, jeśli brakuje brakującej wartości, można uznać za brakującą losowo.

    • Usuń całą kolumnę: całkowicie usuwa dowolną kolumnę w zestawie danych z co najmniej jedną brakującą wartością.

  6. Opcja Wartość zastępcza jest dostępna, jeśli wybrano opcję Niestandardowa wartość podstawień. Wpisz nową wartość, która ma być używana jako wartość zastępcza dla wszystkich brakujących wartości w kolumnie.

    Należy pamiętać, że tej opcji można używać tylko w kolumnach, które mają liczbę całkowitą, podwójną, wartość logiczną lub ciąg.

  7. Wygeneruj kolumnę wskaźnika brakującej wartości: wybierz tę opcję, jeśli chcesz wyświetlić pewne wskazanie, czy wartości w kolumnie spełniają kryteria braku czyszczenia wartości. Ta opcja jest szczególnie przydatna podczas konfigurowania nowej operacji czyszczenia i upewnienia się, że działa zgodnie z projektem.

  8. Prześlij potok.

Wyniki

Składnik zwraca dwa dane wyjściowe:

  • Oczyszczony zestaw danych: zestaw danych składający się z wybranych kolumn z brakującymi wartościami obsługiwanymi zgodnie z określoną kolumną wskaźnika, jeśli wybrano tę opcję.

    Kolumny, które nie są zaznaczone do czyszczenia, są również "przekazywane".

  • Przekształcanie czyszczenia: transformacja danych używana do czyszczenia, którą można zapisać w obszarze roboczym i zastosować do nowych danych później.

Stosowanie zapisanej operacji czyszczenia do nowych danych

Jeśli chcesz często powtarzać operacje czyszczenia, zalecamy zapisanie przepisu na potrzeby czyszczenia danych jako przekształcenia, aby ponownie użyć tego samego zestawu danych. Zapisywanie transformacji czyszczenia jest szczególnie przydatne, jeśli konieczne jest częste ponowne importowanie, a następnie czyszczenie danych, które mają ten sam schemat.

  1. Dodaj składnik Zastosuj transformację do potoku.

  2. Dodaj zestaw danych, który chcesz wyczyścić, i połącz zestaw danych z portem wejściowym po prawej stronie.

  3. Rozwiń grupę Przekształć w okienku po lewej stronie projektanta. Znajdź zapisaną transformację i przeciągnij ją do potoku.

  4. Połączenie zapisane przekształcenie do lewego portu wejściowego Zastosuj transformację.

    Po zastosowaniu zapisanej transformacji nie można wybrać kolumn, do których zastosowano przekształcenie. Wynika to z faktu, że transformacja została już zdefiniowana i jest stosowana automatycznie do kolumn określonych w pierwotnej operacji.

    Załóżmy jednak, że utworzono przekształcenie w podzestawie kolumn liczbowych. Tę transformację można zastosować do zestawu danych mieszanych typów kolumn bez zgłaszania błędu, ponieważ brakujące wartości są zmieniane tylko w pasujących kolumnach liczbowych.

  5. Prześlij potok.

Następne kroki

Zobacz zestaw składników dostępnych do Azure Machine Learning.