Obsługa brakujących danych

Ukończone

Brakujące dane odnoszą się do braku wartości w niektórych zmiennych w zestawie danych.

Obsługa brakujących danych jest kluczowym aspektem fazy przetwarzania wstępnego w projekcie uczenia maszynowego, a sposób ich traktowania może znacząco wpłynąć na wydajność modelu.

Sprawdzanie brakujących danych

Wróćmy do scenariusza cen domów z poprzedniej lekcji, załóżmy, że napotkamy brakujące wartości w ramce df danych, które wymagają uwagi.

Aby sprawdzić brak danych w narzędziu Data Wrangler, musisz najpierw uruchomić narzędzie Data Wrangler z notesu usługi Microsoft Fabric. W tym miejscu masz kilka opcji.

Zrzut ekranu przedstawiający sposób sprawdzania brakujących informacji o danych w narzędziu Data Wrangler.

  1. Nagłówek kolumny: Pokazuje liczbę i proporcję brakujących wartości dla każdej zmiennej w górnej części siatki.
  2. Panel podsumowania: Wyróżnia statystyki podsumowania dla wybranej kolumny lub ramki danych, w tym brakujące wartości.
  3. Operator filtru: Filtruje wiersze na podstawie co najmniej jednego warunków. Ta opcja jest również dostępna w nagłówku kolumny po wybraniu opcji Więcej opcji dla kolumny.

Obsługa brakujących danych

Istnieje kilka opcji obsługi brakujących danych.

  • Ignorować: Minimalne brakujące dane mogą nie mieć znaczącego wpływu na model.

  • Usunąć: Wiersze lub kolumny z wieloma brakującymi wartościami mogą być lepiej usunięte.

  • Imputacja: Wypełnij brakujące wartości za pomocą określonej wartości lub szacunku (na przykład średniej, mediany, trybu lub algorytmu uczenia maszynowego, takiego jak K-Najbliższych Sąsiadów (KNN)).

  • Użyj jej jako nowej funkcji: Czasami fakt, że brakuje wartości, może być używany jako sama informacja. Na przykład w ankiecie produktu pytania bez odpowiedzi dotyczące rekomendowania produktu mogą wskazywać na niezadowolenie klientów. W takim przypadku nieodpowiadanie może być nową funkcją wskazującą prawdopodobieństwo niezadowolenia klientów.

Usuwanie brakujących wartości

W poniższych krokach pokazano, jak usunąć wiersze z brakującymi wartościami w kolumnach docelowych w usłudze Data Wrangler.

  1. Na panelu Operacje wybierz pozycję Znajdź i zamień, a następnie wybierz pozycję Upuść brakujące wartości.

  2. Wybierz kolumnę Price (Cena ).

    Zrzut ekranu przedstawiający usuwanie wierszy z brakującymi wartościami w kolumnach docelowych w usłudze Data Wrangler.

    Wiersze oznaczone do usunięcia są wyróżnione na czerwono w siatce i dodawane do panelu Kroki czyszczenia . Ta wizualizacja nie tylko zwiększa elastyczność, ale także umożliwia dostosowanie w razie potrzeby.

  3. Wybierz Zastosuj. Zmiany są stosowane, a siatka stosuje krok.

Uzupełnianie brakujących wartości

Jeśli w zestawie danych brakuje danych, możesz użyć kilku metod imputacji, aby wypełnić te luki. Każda metoda ma własne zalety i nadaje się do różnych typów danych i sytuacji.

Zrozumienie tych metod może pomóc w wyborze najbardziej odpowiedniej strategii obsługi brakujących danych w określonym kontekście.

Metoda opis
Średnia Zamienia brakujące wartości na wartość średniej (średniej) tej zmiennej. Nadaje się do ciągłego przetwarzania danych bez wartości odstających.
Mediana Zastępuje brakujące wartości medianą (środkową) tej zmiennej. Jest bardziej niezawodny, aby odstać niż średnia.
Tryb Zamienia brakujące wartości na wartość trybu (najczęściej) tej zmiennej. Nadaje się do danych kategorii.
Propagacja do przodu Wypełnia brakujące wartości poprzednim prawidłowym wartością w zestawie danych. Znany również jako wypełnienie do przodu.
Propagacja wstecz Wypełnia brakujące wartości następnym prawidłowym wartością w zestawie danych. Znany również jako wypełnienie wsteczne.
Wartość niestandardowa Zamienia brakujące wartości na wartość stałą zdefiniowaną przez użytkownika. Może to być dowolna wartość, która ma sens w kontekście danych.

W poniższych krokach pokazano, jak wypełnić lub uzupełnić brakujące wartości w kolumnach docelowych przy użyciu mediany, na przykład.

  1. Na panelu Operacje wybierz pozycję Znajdź i zamień, a następnie wybierz pozycję Wypełnij brakujące wartości.

  2. Wybierz kolumnę YearBuilt , a następnie wybierz metodę wypełniania Mediana .

    Zrzut ekranu przedstawiający sposób imputowania brakujących wartości w kolumnach docelowych przy użyciu mediany w usłudze Data Wrangler.

    Wiersze oznaczone do imputacji są zaznaczone na czerwono w tabeli, a następnie dodawane do panelu Kroki czyszczenia. Ta wizualizacja ułatwia modyfikowanie w czasie rzeczywistym w razie potrzeby.

  3. Wybierz Zastosuj.

    Zmiany są natychmiast widoczne w siatce wyświetlania usługi Data Wrangler, zapewniając w czasie rzeczywistym wgląd w sposób, w jaki operacja wpływa na zestaw danych.

Alternatywnie możesz użyć operatora Operacji niestandardowej , aby utworzyć własny kod imputacji.

Aby dowiedzieć się więcej na temat brakujących danych, zobacz Eksplorowanie danych na potrzeby nauki o danych za pomocą notesów w usłudze Microsoft Fabric.