Obsługa brakujących danych
Brakujące dane odnoszą się do braku wartości w niektórych zmiennych w zestawie danych.
Obsługa brakujących danych jest kluczowym aspektem fazy przetwarzania wstępnego w projekcie uczenia maszynowego, a sposób ich traktowania może znacząco wpłynąć na wydajność modelu.
Sprawdzanie brakujących danych
Wróćmy do scenariusza cen domów z poprzedniej lekcji, załóżmy, że napotkamy brakujące wartości w ramce df danych, które wymagają uwagi.
Aby sprawdzić brak danych w narzędziu Data Wrangler, musisz najpierw uruchomić narzędzie Data Wrangler z notesu usługi Microsoft Fabric. W tym miejscu masz kilka opcji.
- Nagłówek kolumny: Pokazuje liczbę i proporcję brakujących wartości dla każdej zmiennej w górnej części siatki.
- Panel podsumowania: Wyróżnia statystyki podsumowania dla wybranej kolumny lub ramki danych, w tym brakujące wartości.
- Operator filtru: Filtruje wiersze na podstawie co najmniej jednego warunków. Ta opcja jest również dostępna w nagłówku kolumny po wybraniu opcji Więcej opcji dla kolumny.
Obsługa brakujących danych
Istnieje kilka opcji obsługi brakujących danych.
Ignorować: Minimalne brakujące dane mogą nie mieć znaczącego wpływu na model.
Usunąć: Wiersze lub kolumny z wieloma brakującymi wartościami mogą być lepiej usunięte.
Imputacja: Wypełnij brakujące wartości za pomocą określonej wartości lub szacunku (na przykład średniej, mediany, trybu lub algorytmu uczenia maszynowego, takiego jak K-Najbliższych Sąsiadów (KNN)).
Użyj jej jako nowej funkcji: Czasami fakt, że brakuje wartości, może być używany jako sama informacja. Na przykład w ankiecie produktu pytania bez odpowiedzi dotyczące rekomendowania produktu mogą wskazywać na niezadowolenie klientów. W takim przypadku nieodpowiadanie może być nową funkcją wskazującą prawdopodobieństwo niezadowolenia klientów.
Usuwanie brakujących wartości
W poniższych krokach pokazano, jak usunąć wiersze z brakującymi wartościami w kolumnach docelowych w usłudze Data Wrangler.
Na panelu Operacje wybierz pozycję Znajdź i zamień, a następnie wybierz pozycję Upuść brakujące wartości.
Wybierz kolumnę Price (Cena ).
Wiersze oznaczone do usunięcia są wyróżnione na czerwono w siatce i dodawane do panelu Kroki czyszczenia . Ta wizualizacja nie tylko zwiększa elastyczność, ale także umożliwia dostosowanie w razie potrzeby.
Wybierz Zastosuj. Zmiany są stosowane, a siatka stosuje krok.
Uzupełnianie brakujących wartości
Jeśli w zestawie danych brakuje danych, możesz użyć kilku metod imputacji, aby wypełnić te luki. Każda metoda ma własne zalety i nadaje się do różnych typów danych i sytuacji.
Zrozumienie tych metod może pomóc w wyborze najbardziej odpowiedniej strategii obsługi brakujących danych w określonym kontekście.
| Metoda | opis |
|---|---|
| Średnia | Zamienia brakujące wartości na wartość średniej (średniej) tej zmiennej. Nadaje się do ciągłego przetwarzania danych bez wartości odstających. |
| Mediana | Zastępuje brakujące wartości medianą (środkową) tej zmiennej. Jest bardziej niezawodny, aby odstać niż średnia. |
| Tryb | Zamienia brakujące wartości na wartość trybu (najczęściej) tej zmiennej. Nadaje się do danych kategorii. |
| Propagacja do przodu | Wypełnia brakujące wartości poprzednim prawidłowym wartością w zestawie danych. Znany również jako wypełnienie do przodu. |
| Propagacja wstecz | Wypełnia brakujące wartości następnym prawidłowym wartością w zestawie danych. Znany również jako wypełnienie wsteczne. |
| Wartość niestandardowa | Zamienia brakujące wartości na wartość stałą zdefiniowaną przez użytkownika. Może to być dowolna wartość, która ma sens w kontekście danych. |
W poniższych krokach pokazano, jak wypełnić lub uzupełnić brakujące wartości w kolumnach docelowych przy użyciu mediany, na przykład.
Na panelu Operacje wybierz pozycję Znajdź i zamień, a następnie wybierz pozycję Wypełnij brakujące wartości.
Wybierz kolumnę YearBuilt , a następnie wybierz metodę wypełniania Mediana .
Wiersze oznaczone do imputacji są zaznaczone na czerwono w tabeli, a następnie dodawane do panelu Kroki czyszczenia. Ta wizualizacja ułatwia modyfikowanie w czasie rzeczywistym w razie potrzeby.
Wybierz Zastosuj.
Zmiany są natychmiast widoczne w siatce wyświetlania usługi Data Wrangler, zapewniając w czasie rzeczywistym wgląd w sposób, w jaki operacja wpływa na zestaw danych.
Alternatywnie możesz użyć operatora Operacji niestandardowej , aby utworzyć własny kod imputacji.
Aby dowiedzieć się więcej na temat brakujących danych, zobacz Eksplorowanie danych na potrzeby nauki o danych za pomocą notesów w usłudze Microsoft Fabric.