Udostępnij za pośrednictwem


Jak przyspieszyć przygotowywanie danych za pomocą narzędzia Data Wrangler w usłudze Microsoft Fabric

Narzędzie Data Wrangler to zasób oparty na notesie, który udostępnia immersyjny interfejs do eksploracyjnej analizy danych. Łączy ona wyświetlanie danych przypominających siatkę z dynamicznymi statystykami podsumowania, wbudowanymi wizualizacjami i biblioteką typowych operacji czyszczenia danych. Każdą operację można zastosować, wykonując kilka kroków. Możesz zaktualizować wyświetlanie danych w czasie rzeczywistym i wygenerować kod w języku pandas lub PySpark, który można zapisać z powrotem do notesu jako funkcję wielokrotnego użytku. Ten artykuł koncentruje się na eksploracji i przekształcaniu pandas DataFrames. Aby uzyskać więcej informacji na temat korzystania z elementu Data Wrangler w ramkach danych platformy Spark, odwiedź ten zasób.

Wymagania wstępne

Ograniczenia

  • Operacje niestandardowego kodu są obecnie obsługiwane tylko dla ramek danych pandas.
  • Wyświetlacz Data Wrangler działa najlepiej na dużych monitorach, chociaż można zminimalizować lub ukryć różne części interfejsu, aby pomieścić mniejsze ekrany.

Uruchamianie narzędzia Data Wrangler

Możesz uruchomić narzędzie Data Wrangler bezpośrednio z notesu usługi Microsoft Fabric, aby eksplorować i przekształcać dowolne biblioteki pandas lub Spark DataFrame. Aby uzyskać więcej informacji na temat korzystania z elementu Data Wrangler z ramkami danych platformy Spark, odwiedź ten artykuł towarzyszący. Ten fragment kodu przedstawia sposób odczytywania przykładowych danych do ramki danych biblioteki pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Na karcie "Narzędzia główne" na wstążce notatnika, użyj rozwijanego menu Data Wrangler, aby przeglądać aktywne ramki danych dostępne do edycji. Wybierz ten, który chcesz otworzyć w narzędziu Data Wrangler.

Napiwek

Nie można otworzyć narzędzia Data Wrangler, gdy jądro notesu jest zajęte. Komórka musi zakończyć swoje działanie zanim narzędzie Data Wrangler może zostać uruchomione, jak pokazano na poniższym zrzucie ekranu.

Zrzut ekranu przedstawiający notatnik Fabric z menu rozwijanym Data Wrangler.

Wybieranie przykładów niestandardowych

Aby otworzyć niestandardowy przykład dowolnej aktywnej ramki danych z elementem Data Wrangler, wybierz z listy rozwijanej pozycję "Wybierz przykład niestandardowy", jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający menu rozwijane Data Wrangler z opcją próbki niestandardowej opisaną.

Spowoduje to uruchomienie wyskakującego okienka z opcjami określającymi rozmiar żądanej próbki (liczbę wierszy) i metodę próbkowania (pierwsze rekordy, ostatnie rekordy lub losowy zestaw). Pierwsze 5000 wierszy ramki danych służy jako domyślny rozmiar próbki, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający niestandardowy monit dotyczący przykładu usługi Data Wrangler.

Wyświetlanie statystyk podsumowania

Gdy Data Wrangler się ładuje, wyświetla opisowy przegląd wybranego DataFrame’u w panelu „Podsumowanie”. To omówienie zawiera informacje o wymiarach ramki danych, ich brakujących wartościach i nie tylko. Wybór dowolnej kolumny w siatce Data Wrangler powoduje, że panel "Podsumowanie" zostaje zaktualizowany i wyświetla statystyki opisowe dotyczące tej konkretnej kolumny. Szybkie szczegółowe informacje o każdej kolumnie są również dostępne w nagłówku.

Napiwek

Statystyki i wizualizacje specyficzne dla kolumny (zarówno w panelu "Podsumowanie", jak i w nagłówkach kolumn) zależą od typu danych kolumny. Na przykład tylko wtedy, gdy kolumna jest rzutowana jako typ liczbowy, pojawia się w nagłówku kolumny histogram o podziale na przedziały, jak pokazano na tym zrzucie ekranu.

Zrzut ekranu przedstawiający siatkę wyświetlania usługi Data Wrangler i panel Podsumowanie.

Przeglądanie operacji czyszczenia danych

Listę kroków czyszczenia danych można znaleźć na panelu "Operacje". W panelu "Operacje" wybór kroku czyszczenia danych wyświetla monit o podanie kolumny docelowej lub kolumn wraz z wszelkimi wymaganymi parametrami do ukończenia kroku. Na przykład monit o liczbowe skalowanie kolumny wymaga nowego zakresu wartości, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający panel operacji Data Wrangler.

Napiwek

Możesz zastosować mniejszy wybór operacji z menu każdego nagłówka kolumny, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający operację Data Wrangler, którą można zastosować z menu nagłówka kolumny.

Wyświetlanie podglądu i stosowanie operacji

Siatka wyświetlania Data Wrangler automatycznie pokazuje wyniki wybranej operacji, a odpowiedni kod pojawia się w panelu poniżej siatki. Aby zatwierdzić podglądany kod, wybierz opcję "Zastosuj" w jednym z miejsc. Aby usunąć podgląd kodu i wypróbować nową operację, wybierz pozycję "Odrzuć", jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający operację Data Wrangler w toku.

Po zastosowaniu operacji siatka wyświetlania i podsumowanie statystyk usługi Data Wrangler zostaną zaktualizowane w celu odzwierciedlenia wyników. Kod zostanie wyświetlony na uruchomionej liście zatwierdzonych operacji znajdujących się w panelu "Kroki czyszczenia", jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający zastosowaną operację Wrangler danych.

Wskazówka (if "Tip" refers to advice)

Zawsze można cofnąć ostatnio zastosowany krok. W panelu "Kroki czyszczenia" zostanie wyświetlona ikona kosza, jeśli umieścisz kursor na tym ostatnio zastosowanym kroku, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający operację Wrangler danych, którą można cofnąć.

Ta tabela zawiera podsumowanie operacji obsługiwanych obecnie przez usługę Data Wrangler:

Operacja Opis
Sortowanie Sortowanie kolumny w kolejności rosnącej lub malejącej
Filtr Filtrowanie wierszy na podstawie co najmniej jednego warunku
Kodowanie jednorazowe Utwórz nowe kolumny dla każdej unikatowej wartości w istniejącej kolumnie, co wskazuje obecność lub brak tych wartości w wierszu
Wieloetykietowy binarizer Podziel dane przy użyciu separatora i utwórz nowe kolumny dla każdej kategorii, oznaczając 1, jeśli wiersz ma kategorię i 0, jeśli nie.
Zmienianie typu kolumny Zmienianie typu danych kolumny
Upuść kolumnę Usuń co najmniej jedną kolumnę
Wybieranie kolumny Wybierz co najmniej jedną kolumnę do zachowania i usuń resztę
Zmienianie nazwy kolumny Zmienianie nazwy kolumny
Usuń brakujące wartości Usuwanie wierszy z brakującymi wartościami
Usuwanie zduplikowanych wierszy Usuwanie wszystkich wierszy, które mają zduplikowane wartości w co najmniej jednej kolumnie
Wypełnianie brakujących wartości Zastąp komórki brakującymi wartościami nową wartością
Znajdowanie i zastępowanie Zamień komórki dokładnie dopasowanym wzorcem
Grupuj według kolumn i agreguj Grupowanie według wartości kolumn i agregowanie wyników
Usuń białe znaki Usuń białe znaki od początku i końca tekstu
Podziel tekst Dzielenie kolumny na kilka kolumn na podstawie ogranicznika zdefiniowanego przez użytkownika
Konwertowanie tekstu na małe litery Konwertowanie tekstu na małe litery
Konwertowanie tekstu na wielkie litery Konwertowanie tekstu na WIELKIE LITERY
Skalowanie wartości minimalnych/maksymalnych Skalowanie kolumny liczbowej między wartością minimalną i maksymalną
Wypełnienie błyskawiczne Automatycznie utwórz nową kolumnę na podstawie przykładów pochodzących z istniejącej kolumny

Modyfikowanie wyświetlania

W dowolnym momencie możesz dostosować interfejs za pomocą karty "Widoki" na pasku narzędzi znajdującym się nad siatką wyświetlania Data Wrangler. Pozwala to ukryć lub pokazać różne okienka na podstawie preferencji i rozmiaru ekranu, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający menu Data Wrangler służące do dostosowywania widoku wyświetlania.

Zapisywanie i eksportowanie kodu

Pasek narzędzi powyżej siatki wyświetlania Wrangler danych zawiera opcje zapisywania wygenerowanego kodu. Możesz skopiować kod do schowka lub wyeksportować go do notatnika jako funkcję. Eksportowanie kodu powoduje zamknięcie narzędzia Data Wrangler i dodanie nowej funkcji do komórki kodu w notesie. Można również pobrać oczyszczoną ramkę danych jako plik csv.

Napiwek

Funkcja Data Wrangler generuje kod, który jest stosowany tylko wtedy, gdy ręcznie uruchomisz nową komórkę i nie zastąpi oryginalnej ramki danych, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający opcje eksportowania kodu w narzędziu Data Wrangler.

Następnie możesz uruchomić ten wyeksportowany kod, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający kod wygenerowany przez usługę Data Wrangler w notesie.