Jak przyspieszyć przygotowywanie danych za pomocą narzędzia Data Wrangler w usłudze Microsoft Fabric

Data Wrangler to narzędzie oparte na notesach, które zapewnia użytkownikom immersyjny interfejs do eksploracyjnej analizy danych. Ta funkcja łączy wyświetlanie danych przypominających siatkę z dynamicznymi statystykami podsumowania, wbudowanymi wizualizacjami i biblioteką typowych operacji czyszczenia danych. Każdą operację można zastosować w kilku kliknięciach, aktualizując wyświetlanie danych w czasie rzeczywistym i generując kod w bibliotece pandas lub PySpark, który można zapisać z powrotem do notesu jako funkcję wielokrotnego użytku. Ten artykuł koncentruje się na eksplorowaniu i przekształcaniu ramek danych biblioteki pandas. Instrukcje dotyczące korzystania z elementu Data Wrangler w ramkach danych platformy Spark można znaleźć tutaj.

Wymagania wstępne

  • Uzyskaj subskrypcję usługi Microsoft Fabric. Możesz też utworzyć konto bezpłatnej wersji próbnej usługi Microsoft Fabric.

  • Zaloguj się do usługi Microsoft Fabric.

  • Użyj przełącznika środowiska po lewej stronie głównej, aby przełączyć się na środowisko usługi Synapse Nauka o danych.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Ograniczenia

  • Usługa Data Wrangler obecnie obsługuje generowanie kodu pandas w ogólnej dostępności i generowanie kodu platformy Spark w publicznej wersji zapoznawczej.
  • Niestandardowe operacje kodu są obecnie obsługiwane tylko dla ramek danych biblioteki pandas.
  • Wyświetlacz Wranglera danych najlepiej sprawdza się na dużych monitorach, chociaż różne części interfejsu można zminimalizować lub ukryć, aby pomieścić mniejsze ekrany.

Uruchamianie narzędzia Data Wrangler

Możesz uruchomić narzędzie Data Wrangler bezpośrednio z notesu usługi Microsoft Fabric, aby eksplorować i przekształcać dowolne biblioteki pandas lub Spark DataFrame. Aby zapoznać się z omówieniem korzystania z elementu Data Wrangler z ramkami danych platformy Spark, zobacz ten artykuł towarzyszący. Poniższy fragment kodu przedstawia sposób odczytywania przykładowych danych do ramki danych biblioteki pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Na karcie "Dane" wstążki notesu użyj monitu rozwijanego Data Wrangler, aby przeglądać aktywne ramki danych dostępne do edycji. Wybierz ten, który chcesz otworzyć w narzędziu Data Wrangler.

Napiwek

Nie można otworzyć narzędzia Wrangler danych, gdy jądro notesu jest zajęte. Wykonanie komórki musi zakończyć wykonywanie przed uruchomieniem narzędzia Data Wrangler.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Wybieranie przykładów niestandardowych

Narzędzie Data Wrangler umożliwia otwarcie niestandardowej próbki dowolnej aktywnej ramki danych, wybierając pozycję "Wybierz przykład niestandardowy" z listy rozwijanej. Spowoduje to uruchomienie wyskakującego okienka z opcjami, aby określić rozmiar żądanej próbki (liczbę wierszy) i metodę próbkowania (pierwsze rekordy, ostatnie rekordy lub losowy zestaw).

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Wyświetlanie statystyk podsumowania

Podczas ładowania elementu Data Wrangler w panelu Podsumowanie zostanie wyświetlony opisowy przegląd wybranej ramki danych. To omówienie zawiera informacje o wymiarach ramki danych, brakujących wartościach i nie tylko. Wybranie dowolnej kolumny w siatce Wrangler danych powoduje wyświetlenie panelu Podsumowanie w celu zaktualizowania i wyświetlenia opisowych statystyk dotyczących tej konkretnej kolumny. Szybkie szczegółowe informacje o każdej kolumnie są również dostępne w nagłówku.

Napiwek

Statystyki i wizualizacje specyficzne dla kolumny (zarówno w panelu Podsumowanie, jak i w nagłówkach kolumn) zależą od typu danych kolumny. Na przykład w nagłówku kolumny liczbowej pojawi się histogram binned, tylko wtedy, gdy kolumna jest rzutowana jako typ liczbowy. Użyj panelu Operacje, aby ponownie wyświetlić typy kolumn w celu uzyskania najdokładniejszego wyświetlania.

Screenshot showing the Data Wrangler display grid and Summary panel.

Przeglądanie operacji czyszczenia danych

Listę kroków czyszczenia danych można znaleźć na panelu Operacje. (Mniejszy wybór tych samych operacji jest dostępny w menu każdego nagłówka kolumny). W panelu Operacje wybranie kroku czyszczenia danych powoduje wyświetlenie monitu o podanie kolumny docelowej lub kolumn wraz z dowolnymi wymaganymi parametrami do ukończenia kroku. Na przykład monit o skalowanie kolumny numerycznie wymaga nowego zakresu wartości.

Screenshot showing the Data Wrangler Operations panel.

Wyświetlanie podglądu i stosowanie operacji

Wyniki wybranej operacji będą automatycznie wyświetlane w siatce wyświetlania elementu Data Wrangler, a odpowiedni kod zostanie automatycznie wyświetlony w panelu poniżej siatki. Aby zatwierdzić podgląd kodu, wybierz pozycję "Zastosuj" w obu miejscach. Aby pozbyć się podglądu kodu i wypróbować nową operację, wybierz pozycję "Odrzuć".

Screenshot showing a Data Wrangler operation in progress.

Po zastosowaniu operacji siatka wyświetlania i podsumowanie statystyk usługi Data Wrangler zostaną zaktualizowane w celu odzwierciedlenia wyników. Kod zostanie wyświetlony na uruchomionej liście zatwierdzonych operacji znajdujących się w panelu Kroki czyszczenia.

Screenshot showing an applied Data Wrangler operation.

Napiwek

Zawsze można cofnąć ostatnio zastosowany krok z ikoną kosza obok niego, która pojawia się po umieszczeniu kursora na tym kroku w panelu Kroki czyszczenia.

Screenshot showing a Data Wrangler operation that can be undone.

Poniższa tabela zawiera podsumowanie operacji obsługiwanych obecnie przez usługę Data Wrangler:

Operacja Opis
Sortowanie Sortowanie kolumny w kolejności rosnącej lub malejącej
Filtr Filtrowanie wierszy na podstawie co najmniej jednego warunków
Kodowanie jednorazowe Utwórz nowe kolumny dla każdej unikatowej wartości w istniejącej kolumnie, co wskazuje obecność lub brak tych wartości w wierszu
Kodowanie jednokrotne z ogranicznikiem Dzielenie i kodowanie jednokrotne danych kategorii przy użyciu ogranicznika
Zmienianie typu kolumny Zmienianie typu danych kolumny
Upuść kolumnę Usuń co najmniej jedną kolumnę
Wybieranie kolumny Wybierz co najmniej jedną kolumnę do zachowania i usuń resztę
Zmienianie nazwy kolumny Zmienianie nazwy kolumny
Usuwanie brakujących wartości Usuwanie wierszy z brakującymi wartościami
Usuwanie zduplikowanych wierszy Usuwanie wszystkich wierszy, które mają zduplikowane wartości w co najmniej jednej kolumnie
Wypełnianie brakujących wartości Zastąp komórki brakującymi wartościami nową wartością
Znajdowanie i zastępowanie Zastępowanie komórek dokładnym wzorcem dopasowania
Grupuj według kolumn i agregację Grupowanie według wartości kolumn i agregowanie wyników
Odstępy Usuń białe znaki od początku i końca tekstu
Podziel tekst Dzielenie kolumny na kilka kolumn na podstawie ogranicznika zdefiniowanego przez użytkownika
Konwertowanie tekstu na małe litery Konwertowanie tekstu na małe litery
Konwertowanie tekstu na wielkie litery Konwertowanie tekstu na WIELKIE LITERY
Skalowanie wartości minimalnych/maksymalnych Skalowanie kolumny liczbowej między wartością minimalną i maksymalną
Wypełnienie błyskawiczne Automatycznie utwórz nową kolumnę na podstawie przykładów pochodzących z istniejącej kolumny

Zapisywanie i eksportowanie kodu

Pasek narzędzi powyżej siatki wyświetlania Wrangler danych zawiera opcje zapisywania wygenerowanego kodu. Możesz skopiować kod do schowka lub wyeksportować go do notesu jako funkcję. Eksportowanie kodu powoduje zamknięcie narzędzia Data Wrangler i dodanie nowej funkcji do komórki kodu w notesie. Można również pobrać oczyszczoną ramkę danych jako plik csv.

Napiwek

Kod wygenerowany przez usługę Data Wrangler nie zostanie zastosowany do momentu ręcznego uruchomienia nowej komórki i nie zastąpi oryginalnej ramki danych.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.