Jak przyspieszyć przygotowywanie danych za pomocą narzędzia Data Wrangler w usłudze Microsoft Fabric
Data Wrangler to narzędzie oparte na notesach, które zapewnia użytkownikom immersyjny interfejs do eksploracyjnej analizy danych. Ta funkcja łączy wyświetlanie danych przypominających siatkę z dynamicznymi statystykami podsumowania, wbudowanymi wizualizacjami i biblioteką typowych operacji czyszczenia danych. Każdą operację można zastosować w kilku kliknięciach, aktualizując wyświetlanie danych w czasie rzeczywistym i generując kod w bibliotece pandas lub PySpark, który można zapisać z powrotem do notesu jako funkcję wielokrotnego użytku. Ten artykuł koncentruje się na eksplorowaniu i przekształcaniu ramek danych biblioteki pandas. Instrukcje dotyczące korzystania z elementu Data Wrangler w ramkach danych platformy Spark można znaleźć tutaj.
Wymagania wstępne
Uzyskaj subskrypcję usługi Microsoft Fabric. Możesz też utworzyć konto bezpłatnej wersji próbnej usługi Microsoft Fabric.
Zaloguj się do usługi Microsoft Fabric.
Użyj przełącznika środowiska po lewej stronie głównej, aby przełączyć się na środowisko usługi Synapse Nauka o danych.
Ograniczenia
- Usługa Data Wrangler obecnie obsługuje generowanie kodu pandas w ogólnej dostępności i generowanie kodu platformy Spark w publicznej wersji zapoznawczej.
- Niestandardowe operacje kodu są obecnie obsługiwane tylko dla ramek danych biblioteki pandas.
- Wyświetlacz Wranglera danych najlepiej sprawdza się na dużych monitorach, chociaż różne części interfejsu można zminimalizować lub ukryć, aby pomieścić mniejsze ekrany.
Uruchamianie narzędzia Data Wrangler
Możesz uruchomić narzędzie Data Wrangler bezpośrednio z notesu usługi Microsoft Fabric, aby eksplorować i przekształcać dowolne biblioteki pandas lub Spark DataFrame. Aby zapoznać się z omówieniem korzystania z elementu Data Wrangler z ramkami danych platformy Spark, zobacz ten artykuł towarzyszący. Poniższy fragment kodu przedstawia sposób odczytywania przykładowych danych do ramki danych biblioteki pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Na karcie "Dane" wstążki notesu użyj monitu rozwijanego Data Wrangler, aby przeglądać aktywne ramki danych dostępne do edycji. Wybierz ten, który chcesz otworzyć w narzędziu Data Wrangler.
Napiwek
Nie można otworzyć narzędzia Wrangler danych, gdy jądro notesu jest zajęte. Wykonanie komórki musi zakończyć wykonywanie przed uruchomieniem narzędzia Data Wrangler.
Wybieranie przykładów niestandardowych
Narzędzie Data Wrangler umożliwia otwarcie niestandardowej próbki dowolnej aktywnej ramki danych, wybierając pozycję "Wybierz przykład niestandardowy" z listy rozwijanej. Spowoduje to uruchomienie wyskakującego okienka z opcjami, aby określić rozmiar żądanej próbki (liczbę wierszy) i metodę próbkowania (pierwsze rekordy, ostatnie rekordy lub losowy zestaw).
Wyświetlanie statystyk podsumowania
Podczas ładowania elementu Data Wrangler w panelu Podsumowanie zostanie wyświetlony opisowy przegląd wybranej ramki danych. To omówienie zawiera informacje o wymiarach ramki danych, brakujących wartościach i nie tylko. Wybranie dowolnej kolumny w siatce Wrangler danych powoduje wyświetlenie panelu Podsumowanie w celu zaktualizowania i wyświetlenia opisowych statystyk dotyczących tej konkretnej kolumny. Szybkie szczegółowe informacje o każdej kolumnie są również dostępne w nagłówku.
Napiwek
Statystyki i wizualizacje specyficzne dla kolumny (zarówno w panelu Podsumowanie, jak i w nagłówkach kolumn) zależą od typu danych kolumny. Na przykład w nagłówku kolumny liczbowej pojawi się histogram binned, tylko wtedy, gdy kolumna jest rzutowana jako typ liczbowy. Użyj panelu Operacje, aby ponownie wyświetlić typy kolumn w celu uzyskania najdokładniejszego wyświetlania.
Przeglądanie operacji czyszczenia danych
Listę kroków czyszczenia danych można znaleźć na panelu Operacje. (Mniejszy wybór tych samych operacji jest dostępny w menu każdego nagłówka kolumny). W panelu Operacje wybranie kroku czyszczenia danych powoduje wyświetlenie monitu o podanie kolumny docelowej lub kolumn wraz z dowolnymi wymaganymi parametrami do ukończenia kroku. Na przykład monit o skalowanie kolumny numerycznie wymaga nowego zakresu wartości.
Wyświetlanie podglądu i stosowanie operacji
Wyniki wybranej operacji będą automatycznie wyświetlane w siatce wyświetlania elementu Data Wrangler, a odpowiedni kod zostanie automatycznie wyświetlony w panelu poniżej siatki. Aby zatwierdzić podgląd kodu, wybierz pozycję "Zastosuj" w obu miejscach. Aby pozbyć się podglądu kodu i wypróbować nową operację, wybierz pozycję "Odrzuć".
Po zastosowaniu operacji siatka wyświetlania i podsumowanie statystyk usługi Data Wrangler zostaną zaktualizowane w celu odzwierciedlenia wyników. Kod zostanie wyświetlony na uruchomionej liście zatwierdzonych operacji znajdujących się w panelu Kroki czyszczenia.
Napiwek
Zawsze można cofnąć ostatnio zastosowany krok z ikoną kosza obok niego, która pojawia się po umieszczeniu kursora na tym kroku w panelu Kroki czyszczenia.
Poniższa tabela zawiera podsumowanie operacji obsługiwanych obecnie przez usługę Data Wrangler:
Operacja | Opis |
---|---|
Sortowanie | Sortowanie kolumny w kolejności rosnącej lub malejącej |
Filtr | Filtrowanie wierszy na podstawie co najmniej jednego warunków |
Kodowanie jednorazowe | Utwórz nowe kolumny dla każdej unikatowej wartości w istniejącej kolumnie, co wskazuje obecność lub brak tych wartości w wierszu |
Kodowanie jednokrotne z ogranicznikiem | Dzielenie i kodowanie jednokrotne danych kategorii przy użyciu ogranicznika |
Zmienianie typu kolumny | Zmienianie typu danych kolumny |
Upuść kolumnę | Usuń co najmniej jedną kolumnę |
Wybieranie kolumny | Wybierz co najmniej jedną kolumnę do zachowania i usuń resztę |
Zmienianie nazwy kolumny | Zmienianie nazwy kolumny |
Usuwanie brakujących wartości | Usuwanie wierszy z brakującymi wartościami |
Usuwanie zduplikowanych wierszy | Usuwanie wszystkich wierszy, które mają zduplikowane wartości w co najmniej jednej kolumnie |
Wypełnianie brakujących wartości | Zastąp komórki brakującymi wartościami nową wartością |
Znajdowanie i zastępowanie | Zastępowanie komórek dokładnym wzorcem dopasowania |
Grupuj według kolumn i agregację | Grupowanie według wartości kolumn i agregowanie wyników |
Odstępy | Usuń białe znaki od początku i końca tekstu |
Podziel tekst | Dzielenie kolumny na kilka kolumn na podstawie ogranicznika zdefiniowanego przez użytkownika |
Konwertowanie tekstu na małe litery | Konwertowanie tekstu na małe litery |
Konwertowanie tekstu na wielkie litery | Konwertowanie tekstu na WIELKIE LITERY |
Skalowanie wartości minimalnych/maksymalnych | Skalowanie kolumny liczbowej między wartością minimalną i maksymalną |
Wypełnienie błyskawiczne | Automatycznie utwórz nową kolumnę na podstawie przykładów pochodzących z istniejącej kolumny |
Zapisywanie i eksportowanie kodu
Pasek narzędzi powyżej siatki wyświetlania Wrangler danych zawiera opcje zapisywania wygenerowanego kodu. Możesz skopiować kod do schowka lub wyeksportować go do notesu jako funkcję. Eksportowanie kodu powoduje zamknięcie narzędzia Data Wrangler i dodanie nowej funkcji do komórki kodu w notesie. Można również pobrać oczyszczoną ramkę danych jako plik csv.
Napiwek
Kod wygenerowany przez usługę Data Wrangler nie zostanie zastosowany do momentu ręcznego uruchomienia nowej komórki i nie zastąpi oryginalnej ramki danych.
Powiązana zawartość
- Aby wypróbować narzędzie Data Wrangler w ramkach danych platformy Spark, zobacz ten artykuł towarzyszący.
- Aby wypróbować narzędzie Data Wrangler w programie VS Code, zobacz Data Wrangler w programie VS Code.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla