How to use Data Wrangler on Spark DataFrames (Wersja zapoznawcza)
Data Wrangler, narzędzie oparte na notesach do eksploracyjnej analizy danych, obsługuje teraz zarówno ramki danych Spark, jak i ramki danych pandas, generując kod PySpark oprócz kodu w języku Python. Aby zapoznać się z ogólnym omówieniem platformy Data Wrangler, w którym opisano sposób eksplorowania i przekształcania ramek danych biblioteki pandas, zobacz główny samouczek. W poniższym samouczku pokazano, jak używać platformy Data Wrangler do eksplorowania i przekształcania ramek danych platformy Spark.
Ważne
Ta funkcja jest dostępna w wersji zapoznawczej.
Wymagania wstępne
Uzyskaj subskrypcję usługi Microsoft Fabric. Możesz też utworzyć konto bezpłatnej wersji próbnej usługi Microsoft Fabric.
Zaloguj się do usługi Microsoft Fabric.
Użyj przełącznika środowiska po lewej stronie głównej, aby przełączyć się na środowisko usługi Synapse Nauka o danych.
Uruchamianie elementu Data Wrangler za pomocą ramki danych Spark
Użytkownicy mogą otwierać ramki danych platformy Spark w narzędziu Data Wrangler bezpośrednio z notesu usługi Microsoft Fabric, przechodząc do tego samego monitu listy rozwijanej, w którym są wyświetlane ramki danych pandas. Lista aktywnych ramek danych platformy Spark jest wyświetlana na liście rozwijanej poniżej listy aktywnych zmiennych pandas.
Następny fragment kodu tworzy ramkę danych platformy Spark z tymi samymi przykładowymi danymi używanymi w samouczku biblioteki pandas Data Wrangler:
import pandas as pd
# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)
Na karcie "Dane" wstążki notesu użyj monitu rozwijanego Data Wrangler, aby przeglądać aktywne ramki danych dostępne do edycji. Wybierz ten, który chcesz otworzyć w narzędziu Data Wrangler.
Napiwek
Nie można otworzyć narzędzia Wrangler danych, gdy jądro notesu jest zajęte. Wykonanie komórki musi zakończyć wykonywanie przed uruchomieniem narzędzia Data Wrangler.
Wybieranie przykładów niestandardowych
Usługa Data Wrangler automatycznie konwertuje ramki danych Platformy Spark na przykłady biblioteki pandas ze względu na wydajność. Jednak cały kod wygenerowany przez narzędzie jest ostatecznie tłumaczony na PySpark podczas eksportowania z powrotem do notesu. Podobnie jak w przypadku dowolnej ramki danych biblioteki pandas, możesz dostosować domyślny przykład, wybierając pozycję "Wybierz przykład niestandardowy" z menu rozwijanego Data Wrangler. Spowoduje to uruchomienie wyskakującego okienka z opcjami, aby określić rozmiar żądanej próbki (liczbę wierszy) i metodę próbkowania (pierwsze rekordy, ostatnie rekordy lub losowy zestaw).
Wyświetlanie statystyk podsumowania
Podczas ładowania elementu Data Wrangler baner informacyjny nad siatką podglądu przypomina, że ramki danych platformy Spark są tymczasowo konwertowane na próbki biblioteki pandas, ale cały wygenerowany kod zostanie ostatecznie przekonwertowany na PySpark. Używanie elementu Data Wrangler w ramkach danych platformy Spark nie różni się w przeciwnym razie od używania go w ramkach danych biblioteki pandas. Opisowy przegląd na panelu Podsumowanie zawiera informacje o wymiarach przykładu, brakujących wartościach i nie tylko. Wybranie dowolnej kolumny w siatce Wrangler danych powoduje wyświetlenie panelu Podsumowanie w celu zaktualizowania i wyświetlenia opisowych statystyk dotyczących tej konkretnej kolumny. Szybkie szczegółowe informacje o każdej kolumnie są również dostępne w nagłówku.
Napiwek
Statystyki i wizualizacje specyficzne dla kolumny (zarówno w panelu Podsumowanie, jak i w nagłówkach kolumn) zależą od typu danych kolumny. Na przykład w nagłówku kolumny liczbowej pojawi się histogram binned, tylko wtedy, gdy kolumna jest rzutowana jako typ liczbowy. Użyj panelu Operacje, aby ponownie wyświetlić typy kolumn w celu uzyskania najdokładniejszego wyświetlania.
Przeglądanie operacji czyszczenia danych
Listę kroków czyszczenia danych można znaleźć na panelu Operacje. (Mniejszy wybór tych samych operacji jest również dostępny w menu kontekstowym każdej kolumny). W panelu Operacje wybranie kroku czyszczenia danych powoduje wyświetlenie monitu o podanie kolumny docelowej lub kolumn wraz z dowolnymi wymaganymi parametrami do ukończenia kroku. Na przykład monit o skalowanie kolumny numerycznie wymaga nowego zakresu wartości.
Wyświetlanie podglądu i stosowanie operacji
Wyniki wybranej operacji są automatycznie wyświetlane w siatce wyświetlania elementu Data Wrangler, a odpowiedni kod jest automatycznie wyświetlany w panelu poniżej siatki. Aby zatwierdzić podgląd kodu, wybierz pozycję "Zastosuj" w obu miejscach. Aby pozbyć się podglądu kodu i wypróbować nową operację, wybierz pozycję "Odrzuć".
Po zastosowaniu operacji siatka wyświetlania i podsumowanie statystyk usługi Data Wrangler zostaną zaktualizowane w celu odzwierciedlenia wyników. Kod zostanie wyświetlony na uruchomionej liście zatwierdzonych operacji znajdujących się w panelu Kroki czyszczenia.
Napiwek
Zawsze można cofnąć ostatnio zastosowany krok z ikoną kosza obok niego, która pojawia się po umieszczeniu kursora na tym kroku w panelu Kroki czyszczenia.
Poniższa tabela zawiera podsumowanie operacji obsługiwanych obecnie przez usługę Data Wrangler dla ramek danych platformy Spark:
Operacja | Opis |
---|---|
Sortowanie | Sortowanie kolumny w kolejności rosnącej lub malejącej |
Filtr | Filtrowanie wierszy na podstawie co najmniej jednego warunków |
Kodowanie jednorazowe | Utwórz nowe kolumny dla każdej unikatowej wartości w istniejącej kolumnie, co wskazuje obecność lub brak tych wartości w wierszu |
Kodowanie jednokrotne z ogranicznikiem | Dzielenie i kodowanie jednokrotne danych kategorii przy użyciu ogranicznika |
Zmienianie typu kolumny | Zmienianie typu danych kolumny |
Upuść kolumnę | Usuń co najmniej jedną kolumnę |
Wybieranie kolumny | Wybierz co najmniej jedną kolumnę do zachowania i usuń resztę |
Zmienianie nazwy kolumny | Zmienianie nazwy kolumny |
Usuwanie brakujących wartości | Usuwanie wierszy z brakującymi wartościami |
Usuwanie zduplikowanych wierszy | Usuwanie wszystkich wierszy, które mają zduplikowane wartości w co najmniej jednej kolumnie |
Wypełnianie brakujących wartości | Zastąp komórki brakującymi wartościami nową wartością |
Znajdowanie i zastępowanie | Zastępowanie komórek dokładnym wzorcem dopasowania |
Grupuj według kolumn i agregację | Grupowanie według wartości kolumn i agregowanie wyników |
Odstępy | Usuń białe znaki od początku i końca tekstu |
Podziel tekst | Dzielenie kolumny na kilka kolumn na podstawie ogranicznika zdefiniowanego przez użytkownika |
Konwertowanie tekstu na małe litery | Konwertowanie tekstu na małe litery |
Konwertowanie tekstu na wielkie litery | Konwertowanie tekstu na WIELKIE LITERY |
Skalowanie wartości minimalnych/maksymalnych | Skalowanie kolumny liczbowej między wartością minimalną i maksymalną |
Wypełnienie błyskawiczne | Automatycznie utwórz nową kolumnę na podstawie przykładów pochodzących z istniejącej kolumny |
Zapisywanie i eksportowanie kodu
Pasek narzędzi powyżej siatki wyświetlania Wrangler danych zawiera opcje zapisywania wygenerowanego kodu. Możesz skopiować kod do schowka lub wyeksportować go do notesu jako funkcję. W przypadku ramek danych platformy Spark cały kod wygenerowany w przykładzie pandas jest tłumaczony na PySpark, zanim wróci do notesu. Przed zamknięciem elementu Data Wrangler narzędzie wyświetla podgląd przetłumaczonego kodu PySpark i udostępnia opcję eksportowania pośredniego kodu biblioteki pandas.
Napiwek
Kod wygenerowany przez usługę Data Wrangler nie zostanie zastosowany do momentu ręcznego uruchomienia nowej komórki i nie zastąpi oryginalnej ramki danych.
Powiązana zawartość
- Aby zapoznać się z omówieniem narzędzia Data Wrangler, zobacz ten artykuł towarzyszący.
- Aby wypróbować narzędzie Data Wrangler w programie VS Code, zobacz Data Wrangler w programie VS Code.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla