bamboolib
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Uwaga
aplikacja bamboolib jest obsługiwana w środowisku Databricks Runtime 11.3 LTS i nowszym.
bamboolib to składnik interfejsu użytkownika, który umożliwia analizę danych bez kodu i przekształcenia z poziomu notesu usługi Azure Databricks. bamboolib ułatwia użytkownikom pracę z danymi i przyspiesza typowe zadania dotyczące uzdatniania, eksploracji i wizualizacji danych. Gdy użytkownicy wykonują tego rodzaju zadania przy użyciu danych, bamboolib automatycznie generuje kod języka Python w tle. Użytkownicy mogą udostępniać ten kod innym osobom, którzy mogą uruchamiać ten kod we własnych notesach, aby szybko odtworzyć te oryginalne zadania. Mogą również używać bamboolib do rozszerzania tych oryginalnych zadań z dodatkowymi zadaniami danych, bez konieczności znajomości sposobu pisania kodu. Ci, którzy mają doświadczenie w kodowaniu, mogą rozszerzyć ten kod, aby utworzyć jeszcze bardziej zaawansowane wyniki.
W tle bamboolib używa interfejsów ipywidgets, który jest interaktywną strukturą widżetów HTML dla jądra IPython. polecenie ipywidgets jest uruchamiane wewnątrz jądra IPython.
Zawartość
Wymagania
- Notes usługi Azure Databricks dołączonydo klastra usługi Azure Databricks z usługą Databricks Runtime 11.0 lub nowszym.
- Biblioteka
bamboolib
musi być dostępna dla notesu.- Aby zainstalować bibliotekę z interfejsu PyPI tylko w określonym klastrze, zobacz Biblioteki klastra.
- Aby użyć
%pip
polecenia , aby udostępnić bibliotekę tylko dla określonego notesu, zobacz Notebook-scoped Python libraries (Biblioteki języka Python o zakresie notesu).
Szybki start
Tworzenie notesu języka Python.
W pierwszej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę. Ten krok można pominąć, jeśli element bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.
%pip install bamboolib
W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
import bamboolib as bam
W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
bam
Uwaga
Alternatywnie możesz wydrukować istniejącą ramkę danych biblioteki pandas, aby wyświetlić bibliotekę bamboolib do użycia z określoną ramą danych.
Przewodniki
Możesz użyć biblioteki bamboolib samodzielnie lub z istniejącą ramkę danych biblioteki pandas.
Używanie biblioteki bamboolib samodzielnie
W tym przewodniku użyjesz biblioteki bamboolib do wyświetlenia w notesie zawartości przykładowego zestawu danych sprzedaży. Następnie poeksperymentujesz z niektórymi powiązanymi kodami notesu, który automatycznie generuje bamboolib. Kończysz, wykonując zapytanie i sortowanie kopii zawartości zestawu danych sprzedaży.
Tworzenie notesu języka Python.
W pierwszej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę. Ten krok można pominąć, jeśli element bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.
%pip install bamboolib
W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
import bamboolib as bam
W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
bam
Kliknij pozycję Załaduj fikcyjne dane.
W okienku Ładowanie fikcyjnych danych w obszarze Załaduj fikcyjny zestaw danych na potrzeby testowania bamboolib wybierz pozycję Sales dataset (Zestaw danych Sales).
Kliknij przycisk Wykonaj.
Wyświetl wszystkie wiersze, w których item_type to Baby Food:
- Na liście Akcje wyszukiwania wybierz pozycję Filtruj wiersze.
- W okienku Filtruj wiersze na liście Wybierz (powyżej miejsca) wybierz pozycję Wybierz wiersze.
- Na poniższej liście wybierz pozycję item_type.
- Na liście Wybierz obok pozycji item_type wybierz pozycję ma wartości.
- W polu Wybierz wartości obok pozycji ma wartości wybierz pozycję Jedzenie dla dzieci.
- Kliknij przycisk Wykonaj.
Skopiuj automatycznie wygenerowany kod języka Python dla tego zapytania:
- Cick Copy Code poniżej podglądu danych.
Wklej i zmodyfikuj kod:
W czwartej komórce notesu wklej skopiowany kod. Powinien on wyglądać następująco:
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]
Dodaj do tego kodu, aby wyświetlał tylko te wiersze, w których order_prio to C, a następnie uruchom komórkę:
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
Napiwek
Zamiast pisać ten kod, możesz również wykonać to samo, używając biblioteki bamboolib w trzeciej komórce, aby wyświetlić tylko te wiersze, w których order_prio jest C. Ten krok jest przykładem rozszerzenia kodu wygenerowanego wcześniej przez bibliotekę bamboolib.
Sortuj wiersze według regionu w kolejności rosnącej:
- W widżecie w czwartej komórce na liście Akcje wyszukiwania wybierz pozycję Sortuj wiersze.
- W okienku Sortuj kolumny na liście Wybierz kolumny wybierz region.
- Na liście obok regionu wybierz pozycję Rosnąco (A-Z)..
- Kliknij przycisk Wykonaj.
Uwaga
Jest to odpowiednik samodzielnego pisania następującego kodu:
df = df.sort_values(by=['region'], ascending=[True]) df
Można było również po prostu użyć bamboolib w trzeciej komórce, aby posortować wiersze według regionu w kolejności rosnącej. W tym kroku pokazano, jak za pomocą biblioteki bamboolib rozszerzyć pisany kod. W miarę używania biblioteki bamboolib automatycznie generuje dodatkowy kod w tle, dzięki czemu można dodatkowo rozszerzyć już rozszerzony kod!
Używanie biblioteki bamboolib z istniejącą ramą danych
W tym przewodniku użyjesz biblioteki bamboolib do wyświetlenia w notesie zawartości ramki danych biblioteki pandas. Ta ramka danych zawiera kopię przykładowego zestawu danych sprzedaży. Następnie poeksperymentujesz z niektórymi powiązanymi kodami notesu, który automatycznie generuje bamboolib. Dokończ wykonywanie zapytań i sortowanie części zawartości ramki danych.
Tworzenie notesu języka Python.
W pierwszej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę. Ten krok można pominąć, jeśli element bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.
%pip install bamboolib
W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
import bamboolib as bam
W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
import pandas as pd df = pd.read_csv(bam.sales_csv) df
Należy pamiętać, że bamboolib obsługuje tylko ramki danych pandas. Aby przekonwertować ramkę danych PySpark na ramkę danych biblioteki pandas, wywołaj metodę toPandas w ramce danych PySpark. Aby przekonwertować interfejs API biblioteki Pandas w ramce danych platformy Spark na ramkę danych biblioteki pandas, wywołaj to_pandas w interfejsie API biblioteki Pandas w ramce danych platformy Spark.
Kliknij pozycję Pokaż interfejs użytkownika bamboolib.
Wyświetl wszystkie wiersze, w których item_type to Baby Food:
- Na liście Akcje wyszukiwania wybierz pozycję Filtruj wiersze.
- W okienku Filtruj wiersze na liście Wybierz (powyżej miejsca) wybierz pozycję Wybierz wiersze.
- Na poniższej liście wybierz pozycję item_type.
- Na liście Wybierz obok pozycji item_type wybierz pozycję ma wartości.
- W polu Wybierz wartości obok pozycji ma wartości wybierz pozycję Jedzenie dla dzieci.
- Kliknij przycisk Wykonaj.
Skopiuj automatycznie wygenerowany kod języka Python dla tego zapytania. Aby to zrobić, kliknij pozycję Kopiuj kod poniżej podglądu danych.
Wklej i zmodyfikuj kod:
W czwartej komórce notesu wklej skopiowany kod. Powinien on wyglądać następująco:
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]
Dodaj do tego kodu, aby wyświetlał tylko te wiersze, w których order_prio to C, a następnie uruchom komórkę:
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
Napiwek
Zamiast pisać ten kod, możesz również wykonać to samo, używając biblioteki bamboolib w trzeciej komórce, aby wyświetlić tylko te wiersze, w których order_prio jest C. Ten krok jest przykładem rozszerzenia kodu wygenerowanego wcześniej przez bibliotekę bamboolib.
Sortuj wiersze według regionu w kolejności rosnącej:
a. W widżecie w czwartej komórce kliknij pozycję Sortuj wiersze.
- W okienku Sortuj kolumny na liście Wybierz kolumny wybierz region.
- Na liście obok regionu wybierz pozycję Rosnąco (A-Z)..
- Kliknij przycisk Wykonaj.
Uwaga
Jest to odpowiednik samodzielnego pisania następującego kodu:
df = df.sort_values(by=['region'], ascending=[True]) df
Można było również po prostu użyć bamboolib w trzeciej komórce, aby posortować wiersze według regionu w kolejności rosnącej. W tym kroku pokazano, jak za pomocą biblioteki bamboolib rozszerzyć pisany kod. W miarę używania biblioteki bamboolib automatycznie generuje dodatkowy kod w tle, dzięki czemu można dodatkowo rozszerzyć już rozszerzony kod!
Główne zadania
W tej sekcji:
- Dodawanie widżetu do komórki
- Wyczyść widżet
- Zadania ładowania danych
- Zadania akcji danych
- Zadania historii akcji danych
- Pobieranie kodu w celu programowego ponownego utworzenia bieżącego stanu widżetu jako ramki danych
Dodawanie widżetu do komórki
Scenariusz: chcesz, aby widżet bamboolib był wyświetlany w komórce.
Upewnij się, że notes spełnia wymagania dotyczące biblioteki bamboolib.
Jeśli usługa bamboolib nie jest jeszcze zainstalowana w obszarze roboczym lub klastrze , uruchom następujący kod w komórce w notesie, najlepiej w pierwszej komórce:
%pip install bamboolib
Uruchom następujący kod w notesie, najlepiej w pierwszej lub drugiej komórce notesu:
import bamboolib as bam
Opcja 1: W komórce, w której ma zostać wyświetlony widżet, dodaj następujący kod, a następnie uruchom komórkę:
bam
Widżet zostanie wyświetlony w komórce poniżej kodu.
Lub:
Opcja 2. W komórce zawierającej odwołanie do ramki danych biblioteki pandas wyświetl ramkę danych. Na przykład, biorąc pod uwagę następującą definicję ramki danych, uruchom komórkę:
import pandas as pd from datetime import datetime, date df = pd.DataFrame({ 'a': [ 1, 2, 3 ], 'b': [ 2., 3., 4. ], 'c': [ 'string1', 'string2', 'string3' ], 'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ], 'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ] }) df
Widżet zostanie wyświetlony w komórce poniżej kodu.
Należy pamiętać, że bamboolib obsługuje tylko ramki danych pandas. Aby przekonwertować ramkę danych PySpark na ramkę danych biblioteki pandas, wywołaj metodę toPandas w ramce danych PySpark. Aby przekonwertować interfejs API biblioteki Pandas w ramce danych platformy Spark na ramkę danych biblioteki pandas, wywołaj to_pandas w interfejsie API biblioteki Pandas w ramce danych platformy Spark.
Wyczyść widżet
Scenariusz: chcesz wyczyścić zawartość widżetu, a następnie odczytać nowe dane do istniejącego widżetu.
Opcja 1. Uruchom następujący kod w komórce zawierającej widżet docelowy:
bam
Widżet czyści, a następnie redisplays databricks: odczyt pliku CSV z dbFS, databricks: ładowanie tabeli bazy danych i ładowanie fikcyjnych przycisków danych .
Uwaga
Jeśli wystąpi błąd name 'bam' is not defined
, uruchom następujący kod w notesie (najlepiej w pierwszej komórce notesu), a następnie spróbuj ponownie:
import bamboolib as bam
Opcja 2. W komórce zawierającej odwołanie do ramki danych biblioteki pandas ponownie wydrukuj ramkę danych, uruchamiając komórkę ponownie. Widżet czyści, a następnie wyświetla nowe dane.
Zadania ładowania danych
W tej sekcji:
- Odczytywanie przykładowego zestawu danych do widżetu
- Odczytywanie zawartości pliku CSV do widżetu
- Odczytywanie zawartości tabeli bazy danych do widżetu
Odczytywanie przykładowego zestawu danych do widżetu
Scenariusz: chcesz odczytać przykładowe dane do widżetu, na przykład niektóre dane sprzedaży udawania, aby przetestować funkcje widżetu.
Kliknij pozycję Załaduj fikcyjne dane.
Uwaga
Jeśli ładowanie fikcyjnych danych nie jest widoczne, wyczyść widżet z opcją 1 i spróbuj ponownie.
W okienku Ładowanie fikcyjnych danych w polu Załaduj fikcyjny zestaw danych na potrzeby testowania bamboolib wybierz nazwę zestawu danych, który chcesz załadować.
W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
Kliknij przycisk Wykonaj.
Widżet wyświetla zawartość zestawu danych.
Napiwek
Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innego przykładowego zestawu danych:
- W bieżącym widżecie kliknij kartę Załaduj fikcyjne dane .
- Wykonaj powyższe kroki, aby odczytać zawartość innego przykładowego zestawu danych do widżetu.
Odczytywanie zawartości pliku CSV do widżetu
Scenariusz: chcesz odczytać zawartość pliku CSV w obszarze roboczym usługi Azure Databricks do widżetu.
Kliknij pozycję Databricks: odczyt pliku CSV z systemu plików DBFS.
Uwaga
Jeśli usługa Databricks: odczyt pliku CSV z systemu plików DBFS nie jest widoczny, wyczyść widżet z opcją 1 i spróbuj ponownie.
W okienku Odczyt pliku CSV z systemu plików DBFS przejdź do lokalizacji zawierającej docelowy plik CSV.
Wybierz docelowy plik CSV.
W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości pliku CSV jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
W przypadku separatora wartości CSV wprowadź znak oddzielający wartości w pliku CSV lub pozostaw znak , (przecinek) jako separator wartości domyślnej.
W przypadku separatora dziesiętnego wprowadź znak oddzielający liczby dziesiętne w pliku CSV lub pozostaw znak . (kropka) jako separator wartości domyślnej.
W przypadku limitu wierszy: odczytaj pierwsze N wierszy — pozostaw puste bez limitu, wprowadź maksymalną liczbę wierszy do odczytu do widżetu lub pozostaw wartość 100000 jako domyślną liczbę wierszy lub pozostaw to pole puste, aby nie określić limitu wierszy.
Kliknij pozycję Otwórz plik CSV.
Widżet wyświetla zawartość pliku CSV na podstawie określonych ustawień.
Napiwek
Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innego pliku CSV:
- W bieżącym widżecie kliknij kartę Odczytaj plik CSV z systemu plików DBFS .
- Wykonaj powyższe kroki, aby odczytać zawartość innego pliku CSV do widżetu.
Odczytywanie zawartości tabeli bazy danych do widżetu
Scenariusz: chcesz odczytać zawartość tabeli bazy danych w obszarze roboczym usługi Azure Databricks do widżetu.
Kliknij pozycję Databricks: Załaduj tabelę bazy danych.
Uwaga
Jeśli usługa Databricks: Ładowanie tabeli bazy danych nie jest widoczne, wyczyść widżet z opcją 1 i spróbuj ponownie.
W okienku Databricks: Załaduj tabelę bazy danych w polu Baza danych — pozostaw puste dla domyślnej bazy danych, wprowadź nazwę bazy danych, w której znajduje się tabela docelowa, lub pozostaw to pole puste, aby określić domyślną bazę danych.
W polu Tabela wprowadź nazwę tabeli docelowej.
W przypadku limitu wierszy: odczytaj pierwsze N wierszy — pozostaw puste bez limitu, wprowadź maksymalną liczbę wierszy do odczytu do widżetu lub pozostaw wartość 100000 jako domyślną liczbę wierszy lub pozostaw to pole puste, aby nie określić limitu wierszy.
W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
Kliknij przycisk Wykonaj.
Widżet wyświetla zawartość tabeli na podstawie określonych ustawień.
Napiwek
Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innej tabeli:
- W bieżącym widżecie kliknij kartę Databricks: Załaduj tabelę bazy danych.
- Wykonaj powyższe kroki, aby odczytać zawartość innego spisu w widżecie.
Zadania akcji danych
aplikacja bamboolib oferuje ponad 50 akcji danych. Poniżej przedstawiono niektóre z bardziej typowych zadań dotyczących akcji danych rozpoczynania pracy.
W tej sekcji:
- Wybieranie kolumn
- Usuwanie kolumn
- Filtrowanie wierszy
- Sortowanie wierszy
- Grupowanie wierszy i kolumn zadań
- Usuwanie wierszy z brakującymi wartościami
- Usuwanie zduplikowanych wierszy
- Znajdowanie i zastępowanie brakujących wartości
- Tworzenie formuły kolumny
Wybierz kolumny
Scenariusz: chcesz wyświetlić tylko określone kolumny tabeli według nazwy, według typu danych lub pasujące do określonego wyrażenia regularnego. Na przykład w fikcyjnym zestawie danych Sales chcesz wyświetlić tylko item_type
kolumny i sales_channel
lub pokazać tylko kolumny zawierające ciąg _date
w nazwach kolumn.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz wybierz, a następnie wybierz pozycję Wybierz lub upuść kolumny.
- Wybierz pozycję Wybierz lub upuść kolumny.
- W okienku Wybierz lub upuść kolumny z listy rozwijanej Wybierz wybierz pozycję Wybierz.
- Wybierz docelowe nazwy kolumn lub kryterium dołączania.
- W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
- Kliknij przycisk Wykonaj.
Usuwanie kolumn
Scenariusz: chcesz ukryć określone kolumny tabeli według nazwy, typu danych lub pasujące do określonego wyrażenia regularnego. Na przykład w fikcyjnym zestawie danych Sales chcesz ukryć order_prio
kolumny , order_date
i ship_date
lub chcesz ukryć wszystkie kolumny zawierające tylko wartości daty i godziny.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz drop, a następnie wybierz pozycję Wybierz lub upuść kolumny.
- Wybierz pozycję Wybierz lub upuść kolumny.
- W okienku Wybierz lub upuść kolumny z listy rozwijanej Wybierz wybierz pozycję Upuść.
- Wybierz docelowe nazwy kolumn lub kryterium dołączania.
- W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
- Kliknij przycisk Wykonaj.
Filtruj wiersze
Scenariusz: chcesz pokazać lub ukryć określone wiersze tabeli na podstawie kryteriów, takich jak określone wartości kolumn, które są zgodne lub brakujące. Na przykład w fikcyjnym zestawie danych Sales chcesz wyświetlić tylko te wiersze, w których item_type
wartość kolumny jest ustawiona na Baby Food
wartość .
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz filtr, a następnie wybierz pozycję Filtruj wiersze.
- Wybierz pozycję Filtruj wiersze.
- W okienku Filtrowanie wierszy na liście rozwijanej Wybierz powyżej wybierz pozycję Wybierz wiersze lub Upuść wiersze.
- Określ pierwsze kryterium filtru.
- Aby dodać kolejne kryterium filtru, kliknij przycisk dodaj warunek i określ następne kryterium filtru. Powtórz zgodnie z potrzebami.
- W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
- Kliknij przycisk Wykonaj.
Sortowanie wierszy
Scenariusz: chcesz sortować wiersze tabeli na podstawie wartości w co najmniej jednej kolumnie. Na przykład w fikcyjnym zestawie danych Sales chcesz wyświetlić wiersze według region
wartości kolumny w kolejności alfabetycznej od A do Z.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz sortowanie, a następnie wybierz pozycję Sortuj wiersze.
- Wybierz pozycję Sortuj wiersze.
- W okienku Sortuj kolumny wybierz pierwszą kolumnę do sortowania według i kolejność sortowania.
- Aby dodać kolejne kryterium sortowania, kliknij przycisk dodaj kolumnę i określ następne kryterium sortowania. Powtórz zgodnie z potrzebami.
- W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
- Kliknij przycisk Wykonaj.
Grupowanie wierszy i kolumn zadań
W tej sekcji:
- Grupowanie wierszy i kolumn według pojedynczej funkcji agregującej
- Grupowanie wierszy i kolumn według wielu funkcji agregujących
Grupowanie wierszy i kolumn według pojedynczej funkcji agregującej
Scenariusz: chcesz wyświetlić wyniki wierszy i kolumn według grup obliczeniowych i chcesz przypisać nazwy niestandardowe do tych grup. Na przykład w fikcyjnym zestawie danych Sales chcesz zgrupować wiersze według country
wartości kolumny, pokazując liczbę wierszy zawierających tę samą country
wartość, a następnie podać listę obliczonych liczb nazwę country_count
.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz grupę, a następnie wybierz pozycję Grupuj według i agreguj (z zmianą nazwy).
- Wybierz pozycję Grupuj według i zagreguj (z zmianą nazwy).
- W okienku Grupuj według z nazwą kolumny wybierz kolumny do grupowania, pierwsze obliczenie i opcjonalnie określ nazwę kolumny obliczeniowej.
- Aby dodać kolejne obliczenie, kliknij pozycję Dodaj obliczenie i określ następną nazwę obliczenia i kolumny. Powtórz zgodnie z potrzebami.
- Określ miejsce przechowywania wyniku.
- W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
- Kliknij przycisk Wykonaj.
Grupowanie wierszy i kolumn według wielu funkcji agregujących
Scenariusz: chcesz wyświetlić wyniki wierszy i kolumn według grup obliczeniowych. Na przykład w fikcyjnym zestawie danych Sales chcesz zgrupować wiersze według region
wartości , country
i sales_channel
kolumn, pokazując liczby wierszy zawierających tę samą region
wartość i country
według sales_channel
, a także total_revenue
unikatową kombinację region
country
, i sales_channel
.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz grupę, a następnie wybierz pozycję Grupuj według i agreguj (ustawienie domyślne).
- Wybierz pozycję Grupuj według i zagreguj (wartość domyślna).
- W okienku Grupuj według z zmianą nazwy kolumny wybierz kolumny do grupowania według i pierwsze obliczenie.
- Aby dodać kolejne obliczenie, kliknij pozycję Dodaj obliczenie i określ następne obliczenie. Powtórz zgodnie z potrzebami.
- Określ miejsce przechowywania wyniku.
- W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
- Kliknij przycisk Wykonaj.
Usuwanie wierszy z brakującymi wartościami
Scenariusz: chcesz usunąć dowolny wiersz, który ma brakującą wartość dla określonych kolumn. Na przykład w fikcyjnym zestawie danych Sales chcesz usunąć wszystkie wiersze, które mają brakującą item_type
wartość.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz upuść lub usunąć, a następnie wybierz pozycję Upuść brakujące wartości.
- Wybierz pozycję Upuść brakujące wartości.
- W okienku Upuść brakujące wartości wybierz kolumny, aby usunąć dowolny wiersz z brakującą wartością dla tej kolumny.
- W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
- Kliknij przycisk Wykonaj.
Usuwanie zduplikowanych wierszy
Scenariusz: chcesz usunąć każdy wiersz, który ma zduplikowaną wartość dla określonych kolumn. Na przykład w fikcyjnym zestawie danych Sales chcesz usunąć wszystkie wiersze, które są dokładnie duplikatami siebie.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz upuść lub usunąć, a następnie wybierz pozycję Upuść/Usuń duplikaty.
- Wybierz pozycję Upuść/Usuń duplikaty.
- W okienku Usuń duplikaty wybierz kolumny, aby usunąć dowolny wiersz, który ma zduplikowaną wartość dla tych kolumn, a następnie wybierz, czy zachować pierwszy lub ostatni wiersz, który ma zduplikowaną wartość.
- W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
- Kliknij przycisk Wykonaj.
Znajdowanie i zastępowanie brakujących wartości
Scenariusz: chcesz zastąpić brakującą wartość wartością zastępczą dla dowolnego wiersza określonymi kolumnami. Na przykład w fikcyjnym zestawie danych Sales chcesz zastąpić dowolny wiersz brakującą wartością w item_type
kolumnie wartością Unknown Item Type
.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz znajdź lub zastąp, a następnie wybierz pozycję Znajdź i zastąp brakujące wartości.
- Wybierz pozycję Znajdź i zastąp brakujące wartości.
- W okienku Zamień brakujące wartości wybierz kolumny do zastąpienia brakujących wartości, a następnie określ wartość zastępczą.
- Kliknij przycisk Wykonaj.
Tworzenie formuły kolumny
Scenariusz: chcesz utworzyć kolumnę używającą unikatowej formuły. Na przykład w fikcyjnym zestawie danych Sales chcesz utworzyć kolumnę o nazwie profit_per_unit
, która wyświetla wynik dzielenia total_profit
wartości kolumny według units_sold
wartości kolumny dla każdego wiersza.
- Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
- Wpisz formułę, a następnie wybierz pozycję Nowa formuła kolumny.
- Wybierz pozycję Nowa formuła kolumny.
- W okienku Zamień brakujące wartości wybierz kolumny do zastąpienia brakujących wartości, a następnie określ wartość zastępczą.
- Kliknij przycisk Wykonaj.
Zadania historii akcji danych
W tej sekcji:
- Wyświetlanie listy akcji wykonanych w widżecie
- Cofanie ostatniej akcji podjętej w widżecie
- Wykonaj ponownie najnowszą akcję podjętą w widżecie
- Zmienianie ostatniej akcji podjętej w widżecie
Wyświetlanie listy akcji wykonanych w widżecie
Scenariusz: chcesz wyświetlić listę wszystkich zmian wprowadzonych w widżecie, począwszy od najnowszej zmiany.
Kliknij pozycję Historia. Lista akcji zostanie wyświetlona w okienku Historia przekształceń.
Cofanie ostatniej akcji podjętej w widżecie
Scenariusz: chcesz przywrócić najnowszą zmianę wprowadzoną w widżecie.
Wykonaj jedną z następujących czynności:
- Kliknij ikonę strzałki w lewo.
- Kliknij pozycję Historia, a następnie w okienku Historia przekształceń kliknij przycisk Cofnij ostatni krok.
Wykonaj ponownie najnowszą akcję podjętą w widżecie
Scenariusz: chcesz przywrócić ostatnio przywrócony element w widżecie.
Wykonaj jedną z następujących czynności:
- Kliknij ikonę strzałki zgodnie z ruchem wskazówek zegara.
- Kliknij pozycję Historia, a następnie w okienku Historia przekształceń kliknij pozycję Odzyskaj ostatni krok.
Zmienianie ostatniej akcji podjętej w widżecie
Scenariusz: chcesz zmienić najnowszą zmianę, która została podjęta w widżecie.
- Wykonaj jedną z następujących czynności:
- Kliknij ikonę ołówka.
- Kliknij pozycję Historia, a następnie w okienku Historia przekształceń kliknij pozycję Edytuj ostatni krok.
- Wprowadź żądaną zmianę, a następnie kliknij przycisk Wykonaj.
Pobieranie kodu w celu programowego ponownego utworzenia bieżącego stanu widżetu jako ramki danych
Scenariusz: chcesz uzyskać kod języka Python, który programowo odtwarza stan bieżącego widżetu reprezentowany jako ramka danych biblioteki pandas. Chcesz uruchomić ten kod w innej komórce w tym skoroszycie lub w innym skoroszycie.
Kliknij pozycję Pobierz kod.
W okienku Eksportuj kod kliknij pozycję Kopiuj kod. Kod jest kopiowany do schowka systemu.
Wklej kod do innej komórki w tym skoroszycie lub w innym skoroszycie.
Napisz dodatkowy kod, aby pracować z tą ramkę danych biblioteki pandas programowo, a następnie uruchom komórkę. Na przykład aby wyświetlić zawartość ramki danych, zakładając, że ramka danych jest reprezentowana programowo przez :
df
# Your pasted code here, followed by... df
Ograniczenia
Aby uzyskać więcej informacji, zobacz Znane ograniczenia dotyczące notesów usługi Databricks.
Dodatkowe zasoby
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla