Udostępnij za pośrednictwem


bamboolib

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Uwaga

aplikacja bamboolib jest obsługiwana w środowisku Databricks Runtime 11.3 LTS i nowszym.

bamboolib to składnik interfejsu użytkownika, który umożliwia analizę danych bez kodu i przekształcenia z poziomu notesu usługi Azure Databricks. bamboolib ułatwia użytkownikom pracę z danymi i przyspiesza typowe zadania dotyczące uzdatniania, eksploracji i wizualizacji danych. Gdy użytkownicy wykonują tego rodzaju zadania przy użyciu danych, bamboolib automatycznie generuje kod języka Python w tle. Użytkownicy mogą udostępniać ten kod innym osobom, którzy mogą uruchamiać ten kod we własnych notesach, aby szybko odtworzyć te oryginalne zadania. Mogą również używać bamboolib do rozszerzania tych oryginalnych zadań z dodatkowymi zadaniami danych, bez konieczności znajomości sposobu pisania kodu. Ci, którzy mają doświadczenie w kodowaniu, mogą rozszerzyć ten kod, aby utworzyć jeszcze bardziej zaawansowane wyniki.

W tle bamboolib używa interfejsów ipywidgets, który jest interaktywną strukturą widżetów HTML dla jądra IPython. polecenie ipywidgets jest uruchamiane wewnątrz jądra IPython.

Zawartość

Wymagania

Szybki start

  1. Tworzenie notesu języka Python.

  2. Dołącz notes do klastra spełniającego wymagania.

  3. W pierwszej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę. Ten krok można pominąć, jeśli element bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.

    %pip install bamboolib
    
  4. W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    import bamboolib as bam
    
  5. W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    bam
    

    Uwaga

    Alternatywnie możesz wydrukować istniejącą ramkę danych biblioteki pandas, aby wyświetlić bibliotekę bamboolib do użycia z określoną ramą danych.

  6. Kontynuuj pracę z kluczowymi zadaniami.

Przewodniki

Możesz użyć biblioteki bamboolib samodzielnie lub z istniejącą ramkę danych biblioteki pandas.

Używanie biblioteki bamboolib samodzielnie

W tym przewodniku użyjesz biblioteki bamboolib do wyświetlenia w notesie zawartości przykładowego zestawu danych sprzedaży. Następnie poeksperymentujesz z niektórymi powiązanymi kodami notesu, który automatycznie generuje bamboolib. Kończysz, wykonując zapytanie i sortowanie kopii zawartości zestawu danych sprzedaży.

  1. Tworzenie notesu języka Python.

  2. Dołącz notes do klastra spełniającego wymagania.

  3. W pierwszej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę. Ten krok można pominąć, jeśli element bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.

    %pip install bamboolib
    
  4. W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    import bamboolib as bam
    
  5. W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    bam
    
  6. Kliknij pozycję Załaduj fikcyjne dane.

  7. W okienku Ładowanie fikcyjnych danych w obszarze Załaduj fikcyjny zestaw danych na potrzeby testowania bamboolib wybierz pozycję Sales dataset (Zestaw danych Sales).

  8. Kliknij przycisk Wykonaj.

  9. Wyświetl wszystkie wiersze, w których item_type to Baby Food:

    1. Na liście Akcje wyszukiwania wybierz pozycję Filtruj wiersze.
    2. W okienku Filtruj wiersze na liście Wybierz (powyżej miejsca) wybierz pozycję Wybierz wiersze.
    3. Na poniższej liście wybierz pozycję item_type.
    4. Na liście Wybierz obok pozycji item_type wybierz pozycję ma wartości.
    5. W polu Wybierz wartości obok pozycji ma wartości wybierz pozycję Jedzenie dla dzieci.
    6. Kliknij przycisk Wykonaj.
  10. Skopiuj automatycznie wygenerowany kod języka Python dla tego zapytania:

    1. Cick Copy Code poniżej podglądu danych.
  11. Wklej i zmodyfikuj kod:

    1. W czwartej komórce notesu wklej skopiowany kod. Powinien on wyglądać następująco:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Dodaj do tego kodu, aby wyświetlał tylko te wiersze, w których order_prio to C, a następnie uruchom komórkę:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Napiwek

    Zamiast pisać ten kod, możesz również wykonać to samo, używając biblioteki bamboolib w trzeciej komórce, aby wyświetlić tylko te wiersze, w których order_prio jest C. Ten krok jest przykładem rozszerzenia kodu wygenerowanego wcześniej przez bibliotekę bamboolib.

  12. Sortuj wiersze według regionu w kolejności rosnącej:

    1. W widżecie w czwartej komórce na liście Akcje wyszukiwania wybierz pozycję Sortuj wiersze.
    2. W okienku Sortuj kolumny na liście Wybierz kolumny wybierz region.
    3. Na liście obok regionu wybierz pozycję Rosnąco (A-Z)..
    4. Kliknij przycisk Wykonaj.

    Uwaga

    Jest to odpowiednik samodzielnego pisania następującego kodu:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Można było również po prostu użyć bamboolib w trzeciej komórce, aby posortować wiersze według regionu w kolejności rosnącej. W tym kroku pokazano, jak za pomocą biblioteki bamboolib rozszerzyć pisany kod. W miarę używania biblioteki bamboolib automatycznie generuje dodatkowy kod w tle, dzięki czemu można dodatkowo rozszerzyć już rozszerzony kod!

  13. Kontynuuj pracę z kluczowymi zadaniami.

Używanie biblioteki bamboolib z istniejącą ramą danych

W tym przewodniku użyjesz biblioteki bamboolib do wyświetlenia w notesie zawartości ramki danych biblioteki pandas. Ta ramka danych zawiera kopię przykładowego zestawu danych sprzedaży. Następnie poeksperymentujesz z niektórymi powiązanymi kodami notesu, który automatycznie generuje bamboolib. Dokończ wykonywanie zapytań i sortowanie części zawartości ramki danych.

  1. Tworzenie notesu języka Python.

  2. Dołącz notes do klastra spełniającego wymagania.

  3. W pierwszej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę. Ten krok można pominąć, jeśli element bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.

    %pip install bamboolib
    
  4. W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    import bamboolib as bam
    
  5. W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    Należy pamiętać, że bamboolib obsługuje tylko ramki danych pandas. Aby przekonwertować ramkę danych PySpark na ramkę danych biblioteki pandas, wywołaj metodę toPandas w ramce danych PySpark. Aby przekonwertować interfejs API biblioteki Pandas w ramce danych platformy Spark na ramkę danych biblioteki pandas, wywołaj to_pandas w interfejsie API biblioteki Pandas w ramce danych platformy Spark.

  6. Kliknij pozycję Pokaż interfejs użytkownika bamboolib.

  7. Wyświetl wszystkie wiersze, w których item_type to Baby Food:

    1. Na liście Akcje wyszukiwania wybierz pozycję Filtruj wiersze.
    2. W okienku Filtruj wiersze na liście Wybierz (powyżej miejsca) wybierz pozycję Wybierz wiersze.
    3. Na poniższej liście wybierz pozycję item_type.
    4. Na liście Wybierz obok pozycji item_type wybierz pozycję ma wartości.
    5. W polu Wybierz wartości obok pozycji ma wartości wybierz pozycję Jedzenie dla dzieci.
    6. Kliknij przycisk Wykonaj.
  8. Skopiuj automatycznie wygenerowany kod języka Python dla tego zapytania. Aby to zrobić, kliknij pozycję Kopiuj kod poniżej podglądu danych.

  9. Wklej i zmodyfikuj kod:

    1. W czwartej komórce notesu wklej skopiowany kod. Powinien on wyglądać następująco:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Dodaj do tego kodu, aby wyświetlał tylko te wiersze, w których order_prio to C, a następnie uruchom komórkę:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Napiwek

    Zamiast pisać ten kod, możesz również wykonać to samo, używając biblioteki bamboolib w trzeciej komórce, aby wyświetlić tylko te wiersze, w których order_prio jest C. Ten krok jest przykładem rozszerzenia kodu wygenerowanego wcześniej przez bibliotekę bamboolib.

  10. Sortuj wiersze według regionu w kolejności rosnącej:

    a. W widżecie w czwartej komórce kliknij pozycję Sortuj wiersze.

    1. W okienku Sortuj kolumny na liście Wybierz kolumny wybierz region.
    2. Na liście obok regionu wybierz pozycję Rosnąco (A-Z)..
    3. Kliknij przycisk Wykonaj.

    Uwaga

    Jest to odpowiednik samodzielnego pisania następującego kodu:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Można było również po prostu użyć bamboolib w trzeciej komórce, aby posortować wiersze według regionu w kolejności rosnącej. W tym kroku pokazano, jak za pomocą biblioteki bamboolib rozszerzyć pisany kod. W miarę używania biblioteki bamboolib automatycznie generuje dodatkowy kod w tle, dzięki czemu można dodatkowo rozszerzyć już rozszerzony kod!

  11. Kontynuuj pracę z kluczowymi zadaniami.

Główne zadania

W tej sekcji:

Dodawanie widżetu do komórki

Scenariusz: chcesz, aby widżet bamboolib był wyświetlany w komórce.

  1. Upewnij się, że notes spełnia wymagania dotyczące biblioteki bamboolib.

  2. Jeśli usługa bamboolib nie jest jeszcze zainstalowana w obszarze roboczym lub klastrze , uruchom następujący kod w komórce w notesie, najlepiej w pierwszej komórce:

    %pip install bamboolib
    
  3. Uruchom następujący kod w notesie, najlepiej w pierwszej lub drugiej komórce notesu:

    import bamboolib as bam
    
  4. Opcja 1: W komórce, w której ma zostać wyświetlony widżet, dodaj następujący kod, a następnie uruchom komórkę:

    bam
    

    Widżet zostanie wyświetlony w komórce poniżej kodu.

    Lub:

    Opcja 2. W komórce zawierającej odwołanie do ramki danych biblioteki pandas wyświetl ramkę danych. Na przykład, biorąc pod uwagę następującą definicję ramki danych, uruchom komórkę:

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    Widżet zostanie wyświetlony w komórce poniżej kodu.

    Należy pamiętać, że bamboolib obsługuje tylko ramki danych pandas. Aby przekonwertować ramkę danych PySpark na ramkę danych biblioteki pandas, wywołaj metodę toPandas w ramce danych PySpark. Aby przekonwertować interfejs API biblioteki Pandas w ramce danych platformy Spark na ramkę danych biblioteki pandas, wywołaj to_pandas w interfejsie API biblioteki Pandas w ramce danych platformy Spark.

Wyczyść widżet

Scenariusz: chcesz wyczyścić zawartość widżetu, a następnie odczytać nowe dane do istniejącego widżetu.

Opcja 1. Uruchom następujący kod w komórce zawierającej widżet docelowy:

bam

Widżet czyści, a następnie redisplays databricks: odczyt pliku CSV z dbFS, databricks: ładowanie tabeli bazy danych i ładowanie fikcyjnych przycisków danych .

Uwaga

Jeśli wystąpi błąd name 'bam' is not defined , uruchom następujący kod w notesie (najlepiej w pierwszej komórce notesu), a następnie spróbuj ponownie:

import bamboolib as bam

Opcja 2. W komórce zawierającej odwołanie do ramki danych biblioteki pandas ponownie wydrukuj ramkę danych, uruchamiając komórkę ponownie. Widżet czyści, a następnie wyświetla nowe dane.

Zadania ładowania danych

W tej sekcji:

Odczytywanie przykładowego zestawu danych do widżetu

Scenariusz: chcesz odczytać przykładowe dane do widżetu, na przykład niektóre dane sprzedaży udawania, aby przetestować funkcje widżetu.

  1. Kliknij pozycję Załaduj fikcyjne dane.

    Uwaga

    Jeśli ładowanie fikcyjnych danych nie jest widoczne, wyczyść widżet z opcją 1 i spróbuj ponownie.

  2. W okienku Ładowanie fikcyjnych danych w polu Załaduj fikcyjny zestaw danych na potrzeby testowania bamboolib wybierz nazwę zestawu danych, który chcesz załadować.

  3. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.

  4. Kliknij przycisk Wykonaj.

    Widżet wyświetla zawartość zestawu danych.

Napiwek

Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innego przykładowego zestawu danych:

  1. W bieżącym widżecie kliknij kartę Załaduj fikcyjne dane .
  2. Wykonaj powyższe kroki, aby odczytać zawartość innego przykładowego zestawu danych do widżetu.

Odczytywanie zawartości pliku CSV do widżetu

Scenariusz: chcesz odczytać zawartość pliku CSV w obszarze roboczym usługi Azure Databricks do widżetu.

  1. Kliknij pozycję Databricks: odczyt pliku CSV z systemu plików DBFS.

    Uwaga

    Jeśli usługa Databricks: odczyt pliku CSV z systemu plików DBFS nie jest widoczny, wyczyść widżet z opcją 1 i spróbuj ponownie.

  2. W okienku Odczyt pliku CSV z systemu plików DBFS przejdź do lokalizacji zawierającej docelowy plik CSV.

  3. Wybierz docelowy plik CSV.

  4. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości pliku CSV jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.

  5. W przypadku separatora wartości CSV wprowadź znak oddzielający wartości w pliku CSV lub pozostaw znak , (przecinek) jako separator wartości domyślnej.

  6. W przypadku separatora dziesiętnego wprowadź znak oddzielający liczby dziesiętne w pliku CSV lub pozostaw znak . (kropka) jako separator wartości domyślnej.

  7. W przypadku limitu wierszy: odczytaj pierwsze N wierszy — pozostaw puste bez limitu, wprowadź maksymalną liczbę wierszy do odczytu do widżetu lub pozostaw wartość 100000 jako domyślną liczbę wierszy lub pozostaw to pole puste, aby nie określić limitu wierszy.

  8. Kliknij pozycję Otwórz plik CSV.

    Widżet wyświetla zawartość pliku CSV na podstawie określonych ustawień.

Napiwek

Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innego pliku CSV:

  1. W bieżącym widżecie kliknij kartę Odczytaj plik CSV z systemu plików DBFS .
  2. Wykonaj powyższe kroki, aby odczytać zawartość innego pliku CSV do widżetu.

Odczytywanie zawartości tabeli bazy danych do widżetu

Scenariusz: chcesz odczytać zawartość tabeli bazy danych w obszarze roboczym usługi Azure Databricks do widżetu.

  1. Kliknij pozycję Databricks: Załaduj tabelę bazy danych.

    Uwaga

    Jeśli usługa Databricks: Ładowanie tabeli bazy danych nie jest widoczne, wyczyść widżet z opcją 1 i spróbuj ponownie.

  2. W okienku Databricks: Załaduj tabelę bazy danych w polu Baza danych — pozostaw puste dla domyślnej bazy danych, wprowadź nazwę bazy danych, w której znajduje się tabela docelowa, lub pozostaw to pole puste, aby określić domyślną bazę danych.

  3. W polu Tabela wprowadź nazwę tabeli docelowej.

  4. W przypadku limitu wierszy: odczytaj pierwsze N wierszy — pozostaw puste bez limitu, wprowadź maksymalną liczbę wierszy do odczytu do widżetu lub pozostaw wartość 100000 jako domyślną liczbę wierszy lub pozostaw to pole puste, aby nie określić limitu wierszy.

  5. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.

  6. Kliknij przycisk Wykonaj.

    Widżet wyświetla zawartość tabeli na podstawie określonych ustawień.

Napiwek

Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innej tabeli:

  1. W bieżącym widżecie kliknij kartę Databricks: Załaduj tabelę bazy danych.
  2. Wykonaj powyższe kroki, aby odczytać zawartość innego spisu w widżecie.

Zadania akcji danych

aplikacja bamboolib oferuje ponad 50 akcji danych. Poniżej przedstawiono niektóre z bardziej typowych zadań dotyczących akcji danych rozpoczynania pracy.

W tej sekcji:

Wybierz kolumny

Scenariusz: chcesz wyświetlić tylko określone kolumny tabeli według nazwy, według typu danych lub pasujące do określonego wyrażenia regularnego. Na przykład w fikcyjnym zestawie danych Sales chcesz wyświetlić tylko item_type kolumny i sales_channel lub pokazać tylko kolumny zawierające ciąg _date w nazwach kolumn.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz wybierz, a następnie wybierz pozycję Wybierz lub upuść kolumny.
    • Wybierz pozycję Wybierz lub upuść kolumny.
  2. W okienku Wybierz lub upuść kolumny z listy rozwijanej Wybierz wybierz pozycję Wybierz.
  3. Wybierz docelowe nazwy kolumn lub kryterium dołączania.
  4. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
  5. Kliknij przycisk Wykonaj.

Usuwanie kolumn

Scenariusz: chcesz ukryć określone kolumny tabeli według nazwy, typu danych lub pasujące do określonego wyrażenia regularnego. Na przykład w fikcyjnym zestawie danych Sales chcesz ukryć order_priokolumny , order_datei ship_date lub chcesz ukryć wszystkie kolumny zawierające tylko wartości daty i godziny.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz drop, a następnie wybierz pozycję Wybierz lub upuść kolumny.
    • Wybierz pozycję Wybierz lub upuść kolumny.
  2. W okienku Wybierz lub upuść kolumny z listy rozwijanej Wybierz wybierz pozycję Upuść.
  3. Wybierz docelowe nazwy kolumn lub kryterium dołączania.
  4. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
  5. Kliknij przycisk Wykonaj.

Filtruj wiersze

Scenariusz: chcesz pokazać lub ukryć określone wiersze tabeli na podstawie kryteriów, takich jak określone wartości kolumn, które są zgodne lub brakujące. Na przykład w fikcyjnym zestawie danych Sales chcesz wyświetlić tylko te wiersze, w których item_type wartość kolumny jest ustawiona na Baby Foodwartość .

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz filtr, a następnie wybierz pozycję Filtruj wiersze.
    • Wybierz pozycję Filtruj wiersze.
  2. W okienku Filtrowanie wierszy na liście rozwijanej Wybierz powyżej wybierz pozycję Wybierz wiersze lub Upuść wiersze.
  3. Określ pierwsze kryterium filtru.
  4. Aby dodać kolejne kryterium filtru, kliknij przycisk dodaj warunek i określ następne kryterium filtru. Powtórz zgodnie z potrzebami.
  5. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
  6. Kliknij przycisk Wykonaj.

Sortowanie wierszy

Scenariusz: chcesz sortować wiersze tabeli na podstawie wartości w co najmniej jednej kolumnie. Na przykład w fikcyjnym zestawie danych Sales chcesz wyświetlić wiersze według region wartości kolumny w kolejności alfabetycznej od A do Z.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz sortowanie, a następnie wybierz pozycję Sortuj wiersze.
    • Wybierz pozycję Sortuj wiersze.
  2. W okienku Sortuj kolumny wybierz pierwszą kolumnę do sortowania według i kolejność sortowania.
  3. Aby dodać kolejne kryterium sortowania, kliknij przycisk dodaj kolumnę i określ następne kryterium sortowania. Powtórz zgodnie z potrzebami.
  4. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
  5. Kliknij przycisk Wykonaj.

Grupowanie wierszy i kolumn zadań

W tej sekcji:
Grupowanie wierszy i kolumn według pojedynczej funkcji agregującej

Scenariusz: chcesz wyświetlić wyniki wierszy i kolumn według grup obliczeniowych i chcesz przypisać nazwy niestandardowe do tych grup. Na przykład w fikcyjnym zestawie danych Sales chcesz zgrupować wiersze według country wartości kolumny, pokazując liczbę wierszy zawierających tę samą country wartość, a następnie podać listę obliczonych liczb nazwę country_count.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz grupę, a następnie wybierz pozycję Grupuj według i agreguj (z zmianą nazwy).
    • Wybierz pozycję Grupuj według i zagreguj (z zmianą nazwy).
  2. W okienku Grupuj według z nazwą kolumny wybierz kolumny do grupowania, pierwsze obliczenie i opcjonalnie określ nazwę kolumny obliczeniowej.
  3. Aby dodać kolejne obliczenie, kliknij pozycję Dodaj obliczenie i określ następną nazwę obliczenia i kolumny. Powtórz zgodnie z potrzebami.
  4. Określ miejsce przechowywania wyniku.
  5. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
  6. Kliknij przycisk Wykonaj.
Grupowanie wierszy i kolumn według wielu funkcji agregujących

Scenariusz: chcesz wyświetlić wyniki wierszy i kolumn według grup obliczeniowych. Na przykład w fikcyjnym zestawie danych Sales chcesz zgrupować wiersze według regionwartości , countryi sales_channel kolumn, pokazując liczby wierszy zawierających tę samą region wartość i country według sales_channel, a także total_revenue unikatową kombinację regioncountry, i sales_channel.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz grupę, a następnie wybierz pozycję Grupuj według i agreguj (ustawienie domyślne).
    • Wybierz pozycję Grupuj według i zagreguj (wartość domyślna).
  2. W okienku Grupuj według z zmianą nazwy kolumny wybierz kolumny do grupowania według i pierwsze obliczenie.
  3. Aby dodać kolejne obliczenie, kliknij pozycję Dodaj obliczenie i określ następne obliczenie. Powtórz zgodnie z potrzebami.
  4. Określ miejsce przechowywania wyniku.
  5. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
  6. Kliknij przycisk Wykonaj.

Usuwanie wierszy z brakującymi wartościami

Scenariusz: chcesz usunąć dowolny wiersz, który ma brakującą wartość dla określonych kolumn. Na przykład w fikcyjnym zestawie danych Sales chcesz usunąć wszystkie wiersze, które mają brakującą item_type wartość.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz upuść lub usunąć, a następnie wybierz pozycję Upuść brakujące wartości.
    • Wybierz pozycję Upuść brakujące wartości.
  2. W okienku Upuść brakujące wartości wybierz kolumny, aby usunąć dowolny wiersz z brakującą wartością dla tej kolumny.
  3. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
  4. Kliknij przycisk Wykonaj.

Usuwanie zduplikowanych wierszy

Scenariusz: chcesz usunąć każdy wiersz, który ma zduplikowaną wartość dla określonych kolumn. Na przykład w fikcyjnym zestawie danych Sales chcesz usunąć wszystkie wiersze, które są dokładnie duplikatami siebie.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz upuść lub usunąć, a następnie wybierz pozycję Upuść/Usuń duplikaty.
    • Wybierz pozycję Upuść/Usuń duplikaty.
  2. W okienku Usuń duplikaty wybierz kolumny, aby usunąć dowolny wiersz, który ma zduplikowaną wartość dla tych kolumn, a następnie wybierz, czy zachować pierwszy lub ostatni wiersz, który ma zduplikowaną wartość.
  3. W polu Nazwa ramki danych wprowadź nazwę identyfikatora programowego zawartości tabeli jako ramki danych lub pozostaw wartość df jako domyślny identyfikator programowy.
  4. Kliknij przycisk Wykonaj.

Znajdowanie i zastępowanie brakujących wartości

Scenariusz: chcesz zastąpić brakującą wartość wartością zastępczą dla dowolnego wiersza określonymi kolumnami. Na przykład w fikcyjnym zestawie danych Sales chcesz zastąpić dowolny wiersz brakującą wartością w item_type kolumnie wartością Unknown Item Type.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz znajdź lub zastąp, a następnie wybierz pozycję Znajdź i zastąp brakujące wartości.
    • Wybierz pozycję Znajdź i zastąp brakujące wartości.
  2. W okienku Zamień brakujące wartości wybierz kolumny do zastąpienia brakujących wartości, a następnie określ wartość zastępczą.
  3. Kliknij przycisk Wykonaj.

Tworzenie formuły kolumny

Scenariusz: chcesz utworzyć kolumnę używającą unikatowej formuły. Na przykład w fikcyjnym zestawie danych Sales chcesz utworzyć kolumnę o nazwie profit_per_unit , która wyświetla wynik dzielenia total_profit wartości kolumny według units_sold wartości kolumny dla każdego wiersza.

  1. Na karcie Dane na liście rozwijanej Akcje wyszukiwania wykonaj jedną z następujących czynności:
    • Wpisz formułę, a następnie wybierz pozycję Nowa formuła kolumny.
    • Wybierz pozycję Nowa formuła kolumny.
  2. W okienku Zamień brakujące wartości wybierz kolumny do zastąpienia brakujących wartości, a następnie określ wartość zastępczą.
  3. Kliknij przycisk Wykonaj.

Zadania historii akcji danych

W tej sekcji:

Wyświetlanie listy akcji wykonanych w widżecie

Scenariusz: chcesz wyświetlić listę wszystkich zmian wprowadzonych w widżecie, począwszy od najnowszej zmiany.

Kliknij pozycję Historia. Lista akcji zostanie wyświetlona w okienku Historia przekształceń.

Cofanie ostatniej akcji podjętej w widżecie

Scenariusz: chcesz przywrócić najnowszą zmianę wprowadzoną w widżecie.

Wykonaj jedną z następujących czynności:

  • Kliknij ikonę strzałki w lewo.
  • Kliknij pozycję Historia, a następnie w okienku Historia przekształceń kliknij przycisk Cofnij ostatni krok.

Wykonaj ponownie najnowszą akcję podjętą w widżecie

Scenariusz: chcesz przywrócić ostatnio przywrócony element w widżecie.

Wykonaj jedną z następujących czynności:

  • Kliknij ikonę strzałki zgodnie z ruchem wskazówek zegara.
  • Kliknij pozycję Historia, a następnie w okienku Historia przekształceń kliknij pozycję Odzyskaj ostatni krok.

Zmienianie ostatniej akcji podjętej w widżecie

Scenariusz: chcesz zmienić najnowszą zmianę, która została podjęta w widżecie.

  1. Wykonaj jedną z następujących czynności:
    • Kliknij ikonę ołówka.
    • Kliknij pozycję Historia, a następnie w okienku Historia przekształceń kliknij pozycję Edytuj ostatni krok.
  2. Wprowadź żądaną zmianę, a następnie kliknij przycisk Wykonaj.

Pobieranie kodu w celu programowego ponownego utworzenia bieżącego stanu widżetu jako ramki danych

Scenariusz: chcesz uzyskać kod języka Python, który programowo odtwarza stan bieżącego widżetu reprezentowany jako ramka danych biblioteki pandas. Chcesz uruchomić ten kod w innej komórce w tym skoroszycie lub w innym skoroszycie.

  1. Kliknij pozycję Pobierz kod.

  2. W okienku Eksportuj kod kliknij pozycję Kopiuj kod. Kod jest kopiowany do schowka systemu.

  3. Wklej kod do innej komórki w tym skoroszycie lub w innym skoroszycie.

  4. Napisz dodatkowy kod, aby pracować z tą ramkę danych biblioteki pandas programowo, a następnie uruchom komórkę. Na przykład aby wyświetlić zawartość ramki danych, zakładając, że ramka danych jest reprezentowana programowo przez :df

    # Your pasted code here, followed by...
    df
    

Ograniczenia

Aby uzyskać więcej informacji, zobacz Znane ograniczenia dotyczące notesów usługi Databricks.

Dodatkowe zasoby