bamboolib

Důležité

Tato funkce je ve verzi Public Preview.

Poznámka:

Bamboolib je podporován v Databricks Runtime 11.3 LTS a vyšší.

bamboolib je komponenta uživatelského rozhraní, která umožňuje analýzu a transformace dat bez kódu z poznámkového bloku Azure Databricks. bamboolib pomáhá uživatelům snadněji pracovat se svými daty a zrychlit běžné transformace, zkoumání a vizualizace úloh. Jakmile uživatelé dokončí tyto druhy úloh pomocí svých dat, bamboolib automaticky vygeneruje kód Pythonu na pozadí. Uživatelé můžou tento kód sdílet s ostatními, kteří můžou tento kód spustit ve svých vlastních poznámkových blocích, aby mohli tyto původní úlohy rychle reprodukovat. Mohou také použít bamboolib k rozšíření těchto původních úkolů s dalšími datovými úkoly, a to vše bez nutnosti vědět, jak kódovat. Ti, kteří mají zkušenosti s kódováním, mohou tento kód rozšířit, aby vytvořil ještě sofistikovanější výsledky.

Na pozadí používá bamboolib ipywidgets, což je interaktivní rozhraní widgetů HTML pro jádro IPython. Ipywidgets běží uvnitř jádra IPython.

Obsah

Požadavky

  • Poznámkový blok Azure Databricks, který je připojený ke clusteru Azure Databricks s Modulem Databricks Runtime 11.0 nebo novějším.
  • Knihovna bamboolib musí být k dispozici pro poznámkový blok.
    • Pokud chcete knihovnu nainstalovat jenom z PyPI do konkrétního clusteru, přečtěte si téma Knihovny clusteru.
    • Pokud chcete pomocí %pip příkazu zpřístupnit knihovnu jenom pro konkrétní poznámkový blok, přečtěte si téma Knihovny Pythonu v oboru poznámkového bloku.

Rychlé zprovoznění

  1. Vytvořte poznámkový blok Pythonu.

  2. Připojte poznámkový blok ke clusteru, který splňuje požadavky.

  3. Do první buňky poznámkového bloku zadejte následující kód a pak buňku spusťte . Tento krok lze přeskočit, pokud je v pracovním prostoru nebo clusteru již nainstalována bamboolib.

    %pip install bamboolib
    
  4. Do druhé buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    import bamboolib as bam
    
  5. Do třetí buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    bam
    

    Poznámka:

    Případně můžete vytisknout existující datový rámec pandas, který zobrazí bamboolib pro použití s tímto konkrétním datovým rámcem.

  6. Pokračujte klíčovými úkoly.

Návody

Bamboolib můžete použít samostatně nebo s existujícím datovým rámcem pandas.

Používat bamboolib sám

V tomto názorném postupu použijete k zobrazení v poznámkovém bloku obsah ukázkové sady dat o prodeji pomocí bamboolibu. Pak experimentujete s některým souvisejícím kódem poznámkového bloku, který pro vás bamboolib automaticky generuje. Dokončíte dotazováním a řazením kopie obsahu sady prodejních dat.

  1. Vytvořte poznámkový blok Pythonu.

  2. Připojte poznámkový blok ke clusteru, který splňuje požadavky.

  3. Do první buňky poznámkového bloku zadejte následující kód a pak buňku spusťte . Tento krok lze přeskočit, pokud je v pracovním prostoru nebo clusteru již nainstalována bamboolib.

    %pip install bamboolib
    
  4. Do druhé buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    import bamboolib as bam
    
  5. Do třetí buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    bam
    
  6. Klikněte na Načíst fiktivní data.

  7. V podokně Načíst fiktivní data v části Načíst fiktivní datovou sadu pro testování bamboolib vyberte Datová sada Prodej.

  8. Klikněte na tlačítko Spustit.

  9. Zobrazí všechny řádky, ve kterých item_type je Baby Food:

    1. V seznamu akcí hledání vyberte Filtrovat řádky.
    2. V podokně Filtrovat řádky v seznamu Zvolit (nad tím, kde) vyberte Vybrat řádky.
    3. V seznamu níže vyberte item_type.
    4. V seznamu Zvolit vedle item_type vyberte hodnoty.
    5. V poli Zvolit hodnoty vedle položky obsahuje hodnoty, vyberte Baby Food.
    6. Klikněte na tlačítko Spustit.
  10. Zkopírujte automaticky vygenerovaný kód Pythonu pro tento dotaz:

    1. Cick Copy Code pod náhledem dat.
  11. Vložte a upravte kód:

    1. Do čtvrté buňky poznámkového bloku vložte kód, který jste zkopírovali. Měl by vypadat takto:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Přidejte do tohoto kódu, aby se zobrazily pouze řádky, ve kterých order_prio je C, a pak buňku spusťte:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Tip

    Místo psaní tohoto kódu můžete totéž udělat také pomocí bamboolib ve třetí buňce, aby se zobrazily pouze řádky, ve kterých order_prio je C. Tento krok je příkladem rozšíření kódu, který bamboolib automaticky vygeneroval dříve.

  12. Seřaďte řádky podle oblasti ve vzestupném pořadí:

    1. Ve widgetu ve čtvrté buňce v seznamu akcí hledání vyberte Seřadit řádky.
    2. V podokně Seřadit sloupce vyberte v seznamu Zvolit sloupec oblast.
    3. V seznamu vedle oblasti vyberte vzestupně (A-Z).
    4. Klikněte na tlačítko Spustit.

    Poznámka:

    To je ekvivalentem psaní následujícího kódu sami:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Mohli jste také použít bamboolib ve třetí buňce k seřazení řádků podle oblasti ve vzestupném pořadí. Tento krok ukazuje, jak můžete pomocí bamboolib rozšířit kód, který píšete. Když používáte bamboolib, automaticky vygeneruje další kód pro vás na pozadí, takže můžete dále rozšířit svůj již rozšířený kód!

  13. Pokračujte klíčovými úkoly.

Použití bamboolibu s existujícím datovým rámcem

V tomto názorném postupu použijete bamboolib k zobrazení obsahu datového rámce pandas v poznámkovém bloku. Tento datový rámec obsahuje kopii ukázkové datové sady prodejů. Pak experimentujete s některým souvisejícím kódem poznámkového bloku, který pro vás bamboolib automaticky generuje. Dokončíte dotazováním a řazením obsahu datového rámce.

  1. Vytvořte poznámkový blok Pythonu.

  2. Připojte poznámkový blok ke clusteru, který splňuje požadavky.

  3. Do první buňky poznámkového bloku zadejte následující kód a pak buňku spusťte . Tento krok lze přeskočit, pokud je v pracovním prostoru nebo clusteru již nainstalována bamboolib.

    %pip install bamboolib
    
  4. Do druhé buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    import bamboolib as bam
    
  5. Do třetí buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    Všimněte si, že bamboolib podporuje pouze datové rámce pandas. Pokud chcete převést datový rámec PySpark na datový rámec pandas, zavolejte toPandas v datovém rámci PySpark. Pokud chcete převést rozhraní API Pandas v datovém rámci Sparku na datový rámec pandas, zavolejte to_pandas v rozhraní Pandas API ve sparkovém datovém rámci.

  6. Klikněte na Zobrazit uživatelské rozhraní bamboolib.

  7. Zobrazí všechny řádky, ve kterých item_type je Baby Food:

    1. V seznamu akcí hledání vyberte Filtrovat řádky.
    2. V podokně Filtrovat řádky v seznamu Zvolit (nad tím, kde) vyberte Vybrat řádky.
    3. V seznamu níže vyberte item_type.
    4. V seznamu Zvolit vedle item_type vyberte hodnoty.
    5. V poli Zvolit hodnoty vedle položky obsahuje hodnoty, vyberte Baby Food.
    6. Klikněte na tlačítko Spustit.
  8. Zkopírujte automaticky vygenerovaný kód Pythonu pro tento dotaz. Uděláte to tak, že pod náhledem dat kliknete na Kopírovat kód .

  9. Vložte a upravte kód:

    1. Do čtvrté buňky poznámkového bloku vložte kód, který jste zkopírovali. Měl by vypadat takto:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Přidejte do tohoto kódu, aby se zobrazily pouze řádky, ve kterých order_prio je C, a pak buňku spusťte:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Tip

    Místo psaní tohoto kódu můžete totéž udělat také pomocí bamboolib ve třetí buňce, aby se zobrazily pouze řádky, ve kterých order_prio je C. Tento krok je příkladem rozšíření kódu, který bamboolib automaticky vygeneroval dříve.

  10. Seřaďte řádky podle oblasti ve vzestupném pořadí:

    a. Ve widgetu ve čtvrté buňce klikněte na Seřadit řádky.

    1. V podokně Seřadit sloupce vyberte v seznamu Zvolit sloupec oblast.
    2. V seznamu vedle oblasti vyberte vzestupně (A-Z).
    3. Klikněte na tlačítko Spustit.

    Poznámka:

    To je ekvivalentem psaní následujícího kódu sami:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Mohli jste také použít bamboolib ve třetí buňce k seřazení řádků podle oblasti ve vzestupném pořadí. Tento krok ukazuje, jak můžete pomocí bamboolib rozšířit kód, který píšete. Když používáte bamboolib, automaticky vygeneruje další kód pro vás na pozadí, takže můžete dále rozšířit svůj již rozšířený kód!

  11. Pokračujte klíčovými úkoly.

Klíčové úkoly

V této části:

Přidání widgetu do buňky

Scénář: Chcete, aby se widget bamboolib zobrazoval v buňce.

  1. Ujistěte se, že poznámkový blok splňuje požadavky na bamboolib.

  2. Pokud není v pracovním prostoru nebo clusteru nainstalovaný bamboolib, spusťte následující kód v buňce v poznámkovém bloku, nejlépe v první buňce:

    %pip install bamboolib
    
  3. V poznámkovém bloku spusťte následující kód, nejlépe v první nebo druhé buňce poznámkového bloku:

    import bamboolib as bam
    
  4. Možnost 1: Do buňky, ve které se má widget zobrazit, přidejte následující kód a pak buňku spusťte:

    bam
    

    Widget se zobrazí v buňce pod kódem.

    Nebo:

    Možnost 2: V buňce, která obsahuje odkaz na datový rámec pandas, vytiskněte datový rámec. Například s ohledem na následující definici datového rámce spusťte buňku:

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    Widget se zobrazí v buňce pod kódem.

    Všimněte si, že bamboolib podporuje pouze datové rámce pandas. Pokud chcete převést datový rámec PySpark na datový rámec pandas, zavolejte toPandas v datovém rámci PySpark. Pokud chcete převést rozhraní API Pandas v datovém rámci Sparku na datový rámec pandas, zavolejte to_pandas v rozhraní Pandas API ve sparkovém datovém rámci.

Vymazání widgetu

Scénář: Chcete vymazat obsah widgetu a pak číst nová data do existujícího widgetu.

Možnost 1: V buňce, která obsahuje cílový widget, spusťte následující kód:

bam

Widget vymaže a znovu zobrazí Databricks: Čtení souboru CSV z DBFS, Databricks: Načtení databázové tabulky a tlačítka Načíst fiktivní data .

Poznámka:

Pokud se zobrazí chyba name 'bam' is not defined , spusťte v poznámkovém bloku následující kód (nejlépe v první buňce poznámkového bloku) a zkuste to znovu:

import bamboolib as bam

Možnost 2: V buňce, která obsahuje odkaz na datový rámec pandas, vytiskněte datový rámec znovu spuštěním buňky znovu. Widget vymaže a zobrazí nová data.

Úlohy načítání dat

V této části:

Čtení ukázkového obsahu datové sady do widgetu

Scénář: Chcete si do widgetu přečíst ukázková data, například předstírat prodejní data, abyste mohli otestovat funkčnost widgetu.

  1. Klikněte na Načíst fiktivní data.

    Poznámka:

    Pokud nejsou zobrazená fiktivní data , zrušte zaškrtnutí widgetu s možností 1 a zkuste to znovu.

  2. V podokně Načíst fiktivní data pro načtení fiktivní sady dat pro testování bamboolib vyberte název datové sady, kterou chcete načíst.

  3. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.

  4. Klikněte na tlačítko Spustit.

    Widget zobrazí obsah datové sady.

Tip

Aktuální widget můžete přepnout tak, aby zobrazoval obsah jiné ukázkové datové sady:

  1. V aktuálním widgetu klikněte na kartu Načíst fiktivní data .
  2. Podle předchozích kroků si přečtěte obsah další ukázkové datové sady do widgetu.

Čtení obsahu souboru CSV do widgetu

Scénář: Do widgetu chcete přečíst obsah souboru CSV v pracovním prostoru Azure Databricks.

  1. Klikněte na Databricks: Čtení souboru CSV z DBFS.

    Poznámka:

    Pokud Databricks: Čtení souboru CSV z DBFS není viditelné, vymažte widget s možností 1 a zkuste to znovu.

  2. V podokně Číst sdílený svazek clusteru z DBFS přejděte do umístění, které obsahuje cílový soubor CSV.

  3. Vyberte cílový soubor CSV.

  4. Jako název datového rámce zadejte název programového identifikátoru obsahu souboru CSV jako datového rámce nebo ponechte hodnotu df jako výchozí programový identifikátor.

  5. Jako oddělovač hodnot CSV zadejte znak, který odděluje hodnoty v souboru CSV, nebo ponechte znak , (čárka) jako výchozí oddělovač hodnot.

  6. Jako oddělovač desetinných míst zadejte znak, který odděluje desetinné čárky v souboru CSV, nebo ponechte znak ( tečka) jako výchozí oddělovač hodnot.

  7. Omezení počtu řádků: Čtení prvních N řádků – ponechte prázdné pro žádný limit, zadejte maximální počet řádků, které se mají do widgetu načíst, nebo ponechte 1 00000 jako výchozí počet řádků nebo nechte toto pole prázdné, pokud nechcete zadat žádný limit řádku.

  8. Klikněte na Otevřít soubor CSV.

    Widget zobrazí obsah souboru CSV na základě vámi zadaných nastavení.

Tip

Aktuální widget můžete přepnout tak, aby zobrazoval obsah jiného souboru CSV:

  1. V aktuálním widgetu klikněte na kartu Číst CSV z DBFS .
  2. Podle předchozích kroků si přečtěte obsah jiného souboru CSV do widgetu.

Čtení obsahu databázové tabulky do widgetu

Scénář: Do widgetu chcete přečíst obsah databázové tabulky v pracovním prostoru Azure Databricks.

  1. Klikněte na Databricks: Načtěte tabulku databáze.

    Poznámka:

    Pokud Databricks: Načtení databázové tabulky není viditelné, zrušte zaškrtnutí widgetu s možností 1 a zkuste to znovu.

  2. V podokně Databricks: Načtení tabulky databáze pro databázi – ponechte pro výchozí databázi prázdný název databáze, do které se cílová tabulka nachází, nebo nechte toto pole prázdné a zadejte výchozí databázi.

  3. Jako tabulku zadejte název cílové tabulky.

  4. Omezení počtu řádků: Čtení prvních N řádků – ponechte prázdné pro žádný limit, zadejte maximální počet řádků, které se mají do widgetu načíst, nebo ponechte 1 00000 jako výchozí počet řádků nebo nechte toto pole prázdné, pokud nechcete zadat žádný limit řádku.

  5. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.

  6. Klikněte na tlačítko Spustit.

    Widget zobrazí obsah tabulky na základě nastavení, která jste zadali.

Tip

Aktuální widget můžete přepnout tak, aby zobrazoval obsah jiné tabulky:

  1. V aktuálním widgetu klikněte na kartu Databricks: Načíst tabulku databáze.
  2. Podle předchozích kroků si přečtěte obsah druhé tabulky do widgetu.

Úlohy akcí dat

bamboolib nabízí více než 50 datových akcí. Následuje několik nejběžnějších úloh akcí pro zahájení práce s daty.

V této části:

Vyberte sloupce

Scénář: Chcete zobrazit pouze konkrétní sloupce tabulky podle názvu, podle datového typu nebo odpovídající určitého regulárního výrazu. Například v fiktivní datové sadě Sales (Prodej) chcete zobrazit jenom item_type sloupce a sales_channel sloupce nebo chcete zobrazit jenom sloupce, které obsahují řetězec _date v jejich názvech sloupců.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte výběr a pak vyberte Vybrat nebo vypustit sloupce.
    • Vyberte vybrat nebo vypustit sloupce.
  2. V podokně Vybrat nebo rozevírací seznam sloupce vyberte v rozevíracím seznamu Vybrat.
  3. Vyberte cílové názvy sloupců nebo kritérium zahrnutí.
  4. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.
  5. Klikněte na tlačítko Spustit.

Vyřazení sloupců

Scénář: Chcete skrýt konkrétní sloupce tabulky podle názvu, podle datového typu nebo odpovídajících určitému regulárnímu výrazu. Například v fiktivní datové sadě Sales (Prodej) chcete skrýt order_priosloupce , order_datea ship_date sloupce nebo chcete skrýt všechny sloupce, které obsahují pouze hodnoty data a času.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte drop a pak vyberte Vybrat nebo vypustit sloupce.
    • Vyberte vybrat nebo vypustit sloupce.
  2. V podokně Vybrat nebo rozevírací seznam sloupce vyberte v rozevíracím seznamu Vybrat.
  3. Vyberte cílové názvy sloupců nebo kritérium zahrnutí.
  4. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.
  5. Klikněte na tlačítko Spustit.

Řádky filtru

Scénář: Chcete zobrazit nebo skrýt konkrétní řádky tabulky na základě kritérií, jako jsou konkrétní hodnoty sloupců, které odpovídají nebo chybí. Například v fiktivní datové sadě Sales (Prodej) chcete zobrazit pouze ty řádky, ve kterých item_type je hodnota sloupce nastavená na Baby Food.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte filtr a pak vyberte Filtrovat řádky.
    • Vyberte Filtrovat řádky.
  2. V podokně Filtrovat řádky vyberte v rozevíracím seznamu Vybrat řádky nad místem, kde vyberte Vybrat řádky nebo Rozevírací řádky.
  3. Zadejte první kritérium filtru.
  4. Pokud chcete přidat další kritérium filtru, klikněte na přidat podmínku a zadejte další kritérium filtru. Podle potřeby to zopakujte.
  5. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.
  6. Klikněte na tlačítko Spustit.

Řadit řádky

Scénář: Chcete seřadit řádky tabulky na základě hodnot v jednom nebo více sloupcích. Například v fiktivní datové sadě Sales (Prodej) chcete zobrazit řádky podle region hodnot sloupce v abecedním pořadí od A do Z.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte řazení a pak vyberte Seřadit řádky.
    • Vyberte Seřadit řádky.
  2. V podokně Seřadit sloupce zvolte první sloupec, podle které chcete řadit, a pořadí řazení.
  3. Pokud chcete přidat další kritérium řazení, klikněte na přidat sloupec a zadejte další kritérium řazení. Podle potřeby to zopakujte.
  4. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.
  5. Klikněte na tlačítko Spustit.

Seskupování řádků a sloupců úkolů

V této části:
Seskupení řádků a sloupců jednou agregační funkcí

Scénář: Chcete zobrazit výsledky řádků a sloupců pomocí počítaných seskupení a chcete těmto seskupením přiřadit vlastní názvy. Například v fiktivní datové sadě Sales (Prodej) chcete seskupit řádky podle country hodnot sloupce, zobrazit čísla řádků obsahujících stejnou country hodnotu a dát seznam počítaných počtů název country_count.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte skupinu a pak vyberte Seskupovat podle a agregace (s přejmenováním).
    • Vyberte Možnost Seskupovat podle a agregaci (s přejmenováním).
  2. V podokně Seskupit podle s podoknem přejmenování sloupce vyberte sloupce, podle kterých se má seskupit, první výpočet a volitelně zadejte název počítaného sloupce.
  3. Pokud chcete přidat další výpočet, klikněte na přidat výpočet a zadejte další název výpočtu a sloupce. Podle potřeby to zopakujte.
  4. Určete, kam se má výsledek uložit.
  5. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.
  6. Klikněte na tlačítko Spustit.
Seskupení řádků a sloupců podle více agregačních funkcí

Scénář: Chcete zobrazit výsledky řádků a sloupců pomocí počítaných seskupení. Například v fiktivní datové sadě Sales (Prodej) chcete seskupit řádky podle regionhodnot , countrya sales_channel sloupců a zobrazit počet řádků obsahujících stejnou region hodnotu a country hodnotu podle sales_channel, a total_revenue také jedinečnou kombinací region, countrya sales_channel.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte skupinu a pak vyberte Seskupit podle a agregace (výchozí).
    • Vyberte Seskupit podle a agregaci (výchozí nastavení).
  2. V podokně Seskupit podle s přejmenováním sloupce vyberte sloupce, podle kterých chcete sloupce seskupit, a první výpočet.
  3. Chcete-li přidat další výpočet, klikněte na přidat výpočet a zadejte další výpočet. Podle potřeby to zopakujte.
  4. Určete, kam se má výsledek uložit.
  5. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.
  6. Klikněte na tlačítko Spustit.

Odebrání řádků s chybějícími hodnotami

Scénář: Chcete odebrat libovolný řádek, který obsahuje chybějící hodnotu pro zadané sloupce. Například v fiktivní datové sadě Sales (Prodej) chcete odebrat všechny řádky, které mají chybějící item_type hodnotu.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte drop nebo remove a pak vyberte Odstranit chybějící hodnoty.
    • Vyberte Vypustit chybějící hodnoty.
  2. V podokně Vyřazení chybějících hodnot vyberte sloupce, které odeberou všechny řádky s chybějící hodnotou pro daný sloupec.
  3. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.
  4. Klikněte na tlačítko Spustit.

Odebrání duplicitních řádků

Scénář: Chcete odebrat libovolný řádek, který má duplicitní hodnotu pro zadané sloupce. Například v fiktivní datové sadě Sales (Prodej) chcete odebrat všechny řádky, které jsou mezi sebou přesné duplicity.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte drop nebo remove a pak vyberte Drop/Remove duplicates.
    • Vyberte Odstranit nebo odebrat duplicity.
  2. V podokně Odebrat duplicitní položky vyberte sloupce, které mají pro tyto sloupce duplicitní hodnotu, a pak vyberte, jestli chcete zachovat první nebo poslední řádek s duplicitní hodnotou.
  3. Jako název datového rámce zadejte název pro programový identifikátor obsahu tabulky jako datový rámec nebo ponechte hodnotu df jako výchozí programový identifikátor.
  4. Klikněte na tlačítko Spustit.

Vyhledání a nahrazení chybějících hodnot

Scénář: Chcete nahradit chybějící hodnotu náhradní hodnotou pro libovolný řádek se zadanými sloupci. Například v fiktivní datové sadě Sales (Prodej) chcete nahradit libovolný řádek chybějící hodnotou ve item_type sloupci hodnotou .Unknown Item Type

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte najít nebo nahradit a pak vyberte Najít a nahradit chybějící hodnoty.
    • Vyberte Najít a nahraďte chybějící hodnoty.
  2. V podokně Nahradit chybějící hodnoty vyberte sloupce, pro které chcete nahradit chybějící hodnoty, a zadejte náhradní hodnotu.
  3. Klikněte na tlačítko Spustit.

Vytvoření vzorce sloupce

Scénář: Chcete vytvořit sloupec, který používá jedinečný vzorec. Například v fiktivní datové sadě Sales (Prodej) chcete vytvořit sloupec s názvem profit_per_unit , který zobrazí výsledek dělení total_profit hodnoty sloupce podle units_sold hodnoty sloupce pro každý řádek.

  1. Na kartě Data v rozevíracím seznamu Akcí hledání proveďte jednu z následujících akcí:
    • Zadejte vzorec a vyberte Nový vzorec sloupce.
    • Vyberte Vzorec nového sloupce.
  2. V podokně Nahradit chybějící hodnoty vyberte sloupce, pro které chcete nahradit chybějící hodnoty, a zadejte náhradní hodnotu.
  3. Klikněte na tlačítko Spustit.

Úlohy historie akcí dat

V této části:

Zobrazení seznamu akcí provedených ve widgetu

Scénář: Chcete zobrazit seznam všech změn provedených ve widgetu, počínaje nejnovější změnou.

Klikněte na Historie. Seznam akcí se zobrazí v podokně Historie transformací.

Vrácení nejnovější akce provedené ve widgetu zpět

Scénář: Chcete vrátit poslední změnu provedenou ve widgetu.

Proveďte některou z následujících akcí:

  • Klikněte na ikonu šipky proti směru hodinových ručiček.
  • Klikněte na Historie a v podokně Historie transformací klikněte na Zpět poslední krok.

Znovu provést poslední akci ve widgetu

Scénář: Chcete vrátit poslední návrat, který byl proveden ve widgetu.

Proveďte některou z následujících akcí:

  • Klikněte na ikonu šipky po směru hodinových ručiček.
  • Klikněte na Historie a v podokně Historie transformací klikněte na Obnovit poslední krok.

Změna poslední akce provedené ve widgetu

Scénář: Chcete změnit poslední změnu, kterou jste provedli ve widgetu.

  1. Udělejte jednu z těchto věcí:
    • Klikněte na ikonu tužky.
    • Klikněte na Historie a v podokně Historie transformací klikněte na Upravit poslední krok.
  2. Proveďte požadovanou změnu a klepněte na tlačítko Provést.

Získání kódu pro programové opětovné vytvoření aktuálního stavu widgetu jako datového rámce

Scénář: Chcete získat kód Pythonu, který programově znovu vytvoří stav aktuálního widgetu reprezentovaný jako datový rámec pandas. Tento kód chcete spustit v jiné buňce v tomto sešitu nebo úplně jiném sešitu.

  1. Klikněte na Získat kód.

  2. V podokně Exportovat kód klikněte na Kopírovat kód. Kód se zkopíruje do schránky systému.

  3. Vložte kód do jiné buňky v tomto sešitu nebo do jiného sešitu.

  4. Napište další kód pro práci s tímto datovým rámcem pandas programově a pak buňku spusťte. Pokud chcete například zobrazit obsah datového rámce za předpokladu, že datový rámec je reprezentován programově df:

    # Your pasted code here, followed by...
    df
    

Omezení

  • Použití bamboolibu pro transformace dat je omezené na přibližně 10 milionů řádků. Tento limit je založený na knihovně pandas a výpočetních prostředcích vašeho clusteru.
  • Použití bamboolibu pro vizualizace dat je omezené na přibližně 10 tisíc řádků. Tento limit je založený na vykreslení.

Další materiály