Delen via


bamboolib

Belangrijk

Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt. bamboolib is verouderd. Zie Databricks Assistantvoor hulp bij het genereren van code.

Notitie

bamboolib wordt ondersteund in Databricks Runtime 11.3 LTS en hoger.

bamboolib is een gebruikersinterfaceonderdeel waarmee gegevensanalyses en transformaties zonder code vanuit een Azure Databricks-notebook notebookzijn toegestaan. bamboolib helpt gebruikers gemakkelijker met hun gegevens te werken en veelvoorkomende taken voor gegevensverkenning, verkenning en visualisatie te versnellen. Wanneer gebruikers dit soort taken uitvoeren met hun gegevens, genereert Bamboolib automatisch Python code op de achtergrond. Gebruikers kunnen deze code delen met anderen, die deze code in hun eigen notebooks kunnen uitvoeren om deze oorspronkelijke taken snel te reproduceren. Ze kunnen bamboolib ook gebruiken om deze oorspronkelijke taken uit te breiden met extra gegevenstaken, allemaal zonder dat u hoeft te weten hoe u coderen. Degenen die ervaring hebben met coderen, kunnen deze code uitbreiden om nog geavanceerdere resultaten te maken.

Bamboolib maakt achter de schermen gebruik van ipywidgets, een interactief HTML-widgetframework voor de IPython-kernel. ipywidgets wordt uitgevoerd binnen de IPython-kernel.

Inhoud

Eisen

Snelstart

  1. Een Python-notebook maken.

  2. koppel het notebook aan een cluster dat voldoet aan de vereisten.

  3. Voer in de eerste cel van het notebookde volgende code in en voer vervolgens de cel uit. Sla deze stap over als bamboolib is al is geïnstalleerd in de werkruimte of het cluster.

    %pip install bamboolib
    
  4. Voer in de tweede cel van het notebook de volgende code in en voer de cel daarna uit.

    import bamboolib as bam
    
  5. Voer in de derde cel van het notebook de volgende code in en voer vervolgens de cel uit.

    bam
    

    Notitie

    U kunt ook een bestaande Pandas DataFrame - afdrukken om bamboolib weer te geven voor gebruik met dat specifieke DataFrame.

  6. Ga verder met de belangrijkste taken .

Walkthroughs

U kunt bamboolib zelfstandig gebruiken of met een bestaande pandas DataFrame.

Bamboolib zelf gebruiken

In deze doorloop gebruikt u bamboolib om de inhoud van een voorbeeldverkoopgegevensset weer te geven in uw notitieblok. Vervolgens experimenteer u met enkele van de gerelateerde notebookcode die bamboolib automatisch voor u genereert. U voltooit het opvragen en sorteren van een kopie van de inhoud van de verkoopgegevensset.

  1. Een Python-notebook maken.

  2. koppel het notebook aan een cluster dat voldoet aan de vereisten.

  3. Voer in de eerste cel van het notebookde volgende code in en voer vervolgens de cel uit. Sla deze stap over als bamboolib is al is geïnstalleerd in de werkruimte of het cluster.

    %pip install bamboolib
    
  4. Voer in de tweede cel van het notebook de volgende code in en voer de cel daarna uit.

    import bamboolib as bam
    
  5. Voer in de derde cel van het notebook de volgende code in en voer vervolgens de cel uit.

    bam
    
  6. Klik op Laad dummygegevens.

  7. Selecteer in het deelvenster Dummygegevens laden voor Een dummygegevensset laden voor het testen van bamboolibdeverkoopgegevensset.

  8. Klik op uitvoeren.

  9. Alle rijen weergeven waarin item_type is babyvoeding:

    1. Selecteer in de lijst Zoekacties de optie Filter rijen.
    2. Selecteer in het deelvenster Rijen filteren, in de lijst Kies (boven waar), de optie Rijen selecteren.
    3. Selecteer item_typein de onderstaande lijst waar.
    4. Selecteer in de lijst Kies naast het itemtypede waarde(n).
    5. In het vak Waarde(n) naast heeft waarde(n), selecteer Babyvoeding.
    6. Klik op uitvoeren.
  10. Kopieer de automatisch gegenereerde Python-code voor deze query:

    1. Klik Code kopiëren onder de voorbeeldweergave van de gegevens.
  11. Plak en wijzig de code:

    1. Plak in de vierde cel van het notitieblok de code die u hebt gekopieerd. Dit moet er als volgt uitzien:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Voeg deze code toe zodat alleen de rijen worden weergegeven waarin order_prio is C, en voer vervolgens de cel uit.

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Fooi

    In plaats van deze code te schrijven, kunt u ook hetzelfde doen door alleen bamboolib in de derde cel te gebruiken om alleen die rijen weer te geven waarin order_prio is C-. Deze stap is een voorbeeld van het uitbreiden van de code die bamboolib automatisch eerder heeft gegenereerd.

  12. Sorteer de rijen op regio in oplopende volgorde:

    1. Selecteer in de widget binnen de vierde cel in de lijst met zoekacties de optie rijen sorteren.
    2. Selecteer in het deelvenster kolom(en) sorteren in de kolom lijst regio.
    3. Selecteer in de lijst naast regiooplopend (A-Z).
    4. Klik op uitvoeren.

    Notitie

    Dit komt overeen met het schrijven van de volgende code zelf:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    U kunt ook bamboolib in de derde cel hebben gebruikt om de rijen te sorteren op regio in oplopende volgorde. In deze stap ziet u hoe u bamboolib kunt gebruiken om de code die u schrijft uit te breiden. Wanneer u bamboolib gebruikt, genereert het automatisch de extra code voor u op de achtergrond, zodat u uw reeds uitgebreide code verder kunt uitbreiden!

  13. Ga verder met de belangrijkste taken .

Bamboolib gebruiken met een bestaand DataFrame

In dit scenario gebruikt u bamboolib om de inhoud van een pandas DataFrame weer te geven. Dit DataFrame bevat een kopie van een voorbeeld van een verkoopgegevensset. Vervolgens experimenteer u met enkele van de gerelateerde notebookcode die bamboolib automatisch voor u genereert. U voltooit het uitvoeren van query's en het sorteren van een deel van de inhoud van het DataFrame.

  1. Een Python-notebook maken.

  2. koppel het notebook aan een cluster dat voldoet aan de vereisten.

  3. Voer in de eerste cel van het notebookde volgende code in en voer vervolgens de cel uit. Sla deze stap over als bamboolib is al is geïnstalleerd in de werkruimte of het cluster.

    %pip install bamboolib
    
  4. Voer in de tweede cel van het notebook de volgende code in en voer de cel daarna uit.

    import bamboolib as bam
    
  5. Voer in de derde cel van het notebook de volgende code in en voer vervolgens de cel uit.

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    Houd er rekening mee dat bamboolib alleen pandas DataFramesondersteunt. Als u een PySpark DataFrame wilt converteren naar een pandas DataFrame, roept u aan naarPandas op het PySpark DataFrame. Als u een Pandas-API in Spark DataFrame wilt converteren naar een Pandas DataFrame, roept u to_pandas aan op de Pandas-API in Spark DataFrame.

  6. Klik op toon bamboolib-UI.

  7. Alle rijen waarin item_typebabyvoedingis weergeven:

    1. Selecteer in de lijst ZoekactiesFilter rijen.
    2. In het deelvenster Rijen filteren, selecteer in de lijst Kies (boven waar) de optie Rijen selecteren.
    3. Selecteer item_typein de onderstaande lijst waar.
    4. In de lijst Kies naast item_type, selecteer heeft waarde(n).
    5. Selecteer in het vak Waarde(en) naast waarde(s)bevat, Babyvoeding.
    6. Klik op uitvoeren.
  8. Kopieer de automatisch gegenereerde Python-code voor deze query. Klik hiervoor op Code Kopiëren onder het voorbeeld van de gegevens.

  9. Plak en wijzig de code:

    1. Plak in de vierde cel van het notitieblok de code die u hebt gekopieerd. Dit moet er als volgt uitzien:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Voeg deze code toe zodat alleen de rijen worden weergegeven waarin order_prio is C, en voer vervolgens de cel uit:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Fooi

    In plaats van deze code te schrijven, kunt u ook hetzelfde doen door alleen bamboolib in de derde cel te gebruiken om alleen die rijen weer te geven waarin order_prio is C-. Deze stap is een voorbeeld van het uitbreiden van de code die bamboolib automatisch eerder heeft gegenereerd.

  10. Sorteer de rijen op regio in oplopende volgorde:

    een. Klik binnen de widget in de vierde cel op Rijen sorteren.

    1. Selecteer in het deelvenster kolom(en) sorteren in de kolom lijst regio.
    2. Selecteer in de lijst naast regiooplopend (A-Z).
    3. Klik op uitvoeren.

    Notitie

    Dit komt overeen met het schrijven van de volgende code zelf:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    U kunt ook bamboolib in de derde cel hebben gebruikt om de rijen te sorteren op regio in oplopende volgorde. In deze stap ziet u hoe u bamboolib kunt gebruiken om de code die u schrijft uit te breiden. Wanneer u bamboolib gebruikt, genereert het automatisch de extra code voor u op de achtergrond, zodat u uw reeds uitgebreide code verder kunt uitbreiden!

  11. Ga verder met de belangrijkste taken .

Belangrijke taken

In deze sectie:

De widget toevoegen aan een cel

Scenario: u wilt dat de bamboolib-widget in een cel wordt weergegeven.

  1. Zorg ervoor dat het notebook voldoet aan de vereisten voor bamboolib.

  2. Als bamboolib nog niet is geïnstalleerd in de werkruimte of het cluster, voer dan de volgende code uit in een cel in het notebook, bij voorkeur in de eerste cel.

    %pip install bamboolib
    
  3. Voer de volgende code uit in het notebook, bij voorkeur in de eerste of tweede cel van het notitieblok:

    import bamboolib as bam
    
  4. optie 1: voeg in de cel waar u de widget wilt weergeven de volgende code toe en voer vervolgens de cel uit:

    bam
    

    De widget wordt weergegeven in de cel onder de code.

    Of:

    optie 2: druk in een cel die een verwijzing naar een pandas DataFramebevat, het DataFrame af. Als u bijvoorbeeld de volgende DataFrame-definitie hebt, voert u de cel uit:

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    De widget wordt weergegeven in de cel onder de code.

    Houd er rekening mee dat bamboolib alleen pandas DataFramesondersteunt. Als u een PySpark DataFrame wilt converteren naar een pandas DataFrame, roept u aan naarPandas op het PySpark DataFrame. Als u een Pandas-API in Spark DataFrame wilt converteren naar een Pandas DataFrame, roept u to_pandas aan op de Pandas-API in Spark DataFrame.

de widget wissen

Scenario: u wilt de inhoud van een widget wissen en vervolgens nieuwe gegevens lezen in de bestaande widget.

optie 1: voer de volgende code uit in de cel die de doelwidget bevat:

bam

De widget wist en geeft vervolgens opnieuw weer de knoppen: Databricks: CSV-bestand lezen uit DBFS, Databricks: Databasetabel ladenen Dummy-gegevens laden.

Notitie

Als de fout name 'bam' is not defined wordt weergegeven, voert u de volgende code uit in het notebook (bij voorkeur in de eerste cel van het notitieblok) en probeert u het opnieuw:

import bamboolib as bam

optie 2: in een cel die een verwijzing bevat naar een pandas DataFrame, print het DataFrame opnieuw door de cel opnieuw uit te voeren. De widget wist de gegevens en geeft dan de nieuwe gegevens weer.

Taken voor het laden van gegevens

In deze sectie:

de inhoud van een voorbeeldgegevensset in de widget lezen

Scenario: u wilt enkele voorbeeldgegevens in de widget lezen, bijvoorbeeld enkele fictieve verkoopgegevens, zodat u de functionaliteit van de widget kunt testen.

  1. Klik op Laad dummygegevens.

    Notitie

    Als dummygegevens laden niet zichtbaar is, wis de widget met optie 1 en probeer het opnieuw.

  2. Selecteer in het deelvenster Dummy-gegevens laden voor Een dummy-gegevensset laden voor het testen van bamboolibde naam van de gegevensset die u wilt laden.

  3. Voer voor Dataframe-naameen naam in voor de programmatic identifier van de inhoud van de tabel als een DataFrame, of laat df staan als de standaard programmatic identifier.

  4. Klik op uitvoeren.

    De widget geeft de inhoud van de gegevensset weer.

Fooi

U kunt de huidige widget wijzigen om de inhoud van een andere voorbeeldgegevensset weer te geven:

  1. Klik in de huidige widget op het tabblad Dummy-gegevens laden.
  2. Volg de voorgaande stappen om de inhoud van de andere voorbeeldgegevensset in de widget te lezen.

de inhoud van een CSV-bestand in de widget lezen

Scenario: u wilt de inhoud van een CSV-bestand in uw Azure Databricks-werkruimte in de widget lezen.

  1. Klik op Databricks: CSV-bestand lezen uit DBFS.

    Notitie

    Als Databricks: CSV-bestand lezen uit DBFS niet zichtbaar is, de widget wissen met optie 1 en het opnieuw proberen.

  2. Blader in het deelvenster CSV lezen uit DBFS naar de locatie met het csv-doelbestand.

  3. Selecteer het CSV-doelbestand.

  4. Voer voor Dataframe-naameen naam in voor de programmatische id van de inhoud van het CSV-bestand als een DataFrameof laat df- staan als de standaard programmatische id.

  5. Voer voor scheidingsteken voor CSV-waardenhet teken in waarmee waarden in het CSV-bestand worden gescheiden of laat het teken (komma) als standaardwaardescheidingsteken.

  6. Voor decimaaltekenvoert u het teken in dat de decimalen in het CSV-bestand scheidt, of laat het . (punt) als het standaardwaardescheidingsteken staan.

  7. Voor rijlimiet: lees de eerste N rijen - laat leeg voor geen limiet, voer het maximum aantal rijen in dat in de widget moet worden gelezen of laat 100000 als het standaardaantal rijen, of laat dit vak leeg om geen rijlimiet op te geven.

  8. Klik op CSV-bestand openen.

    De widget geeft de inhoud van het CSV-bestand weer op basis van de instellingen die u hebt opgegeven.

Fooi

U kunt de huidige widget wijzigen om de inhoud van een ander CSV-bestand weer te geven:

  1. Klik in de widget op het tabblad CSV-bestand lezen uit DBFS.
  2. Volg de voorgaande stappen om de inhoud van het andere CSV-bestand in de widget te lezen.

de inhoud van een databasetabel lezen in de widget

Scenario: u wilt de inhoud van een databasetabel in uw Azure Databricks-werkruimte lezen in de widget.

  1. Klik op Databricks: Laad databasetabel.

    Notitie

    Als Databricks: Databasetabel laden niet zichtbaar is, de widget wissen met optie 1 en het opnieuw proberen.

  2. Geef in het deelvenster Databricks: Databasetabel laden, bij Database (laat deze leeg voor de standaarddatabase), de naam op van de database waarin de doeltabel zich bevindt, of laat deze leeg om de standaarddatabase op te geven.

  3. Voer voor Tabelde naam van de doeltabel in.

  4. Voor rijlimiet: lees de eerste N rijen - laat leeg voor geen limiet, voer het maximum aantal rijen in dat in de widget moet worden gelezen of laat 100000 als het standaardaantal rijen, of laat dit vak leeg om geen rijlimiet op te geven.

  5. Voer voor Dataframe-naameen naam in voor de programmatische ID van de inhoud van de tabel als een DataFrame, of laat df staan als de standaard programmatische ID.

  6. Klik op uitvoeren.

    De widget geeft de inhoud van de tabel weer op basis van de instellingen die u hebt opgegeven.

Fooi

U kunt de huidige widget wijzigen om de inhoud van een andere tabel weer te geven:

  1. Klik in de huidige widget op het Databricks: Tabel laden tabblad.
  2. Volg de voorgaande stappen om de inhoud van de andere tabel in de widget te lezen.

Taken voor gegevensacties

bamboolib biedt meer dan 50 gegevensacties. Hieronder volgen enkele van de veelvoorkomende taken om aan de slag te gaan met gegevensacties.

In deze sectie:

Kolommen selecteren

Scenario: u wilt alleen specifieke tabelkolommen weergeven op naam, op gegevenstype of die overeenkomen met een reguliere expressie. In de dummy Sales-gegevenssetwilt u bijvoorbeeld alleen de kolommen item_type en sales_channel weergeven, of wilt u alleen de kolommen weergeven die de tekenreeks bevatten _date in de kolomnamen.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ in, selecteer, en selecteer vervolgens . Selecteer of sleep kolommen.
    • Selecteer Kolommen selecteren of neerzetten.
  2. Selecteer in het deelvenster Kolommen selecteren of neerzetten in de vervolgkeuzelijst Kiesselecteren.
  3. Selecteer de doelkolomnamen of het criterium voor opname.
  4. Voer voor DataFrame-naameen naam in voor de programma-identificatie van de inhoud van de tabel als een DataFrame, of laat df staan als de standaard programma-identificatie.
  5. Klik op uitvoeren.

Kolommen verwijderen

Scenario: u wilt specifieke tabelkolommen verbergen op naam, op gegevenstype of die overeenkomen met een reguliere expressie. In de dummy--gegevensset Saleswilt u bijvoorbeeld de order_prio, order_dateen ship_date kolommen verbergen of alle kolommen verbergen die alleen datum-tijdwaarden bevatten.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ dropen selecteer vervolgens Kolommen selecteren of neerzetten.
    • Selecteer Selecteer of verplaats kolommen.
  2. Selecteer in het deelvenster Kolommen selecteren of neerzetten in de vervolgkeuzelijst Kies, selecteer Neerzetten.
  3. Selecteer de doelkolomnamen of het criterium voor opname.
  4. Voer voor de DataFrame-naameen naam in voor de programmatische id van de inhoud van de tabel als een DataFrame, of laat df staan als de standaard programmatische id.
  5. Klik op uitvoeren.

Rijen filteren

Scenario: u wilt specifieke tabelrijen weergeven of verbergen op basis van criteria zoals specifieke kolomwaarden die overeenkomen of ontbreken. In de dummy--gegevensset Verkoopwilt u bijvoorbeeld alleen die rijen weergeven waarin de waarde van de item_type kolom is ingesteld op Baby Food.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ filter, en selecteer vervolgens Filter rijen.
    • Selecteer Rijen filteren.
  2. Selecteer in het deelvenster Rijen filteren, in de vervolgkeuzelijst Kies boven waar, de optie Rijen selecteren of Rijen verwijderen.
  3. Geef het eerste filtercriterium op.
  4. Als u nog een filtercriterium wilt toevoegen, klikt u op voorwaarde toevoegenen geeft u het volgende filtercriterium op. Herhaal dit naar wens.
  5. Voer voor Dataframe-naameen naam in voor de programmatige identificatie van de inhoud van de tabel als een DataFrame, of laat df staan als de standaard programmatige identificatie.
  6. Klik op uitvoeren.

Rijen sorteren

Scenario: u wilt tabelrijen sorteren op basis van de waarden in een of meer kolommen. In de gegevensset dummy Saleswilt u bijvoorbeeld de rijen weergeven op basis van de waarden van de region kolom in alfabetische volgorde van A tot Z.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ sorteren en selecteer vervolgens Rijen sorteren.
    • Selecteer rijensorteren.
  2. Kies in het deelvenster Kolom(en) sorteren de eerste kolom waarop u wilt sorteren en de sorteervolgorde.
  3. Als u nog een sorteercriterium wilt toevoegen, klikt u op kolomtoevoegen en geeft u het volgende sorteercriterium op. Herhaal dit naar wens.
  4. Voer voor Dataframe-naameen naam voor de programmatische identificatie van de inhoud van de tabel in, als een DataFrame, of laat df- staan als de standaard programmatische identificatie.
  5. Klik op uitvoeren.

Taken voor het groeperen van rijen en kolommen

In deze sectie:
Rijen en kolommen groeperen op één statistische functie

Scenario: u wilt rij- en kolomresultaten weergeven op basis van berekende groeperingen en u wilt aangepaste namen toewijzen aan deze groeperingen. In de voorbeeldgegevensset Verkoopwilt u bijvoorbeeld de rijen groeperen op de waarden van de country kolom, waarbij het aantal rijen met dezelfde country waarde wordt weergegeven, en de lijst met berekende tellingen de naam country_countgeven.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ groepen selecteer Groeperen op en aggregeren (met hernoeming).
    • Selecteer groepeer op en aggregeer (met hernoemen).
  2. Selecteer in het deelvenster Groeperen op met kolomnaam de kolommen waarop u wilt groeperen, de eerste berekening en, als u dat wilt, een naam voor de berekende kolom.
  3. Als u nog een berekening wilt toevoegen, klikt u op voegt utoe en geeft u de volgende berekening en kolomnaam op. Herhaal dit naar wens.
  4. Geef op waar het resultaat moet worden opgeslagen.
  5. Voer voor Dataframe-naameen naam in voor de programmatische identificator van de inhoud van de tabel als een DataFrameof laat df als de standaard programmatische identificator staan.
  6. Klik op uitvoeren.
Rijen en kolommen groeperen op meerdere statistische functies

Scenario: u wilt rij- en kolomresultaten weergeven op basis van berekende groeperingen. In de dummy-gegevensset Verkoopgegevenssetwilt u bijvoorbeeld de rijen groeperen op de region, countryen de waarden van sales_channel kolommen, met daarin het aantal rijen met dezelfde region en country waarde per sales_channel, evenals de total_revenue door een unieke combinatie van region, countryen sales_channel.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ groepen selecteer groeperen op en samenvoegen (standaard).
    • Selecteer groeperen op en aggregeren (standaard).
  2. Selecteer in het Groeperen op en kolom hernoemen deelvenster de kolommen waarop u wilt groeperen en de eerste berekening.
  3. Als u een andere berekening wilt toevoegen, klikt u op berekeningtoevoegen en geeft u de volgende berekening op. Herhaal dit naar wens.
  4. Geef op waar het resultaat moet worden opgeslagen.
  5. Voer voor Dataframe-naameen naam in voor de programmatische identificator van de inhoud van de tabel als een DataFrame, of laat df staan als de standaard programmatische identificator.
  6. Klik op uitvoeren.

Rijen met ontbrekende waarden verwijderen

Scenario: u wilt een rij met een ontbrekende waarde voor de opgegeven kolommen verwijderen. In de dummy-gegevensset Saleswilt u bijvoorbeeld rijen verwijderen met een ontbrekende item_type waarde.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ verwijder of verwijder, en selecteer Verwijder ontbrekende waarden.
    • Selecteer Ontbrekende waarden verwijderen.
  2. Selecteer in het deelvenster Ontbrekende waarden verwijderen de kolommen om een rij met een ontbrekende waarde voor die kolom te verwijderen.
  3. Voer voor Dataframe-naameen naam in voor de programmatische identificatie van de inhoud van de tabel als een DataFrame, of laat df staan als de standaard programmatische identificatie.
  4. Klik op uitvoeren.

Dubbele rijen verwijderen

Scenario: u wilt een rij met een gedupliceerde waarde voor de opgegeven kolommen verwijderen. In de dummy-Sales-gegevenssetwilt u bijvoorbeeld rijen verwijderen die exacte duplicaten van elkaar zijn.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ laten vallen of verwijderenen selecteer vervolgens Dubbele waarden verwijderen.
    • Selecteer verwijder dubbele waarden.
  2. Selecteer in het deelvenster Dubbele waarden verwijderen de kolommen om een rij met een gedupliceerde waarde voor die kolommen te verwijderen en selecteer vervolgens of u de eerste of laatste rij met de gedupliceerde waarde wilt behouden.
  3. Voer voor Dataframe-naameen naam in voor de programmatische identifier van de inhoud van de tabel als een DataFrameof laat df staan als de standaard programmatische identifier.
  4. Klik op uitvoeren.

Ontbrekende waarden zoeken en vervangen

Scenario: u wilt de ontbrekende waarde vervangen door een vervangende waarde voor een rij met de opgegeven kolommen. In de dummy-gegevensset Verkoopwilt u bijvoorbeeld elke rij met een ontbrekende waarde in de kolom item_type vervangen door de waarde Unknown Item Type.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ zoeken of vervangen, en selecteer vervolgens Ontbrekende waarden zoeken en vervangen.
    • Selecteer Ontbrekende waarden zoeken en vervangen.
  2. Selecteer in het deelvenster Ontbrekende waarden vervangen de kolommen waarvoor ontbrekende waarden moeten worden vervangen en geef vervolgens de vervangende waarde op.
  3. Klik op uitvoeren.

Een kolomformule maken

Scenario: u wilt een kolom maken die gebruikmaakt van een unieke formule. In de dummy Sales-gegevenssetwilt u bijvoorbeeld een kolom met de naam profit_per_unit maken waarin het resultaat wordt weergegeven van het delen van de total_profit kolomwaarde door de units_sold kolomwaarde voor elke rij.

  1. Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
    • Typ formuleen selecteer Nieuwe kolomformule.
    • Selecteer nieuwe kolomformule.
  2. Selecteer in het deelvenster Ontbrekende waarden vervangen de kolommen waarvoor ontbrekende waarden moeten worden vervangen en geef vervolgens de vervangende waarde op.
  3. Klik op uitvoeren.

Taken voor gegevensactiegeschiedenis

In deze sectie:

De lijst met acties weergeven die in de widget zijn uitgevoerd

scenario: u wilt een lijst weergeven met alle wijzigingen die zijn aangebracht in de widget, te beginnen met de meest recente wijziging.

Klik op Geschiedenis. De lijst met acties wordt weergegeven in het Transformatiegeschiedenis-deelvenster.

De meest recente actie in de widget ongedaan maken

Scenario: u wilt de meest recente wijziging die in de widget is aangebracht, herstellen.

Ga op een van de volgende manieren te werk:

  • Klik op het pijlpictogram tegen de klok in.
  • Klik op Geschiedenisen klik in het deelvenster Transformatiegeschiedenis op Laatste stap ongedaan maken.

De meest recente actie die in de widget is uitgevoerd, opnieuw uitvoeren

Scenario: u wilt de meest recente terugdraaibewerking in de widget ongedaan maken.

Ga op een van de volgende manieren te werk:

  • Klik op het klokwijzerpijlpictogram.
  • Klik op Geschiedenisen klik in het deelvenster Transformatiegeschiedenis op Laatste stap herstellen.

De meest recente actie in de widget wijzigen

scenario: u wilt de meest recente wijziging wijzigen die in de widget is gemaakt.

  1. Ga op een van de volgende manieren te werk:
    • Klik op het potloodpictogram.
    • Klik op Geschiedenisen klik in het deelvenster Transformatiegeschiedenis op Laatste stap bewerken.
  2. Breng de gewenste wijziging aan en klik vervolgens op uitvoeren.

Code ophalen om de huidige status van de widget programmatisch opnieuw te maken als een DataFrame

Scenario: u wilt Python-code ophalen waarmee de status van de huidige widget programmatisch opnieuw wordt gemaakt, weergegeven als een Pandas DataFrame. U wilt deze code uitvoeren in een andere cel in deze werkmap of in een helemaal andere werkmap.

  1. Klik op Code ophalen.

  2. Klik in het deelvenster Code exporteren op Code kopiëren. De code wordt gekopieerd naar het klembord van uw systeem.

  3. Plak de code in een andere cel in deze werkmap of in een andere werkmap.

  4. Schrijf extra code om programmatisch met dit Pandas DataFrame te werken en voer vervolgens de cel uit. Als u bijvoorbeeld de inhoud van het DataFrame wilt weergeven, ervan uitgaande dat uw DataFrame programmatisch wordt weergegeven door df:

    # Your pasted code here, followed by...
    df
    

Beperkingen

Zie Bekende beperkingen voor Databricks-notebooks voor meer informatie.

Aanvullende informatiebronnen