bamboolib
Belangrijk
Deze functie is beschikbaar als openbare preview.
Notitie
bamboolib wordt ondersteund in Databricks Runtime 11.3 LTS en hoger.
bamboolib is een gebruikersinterfaceonderdeel waarmee gegevensanalyse en transformaties zonder code vanuit een Azure Databricks-notebook kunnen worden uitgevoerd. bamboolib helpt gebruikers gemakkelijker met hun gegevens te werken en veelvoorkomende taken voor gegevensverkenning, verkenning en visualisatie te versnellen. Wanneer gebruikers dit soort taken uitvoeren met hun gegevens, genereert bamboolib automatisch Python-code op de achtergrond. Gebruikers kunnen deze code delen met anderen, die deze code in hun eigen notebooks kunnen uitvoeren om deze oorspronkelijke taken snel te reproduceren. Ze kunnen bamboolib ook gebruiken om deze oorspronkelijke taken uit te breiden met extra gegevenstaken, allemaal zonder dat u hoeft te weten hoe u coderen. Degenen die ervaring hebben met coderen, kunnen deze code uitbreiden om nog geavanceerdere resultaten te maken.
Achter de schermen maakt bamboolib gebruik van ipywidgets, een interactief HTML-widgetframework voor de IPython-kernel. ipywidgets wordt uitgevoerd binnen de IPython-kernel.
Inhoud
Vereisten
- Een Azure Databricks-notebook dat is gekoppeld aan een Azure Databricks-cluster met Databricks Runtime 11.0 of hoger.
- De
bamboolib
bibliotheek moet beschikbaar zijn voor het notitieblok.- Zie Clusterbibliotheken als u de bibliotheek alleen wilt installeren vanuit PyPI op een specifiek cluster.
- Als u de
%pip
opdracht wilt gebruiken om de bibliotheek alleen beschikbaar te maken voor een specifiek notitieblok, raadpleegt u Python-bibliotheken met notebookbereik.
Snelstart
Maak een Python-notebook.
Koppel het notebook aan een cluster dat voldoet aan de vereisten.
Voer in de eerste cel van het notebook de volgende code in en voer vervolgens de cel uit . Deze stap kan worden overgeslagen als bamboolib al is geïnstalleerd in de werkruimte of het cluster.
%pip install bamboolib
Voer in de tweede cel van het notebook de volgende code in en voer vervolgens de cel uit.
import bamboolib as bam
Voer in de derde cel van het notebook de volgende code in en voer vervolgens de cel uit.
bam
Notitie
U kunt ook een bestaand Pandas DataFrame afdrukken om bamboolib weer te geven voor gebruik met dat specifieke DataFrame.
Ga door met belangrijke taken.
Rondleidingen
U kunt bamboolib zelfstandig of met een bestaand pandas DataFrame gebruiken.
Bamboolib zelf gebruiken
In dit scenario gebruikt u bamboolib om de inhoud van een voorbeeld van een verkoopgegevensset weer te geven in uw notitieblok. Vervolgens experimenteer u met enkele van de gerelateerde notebookcode die bamboolib automatisch voor u genereert. U voltooit het uitvoeren van query's en het sorteren van een kopie van de inhoud van de verkoopgegevensset.
Maak een Python-notebook.
Koppel het notebook aan een cluster dat voldoet aan de vereisten.
Voer in de eerste cel van het notebook de volgende code in en voer vervolgens de cel uit . Deze stap kan worden overgeslagen als bamboolib al is geïnstalleerd in de werkruimte of het cluster.
%pip install bamboolib
Voer in de tweede cel van het notebook de volgende code in en voer vervolgens de cel uit.
import bamboolib as bam
Voer in de derde cel van het notebook de volgende code in en voer vervolgens de cel uit.
bam
Klik op Dummy-gegevens laden.
In het deelvenster Dummy-gegevens laden selecteert u Verkoopgegevensset voor het laden van een dummygegevensset voor het testen van Bamboolib.
Klik op Uitvoeren.
Geef alle rijen weer waarin item_type babyvoeding is:
- Selecteer Rijen filteren in de lijst met zoekacties.
- Selecteer rijen selecteren in het deelvenster Rijen filteren in de lijst Kiezen (boven waar).
- Selecteer item_type in de onderstaande lijst.
- Selecteer in de lijst Kiezen naast item_type een of meer waarden.
- Selecteer In het vak Waarde(s) kiezen naast waarde(n) de optie Babyvoeding.
- Klik op Uitvoeren.
Kopieer de automatisch gegenereerde Python-code voor deze query:
- Cick Copy Code onder de gegevensvoorbeeld.
Plak en wijzig de code:
Plak in de vierde cel van het notitieblok de code die u hebt gekopieerd. Dit ziet er als volgt uit:
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]
Voeg deze code toe zodat alleen de rijen worden weergegeven waarin order_prio C is en voer vervolgens de cel uit:
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
Tip
In plaats van deze code te schrijven, kunt u ook hetzelfde doen door bamboolib in de derde cel te gebruiken om alleen die rijen weer te geven waarin order_prio C is. Deze stap is een voorbeeld van het uitbreiden van de code die bamboolib automatisch eerder heeft gegenereerd.
Sorteer de rijen op regio in oplopende volgorde:
- Selecteer Rijen sorteren in de widget in de vierde cel in de lijst Met zoekacties.
- Selecteer in het deelvenster Kolommen sorteren in de lijst Kolom kiezen de regio.
- Selecteer oplopend (A-Z) in de lijst naast de regio.
- Klik op Uitvoeren.
Notitie
Dit komt overeen met het schrijven van de volgende code zelf:
df = df.sort_values(by=['region'], ascending=[True]) df
U had ook bamboolib in de derde cel kunnen gebruiken om de rijen op regio in oplopende volgorde te sorteren. In deze stap ziet u hoe u bamboolib kunt gebruiken om de code die u schrijft uit te breiden. Wanneer u bamboolib gebruikt, genereert het automatisch de extra code voor u op de achtergrond, zodat u uw reeds uitgebreide code verder kunt uitbreiden!
Ga door met belangrijke taken.
Bamboolib gebruiken met een bestaand DataFrame
In deze procedure gebruikt u bamboolib om de inhoud van een Pandas DataFrame weer te geven in uw notebook. Dit DataFrame bevat een kopie van een voorbeeld van een verkoopgegevensset. Vervolgens experimenteer u met enkele van de gerelateerde notebookcode die bamboolib automatisch voor u genereert. U voltooit het uitvoeren van query's en het sorteren van een deel van de inhoud van het DataFrame.
Maak een Python-notebook.
Koppel het notebook aan een cluster dat voldoet aan de vereisten.
Voer in de eerste cel van het notebook de volgende code in en voer vervolgens de cel uit . Deze stap kan worden overgeslagen als bamboolib al is geïnstalleerd in de werkruimte of het cluster.
%pip install bamboolib
Voer in de tweede cel van het notebook de volgende code in en voer vervolgens de cel uit.
import bamboolib as bam
Voer in de derde cel van het notebook de volgende code in en voer vervolgens de cel uit.
import pandas as pd df = pd.read_csv(bam.sales_csv) df
Bamboolib ondersteunt alleen pandas DataFrames. Als u een PySpark DataFrame wilt converteren naar een pandas DataFrame, roept u toPandas aan op het PySpark DataFrame. Als u een Pandas-API in Spark DataFrame wilt converteren naar een Pandas DataFrame, roept u to_pandas aan op de Pandas-API in Spark DataFrame.
Klik op Bamboolib-gebruikersinterface weergeven.
Geef alle rijen weer waarin item_type babyvoeding is:
- Selecteer Rijen filteren in de lijst met zoekacties.
- Selecteer rijen selecteren in het deelvenster Rijen filteren in de lijst Kiezen (boven waar).
- Selecteer item_type in de onderstaande lijst.
- Selecteer in de lijst Kiezen naast item_type een of meer waarden.
- Selecteer In het vak Waarde(s) kiezen naast waarde(n) de optie Babyvoeding.
- Klik op Uitvoeren.
Kopieer de automatisch gegenereerde Python-code voor deze query. Klik hiervoor op Code kopiëren onder het gegevensvoorbeeld.
Plak en wijzig de code:
Plak in de vierde cel van het notitieblok de code die u hebt gekopieerd. Dit ziet er als volgt uit:
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]
Voeg deze code toe zodat alleen de rijen worden weergegeven waarin order_prio C is en voer vervolgens de cel uit:
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
Tip
In plaats van deze code te schrijven, kunt u ook hetzelfde doen door bamboolib in de derde cel te gebruiken om alleen die rijen weer te geven waarin order_prio C is. Deze stap is een voorbeeld van het uitbreiden van de code die bamboolib automatisch eerder heeft gegenereerd.
Sorteer de rijen op regio in oplopende volgorde:
a. Klik in de widget in de vierde cel op Rijen sorteren.
- Selecteer in het deelvenster Kolommen sorteren in de lijst Kolom kiezen de regio.
- Selecteer oplopend (A-Z) in de lijst naast de regio.
- Klik op Uitvoeren.
Notitie
Dit komt overeen met het schrijven van de volgende code zelf:
df = df.sort_values(by=['region'], ascending=[True]) df
U had ook bamboolib in de derde cel kunnen gebruiken om de rijen op regio in oplopende volgorde te sorteren. In deze stap ziet u hoe u bamboolib kunt gebruiken om de code die u schrijft uit te breiden. Wanneer u bamboolib gebruikt, genereert het automatisch de extra code voor u op de achtergrond, zodat u uw reeds uitgebreide code verder kunt uitbreiden!
Ga door met belangrijke taken.
Belangrijke taken
In deze sectie:
- De widget toevoegen aan een cel
- De widget wissen
- Taken voor het laden van gegevens
- Taken voor gegevensacties
- Taken voor gegevensactiegeschiedenis
- Code ophalen om de huidige status van de widget programmatisch opnieuw te maken als een DataFrame
De widget toevoegen aan een cel
Scenario: U wilt dat de bamboolib-widget in een cel wordt weergegeven.
Zorg ervoor dat het notebook voldoet aan de vereisten voor bamboolib.
Als bamboolib nog niet is geïnstalleerd in de werkruimte of het cluster , voert u de volgende code uit in een cel in het notebook, bij voorkeur in de eerste cel:
%pip install bamboolib
Voer de volgende code uit in het notebook, bij voorkeur in de eerste of tweede cel van het notitieblok:
import bamboolib as bam
Optie 1: Voeg in de cel waarin u de widget wilt weergeven de volgende code toe en voer vervolgens de cel uit:
bam
De widget wordt weergegeven in de cel onder de code.
Of:
Optie 2: Druk in een cel met een verwijzing naar een Pandas DataFrame het DataFrame af. Als u bijvoorbeeld de volgende DataFrame-definitie hebt, voert u de cel uit:
import pandas as pd from datetime import datetime, date df = pd.DataFrame({ 'a': [ 1, 2, 3 ], 'b': [ 2., 3., 4. ], 'c': [ 'string1', 'string2', 'string3' ], 'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ], 'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ] }) df
De widget wordt weergegeven in de cel onder de code.
Bamboolib ondersteunt alleen pandas DataFrames. Als u een PySpark DataFrame wilt converteren naar een pandas DataFrame, roept u toPandas aan op het PySpark DataFrame. Als u een Pandas-API in Spark DataFrame wilt converteren naar een Pandas DataFrame, roept u to_pandas aan op de Pandas-API in Spark DataFrame.
De widget wissen
Scenario: U wilt de inhoud van een widget wissen en vervolgens nieuwe gegevens lezen in de bestaande widget.
Optie 1: Voer de volgende code uit in de cel die de doelwidget bevat:
bam
Met de widget wordt het Databricks-bestand gewist en vervolgens opnieuw weergegeven: CSV-bestand lezen uit DBFS, Databricks: Databasetabel laden en dummygegevensknoppen laden.
Notitie
Als de fout name 'bam' is not defined
wordt weergegeven, voert u de volgende code uit in het notebook (bij voorkeur in de eerste cel van het notitieblok) en probeert u het opnieuw:
import bamboolib as bam
Optie 2: Druk in een cel met een verwijzing naar een Pandas DataFrame het DataFrame opnieuw af door de cel opnieuw uit te voeren. De widget wist en geeft vervolgens de nieuwe gegevens weer.
Taken voor het laden van gegevens
In deze sectie:
- De inhoud van een voorbeeldgegevensset lezen in de widget
- De inhoud van een CSV-bestand lezen in de widget
- De inhoud van een databasetabel lezen in de widget
De inhoud van een voorbeeldgegevensset lezen in de widget
Scenario: U wilt enkele voorbeeldgegevens lezen in de widget, bijvoorbeeld enkele doen alsof verkoopgegevens, zodat u de functionaliteit van de widget kunt testen.
Klik op Dummy-gegevens laden.
Notitie
Als dummygegevens niet zichtbaar zijn, wist u de widget met optie 1 en probeert u het opnieuw.
Selecteer in het deelvenster Dummy-gegevens laden voor Het laden van een dummy-gegevensset voor het testen van Bamboolib de naam van de gegevensset die u wilt laden.
Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
Klik op Uitvoeren.
De widget geeft de inhoud van de gegevensset weer.
Tip
U kunt de huidige widget wijzigen om de inhoud van een andere voorbeeldgegevensset weer te geven:
- Klik in de huidige widget op het tabblad Dummy-gegevens laden.
- Volg de voorgaande stappen om de inhoud van de andere voorbeeldgegevensset in de widget te lezen.
De inhoud van een CSV-bestand lezen in de widget
Scenario: U wilt de inhoud van een CSV-bestand in uw Azure Databricks-werkruimte lezen in de widget.
Klik op Databricks: CSV-bestand lezen uit DBFS.
Notitie
Als Databricks: CSV-bestand lezen uit DBFS niet zichtbaar is, wist u de widget met optie 1 en probeert u het opnieuw.
Blader in het deelvenster CSV-bestand Lezen vanuit DBFS naar de locatie die het doel-CSV-bestand bevat.
Selecteer het CSV-doelbestand.
Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van het CSV-bestand als een DataFrame of laat df staan als de standaard programmatische id.
Voer voor het scheidingsteken voor CSV-waarden het teken in dat waarden scheidt in het CSV-bestand of laat het teken (komma) staan als het standaardwaardescheidingsteken.
Voer voor het decimaalteken het teken in dat de decimalen in het CSV-bestand scheidt of laat het teken . (punt) staan als het standaardwaardescheidingsteken.
Voor rijlimiet: lees de eerste N rijen- laat leeg voor geen limiet, voer het maximum aantal rijen in dat in de widget moet worden gelezen of laat 100000 staan als het standaardaantal rijen of laat dit vak leeg om geen rijlimiet op te geven.
Klik op CSV-bestand openen.
De widget geeft de inhoud van het CSV-bestand weer op basis van de instellingen die u hebt opgegeven.
Tip
U kunt de huidige widget wijzigen om de inhoud van een ander CSV-bestand weer te geven:
- Klik in de huidige widget op het tabblad CSV lezen vanuit DBFS .
- Volg de voorgaande stappen om de inhoud van het andere CSV-bestand in de widget te lezen.
De inhoud van een databasetabel lezen in de widget
Scenario: U wilt de inhoud van een databasetabel in uw Azure Databricks-werkruimte lezen in de widget.
Klik op Databricks: Databasetabel laden.
Notitie
Als Databricks: Databasetabel laden niet zichtbaar is, wist u de widget met optie 1 en probeert u het opnieuw.
Voer in het deelvenster Databricks: Databasetabel laden voor Database leeg voor standaarddatabase, voer de naam in van de database waarin de doeltabel zich bevindt of laat dit vak leeg om de standaarddatabase op te geven.
Voer voor Tabel de naam van de doeltabel in.
Voor rijlimiet: lees de eerste N rijen- laat leeg voor geen limiet, voer het maximum aantal rijen in dat in de widget moet worden gelezen of laat 100000 staan als het standaardaantal rijen of laat dit vak leeg om geen rijlimiet op te geven.
Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
Klik op Uitvoeren.
De widget geeft de inhoud van de tabel weer op basis van de instellingen die u hebt opgegeven.
Tip
U kunt de huidige widget wijzigen om de inhoud van een andere tabel weer te geven:
- Klik in de huidige widget op het tabblad Databricks: Databasetabel laden.
- Volg de voorgaande stappen om de inhoud van de andere tabel in de widget te lezen.
Taken voor gegevensacties
bamboolib biedt meer dan 50 gegevensacties. Hieronder volgen enkele veelvoorkomende taken voor aan de slag met gegevensacties.
In deze sectie:
- Kolommen selecteren
- Kolommen neerzetten
- Rijen filteren
- Rijen sorteren
- Taken voor rijen en kolommen groeperen
- Rijen met ontbrekende waarden verwijderen
- Dubbele rijen verwijderen
- Ontbrekende waarden zoeken en vervangen
- Een kolomformule maken
Kolommen selecteren
Scenario: U wilt alleen specifieke tabelkolommen weergeven op naam, op gegevenstype of die overeenkomen met een reguliere expressie. In de gegevensset dummy Sales wilt u bijvoorbeeld alleen de item_type
kolommen en sales_channel
kolommen weergeven of alleen de kolommen weergeven die de tekenreeks _date
in de kolomnamen bevatten.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ selectie en selecteer vervolgens Kolommen selecteren of neerzetten.
- Selecteer Kolommen selecteren of neerzetten.
- Selecteer Selecteren in het deelvenster Kolommen selecteren of neerzetten in de vervolgkeuzelijst Kiezen.
- Selecteer de doelkolomnamen of het criterium voor opname.
- Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
- Klik op Uitvoeren.
Kolommen verwijderen
Scenario: U wilt specifieke tabelkolommen verbergen op naam, op gegevenstype of die overeenkomen met een reguliere expressie. In de gegevensset dummy Sales wilt u bijvoorbeeld de order_prio
kolommen en order_date
ship_date
kolommen verbergen of alle kolommen verbergen die alleen datum-tijdwaarden bevatten.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ neerzetten en selecteer vervolgens Kolommen selecteren of neerzetten.
- Selecteer Kolommen selecteren of neerzetten.
- Selecteer Neerzetten in het deelvenster Kolommen selecteren of neerzetten in de vervolgkeuzelijst Kiezen.
- Selecteer de doelkolomnamen of het criterium voor opname.
- Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
- Klik op Uitvoeren.
Rijen filteren
Scenario: U wilt specifieke tabelrijen weergeven of verbergen op basis van criteria zoals specifieke kolomwaarden die overeenkomen of ontbreken. In de gegevensset dummy Sales wilt u bijvoorbeeld alleen de rijen weergeven waarop de waarde van de item_type
kolom is ingesteldBaby Food
.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ het filter en selecteer vervolgens Filterrijen.
- Selecteer Rijen filteren.
- Selecteer in het deelvenster Rijen filteren in de vervolgkeuzelijst Kiezen hierboven de optie Rijen selecteren of Rijen neerzetten.
- Geef het eerste filtercriterium op.
- Als u nog een filtercriterium wilt toevoegen, klikt u op Voorwaarde toevoegen en geeft u het volgende filtercriterium op. Herhaal dit naar wens.
- Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
- Klik op Uitvoeren.
Rijen sorteren
Scenario: U wilt tabelrijen sorteren op basis van de waarden in een of meer kolommen. In de gegevensset dummy Sales wilt u bijvoorbeeld de rijen weergeven op basis van de waarden van de region
kolom in alfabetische volgorde van A naar Z.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ sorteren en selecteer rijen sorteren.
- Selecteer Rijen sorteren.
- Kies in het deelvenster Kolommen sorteren de eerste kolom waarop u wilt sorteren en de sorteervolgorde.
- Als u een ander sorteercriterium wilt toevoegen, klikt u op Kolom toevoegen en geeft u het volgende sorteercriterium op. Herhaal dit naar wens.
- Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
- Klik op Uitvoeren.
Taken voor rijen en kolommen groeperen
In deze sectie:
- Rijen en kolommen groeperen op één statistische functie
- Rijen en kolommen groeperen op meerdere statistische functies
Rijen en kolommen groeperen op één statistische functie
Scenario: U wilt rij- en kolomresultaten weergeven op basis van berekende groeperingen en u wilt aangepaste namen toewijzen aan deze groeperingen. In de gegevensset dummy Sales wilt u bijvoorbeeld de rijen groeperen op basis van de waarden van de country
kolom, met de getallen van rijen met dezelfde country
waarde en de lijst met berekende aantallen de naamcountry_count
.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ de groep en selecteer Groeperen op en aggregeren (met de naam wijzigen).
- Selecteer Groeperen op en aggregeren (met de naam wijzigen).
- Selecteer in het deelvenster Groeperen op met kolomnaam de kolommen waarop u wilt groeperen, de eerste berekening en geef desgewenst een naam op voor de berekende kolom.
- Als u een andere berekening wilt toevoegen, klikt u op Berekening toevoegen en geeft u de volgende berekening en kolomnaam op. Herhaal dit naar wens.
- Geef op waar het resultaat moet worden opgeslagen.
- Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
- Klik op Uitvoeren.
Rijen en kolommen groeperen op meerdere statistische functies
Scenario: U wilt rij- en kolomresultaten weergeven op basis van berekende groeperingen. In de gegevensset dummy Sales wilt u bijvoorbeeld de rijen groeperen op de region
waarden van , country
en sales_channel
kolommen, met de getallen van rijen die hetzelfde region
en country
dezelfde waarde sales_channel
bevatten, evenals de total_revenue
op unieke combinatie van region
, country
en sales_channel
.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ de groep en selecteer Groeperen op en aggregeren (standaardinstelling).
- Selecteer Groeperen op en aggregeren (standaard).
- Selecteer in het deelvenster Groeperen op met kolomnaam de kolommen waarop u wilt groeperen en de eerste berekening.
- Als u een andere berekening wilt toevoegen, klikt u op Berekening toevoegen en geeft u de volgende berekening op. Herhaal dit naar wens.
- Geef op waar het resultaat moet worden opgeslagen.
- Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
- Klik op Uitvoeren.
Rijen met ontbrekende waarden verwijderen
Scenario: U wilt een rij met een ontbrekende waarde voor de opgegeven kolommen verwijderen. In de gegevensset dummy Sales wilt u bijvoorbeeld rijen met een ontbrekende item_type
waarde verwijderen.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ neerzetten of verwijderen en selecteer Ontbrekende waarden verwijderen.
- Selecteer Ontbrekende waarden verwijderen.
- Selecteer in het deelvenster Ontbrekende waarden verwijderen de kolommen om een rij met een ontbrekende waarde voor die kolom te verwijderen.
- Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
- Klik op Uitvoeren.
Dubbele rijen verwijderen
Scenario: U wilt een rij met een dubbele waarde voor de opgegeven kolommen verwijderen. In de gegevensset dummy Sales wilt u bijvoorbeeld rijen verwijderen die exacte duplicaten van elkaar zijn.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ neerzetten of verwijderen en selecteer dubbele waarden neerzetten/verwijderen.
- Selecteer Dubbele waarden verwijderen/neerzetten.
- Selecteer in het deelvenster Duplicaten verwijderen de kolommen om een rij met een gedupliceerde waarde voor die kolommen te verwijderen en selecteer vervolgens of u de eerste of laatste rij met de gedupliceerde waarde wilt behouden.
- Voer voor de naam van het Dataframe een naam in voor de programmatische id van de inhoud van de tabel als een DataFrame of laat df staan als standaardprogrammatische id.
- Klik op Uitvoeren.
Ontbrekende waarden zoeken en vervangen
Scenario: U wilt de ontbrekende waarde vervangen door een vervangende waarde voor een rij met de opgegeven kolommen. In de gegevensset dummy Sales wilt u bijvoorbeeld een rij vervangen door een ontbrekende waarde in de item_type
kolom door de waardeUnknown Item Type
.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ zoeken of vervangen en selecteer ontbrekende waarden zoeken en vervangen.
- Selecteer Ontbrekende waarden zoeken en vervangen.
- Selecteer in het deelvenster Ontbrekende waarden vervangen de kolommen waarvoor ontbrekende waarden moeten worden vervangen en geef vervolgens de vervangende waarde op.
- Klik op Uitvoeren.
Een kolomformule maken
Scenario: U wilt een kolom maken die gebruikmaakt van een unieke formule. In de gegevensset dummy Sales wilt u bijvoorbeeld een kolom maken met de naam profit_per_unit
die het resultaat weergeeft van het delen van de total_profit
kolomwaarde door de units_sold
kolomwaarde voor elke rij.
- Voer op het tabblad Gegevens in de vervolgkeuzelijst Zoekacties een van de volgende handelingen uit:
- Typ de formule en selecteer vervolgens Nieuwe kolomformule.
- Selecteer Nieuwe kolomformule.
- Selecteer in het deelvenster Ontbrekende waarden vervangen de kolommen waarvoor ontbrekende waarden moeten worden vervangen en geef vervolgens de vervangende waarde op.
- Klik op Uitvoeren.
Taken voor gegevensactiegeschiedenis
In deze sectie:
- De lijst met acties weergeven die in de widget zijn uitgevoerd
- De meest recente actie in de widget ongedaan maken
- De meest recente actie die in de widget is uitgevoerd, opnieuw uitvoeren
- De meest recente actie in de widget wijzigen
De lijst met acties weergeven die in de widget zijn uitgevoerd
Scenario: U wilt een lijst weergeven met alle wijzigingen die zijn aangebracht in de widget, te beginnen met de meest recente wijziging.
Klik op Geschiedenis. De lijst met acties wordt weergegeven in het deelvenster Transformatiegeschiedenis.
De meest recente actie in de widget ongedaan maken
Scenario: U wilt de meest recente wijziging die in de widget is aangebracht, terugzetten.
Voer een van de volgende stappen uit:
- Klik op het pijlpictogram linksom.
- Klik op Geschiedenis en klik in het deelvenster Transformatiegeschiedenis op Laatste stap ongedaan maken.
De meest recente actie die in de widget is uitgevoerd, opnieuw uitvoeren
Scenario: U wilt de meest recente terugdraaibewerking die is gemaakt in de widget terugzetten.
Voer een van de volgende stappen uit:
- Klik op het pijlpictogram met de klok mee.
- Klik op Geschiedenis en klik in het deelvenster Transformatiegeschiedenis op Vorige stap herstellen.
De meest recente actie in de widget wijzigen
Scenario: U wilt de meest recente wijziging wijzigen die in de widget is gemaakt.
- Ga op een van de volgende manieren te werk:
- Klik op het potloodpictogram.
- Klik op Geschiedenis en klik in het deelvenster Transformatiegeschiedenis op Laatste stap bewerken.
- Breng de gewenste wijziging aan en klik op Uitvoeren.
Code ophalen om de huidige status van de widget programmatisch opnieuw te maken als een DataFrame
Scenario: U wilt Python-code ophalen die programmatisch de status van de huidige widget opnieuw maakt, weergegeven als een Pandas DataFrame. U wilt deze code uitvoeren in een andere cel in deze werkmap of in een andere werkmap.
Klik op Code ophalen.
Klik in het deelvenster Code exporteren op Code kopiëren. De code wordt gekopieerd naar het klembord van uw systeem.
Plak de code in een andere cel in deze werkmap of in een andere werkmap.
Schrijf extra code om programmatisch met dit Pandas DataFrame te werken en voer vervolgens de cel uit. Als u bijvoorbeeld de inhoud van het DataFrame wilt weergeven, ervan uitgaande dat uw DataFrame programmatisch wordt weergegeven door
df
:# Your pasted code here, followed by... df
Beperkingen
Zie Bekende beperkingen voor Databricks-notebooks voor meer informatie.