Partager via


bamboolib

Important

Cette fonctionnalité est disponible en préversion publique.

Remarque

bamboolib est pris en charge dans Databricks Runtime 11.3 LTS et les versions ultérieures.

bamboolib est un composant d’interface utilisateur qui permet l’analyse et les transformations de données sans code à partir d’un notebook Azure Databricks. bamboolib permet aux utilisateurs de travailler plus facilement avec leurs données et accélère les tâches courantes de wrangling, d’exploration et de visualisation. Lorsque les utilisateurs effectuent ces types de tâches avec leurs données, bamboolib génère automatiquement du code Python en arrière-plan. Les utilisateurs peuvent partager ce code avec d’autres personnes, qui peuvent l’exécuter dans leurs propres notebooks pour reproduire rapidement ces tâches d’origine. Ils peuvent également utiliser bamboolib pour étendre ces tâches d’origine avec des tâches de données supplémentaires, tout cela sans qu’il soit nécessaire de savoir comment coder. Ceux qui sont familiarisés avec le codage peuvent étendre ce code pour créer des résultats encore plus sophistiqués.

En arrière-plan, bamboolib utilise ipywidgets, qui est une infrastructure de widget HTML interactive pour le noyau IPython. ipywidgets s’exécute à l’intérieur du noyau IPython.

Contents

Spécifications

Démarrage rapide

  1. Créez un notebook Python.

  2. Attachez le notebook à un cluster qui répond aux exigences.

  3. Dans la première cellule du notebook, entrez le code suivant, puis exécutez la cellule. Cette étape peut être ignorée si bamboolib est déjà installé dans l’espace de travail ou le cluster.

    %pip install bamboolib
    
  4. Dans la deuxième cellule du notebook, entrez le code suivant, puis exécutez la cellule.

    import bamboolib as bam
    
  5. Dans la première cellule du notebook, entrez le code suivant, puis exécutez la cellule.

    bam
    

    Notes

    Vous pouvez également imprimer un DataFrame Pandas existant pour afficher le composant bamboolib à utiliser avec ce DataFrame spécifique.

  6. Passez aux tâches clés.

Procédures pas à pas

Vous pouvez utiliser bamboolib seul ou avec un DataFrame Pandas existant.

Utiliser bamboolib seul

Dans cette procédure pas à pas, vous utilisez bamboolib pour afficher dans votre notebook le contenu d’un exemple de jeu de données de vente. Vous testez ensuite une partie du code du notebook associé que bamboolib génère automatiquement. Vous terminez en interrogeant et en triant une copie du contenu du jeu de données de ventes.

  1. Créez un notebook Python.

  2. Attachez le notebook à un cluster qui répond aux exigences.

  3. Dans la première cellule du notebook, entrez le code suivant, puis exécutez la cellule. Cette étape peut être ignorée si bamboolib est déjà installé dans l’espace de travail ou le cluster.

    %pip install bamboolib
    
  4. Dans la deuxième cellule du notebook, entrez le code suivant, puis exécutez la cellule.

    import bamboolib as bam
    
  5. Dans la première cellule du notebook, entrez le code suivant, puis exécutez la cellule.

    bam
    
  6. Cliquez sur Charger des données factices.

  7. Dans le volet Charger des données factices, pour Charger un jeu de données factices pour tester bamboolib, sélectionnez Jeu de données Sales (Ventes).

  8. Cliquez sur Exécuter.

  9. Affichez toutes les lignes où item_type a la valeur Baby Food (Aliments pour bébé) :

    1. Dans la liste Actions de recherche, sélectionnez Filtrer les lignes.
    2. Dans le volet Filtrer les lignes, dans la liste Choisir(au-dessus de ), sélectionnez Sélectionner les lignes.
    3. Dans la liste sous , sélectionnez item_type.
    4. Dans la liste Choisir en regard de item_type, sélectionnez a une ou plusieurs valeurs.
    5. Dans la zone Choisir une ou plusieurs valeurs en regard de a une ou plusieurs valeurs, sélectionnez Baby Food (Aliments pour bébé).
    6. Cliquez sur Exécuter.
  10. Copiez le code Python généré automatiquement pour cette requête :

    1. Cliquez sur Copier le Code en dessous de l’aperçu des données.
  11. Collez et modifiez le code :

    1. Dans la quatrième cellule du notebook, collez le code que vous avez copié. Il doit se présenter comme suit :

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Ajoutez des éléments à ce code pour qu’il affiche uniquement les lignes où order_prio a la valeur C, puis exécutez la cellule :

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Conseil

    Au lieu d’écrire ce code, vous pouvez également faire la même chose en utilisant simplement bamboolib dans la troisième cellule pour afficher uniquement les lignes où order_prio a la valeur C. Cette étape est un exemple d’extension du code qui est automatiquement généré par bamboolib.

  12. Triez les lignes par région par ordre croissant :

    1. Dans le widget présent dans la quatrième cellule, dans la liste Actions de recherche, sélectionnez Trier les lignes.
    2. Dans le volet Trier la ou les colonnes, dans la liste Choisir une colonne, sélectionnez région.
    3. Dans la liste en regard de région, sélectionnez Croissant (A-Z).
    4. Cliquez sur Exécuter.

    Notes

    Cela équivaut à écrire vous-même le code suivant :

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Vous pourriez également avoir simplement utilisé bamboolib dans la troisième cellule pour trier les lignes par région par ordre croissant. Cette étape montre comment vous pouvez utiliser bamboolib pour étendre le code que vous écrivez. Lorsque vous utilisez bamboolib, il génère automatiquement le code supplémentaire pour vous en arrière-plan, afin que vous puissiez étendre davantage votre code déjà étendu.

  13. Passez aux tâches clés.

Utiliser bamboolib avec un DataFrame existant

Dans cette procédure pas à pas, vous utilisez bamboolib pour afficher dans votre notebook le contenu d’un DataFrame Pandas. Ce DataFrame contient une copie d’un exemple de jeu de données de ventes. Vous testez ensuite une partie du code du notebook associé que bamboolib génère automatiquement. Vous terminez en interrogeant et en triant une partie du contenu du DataFrame.

  1. Créez un notebook Python.

  2. Attachez le notebook à un cluster qui répond aux exigences.

  3. Dans la première cellule du notebook, entrez le code suivant, puis exécutez la cellule. Cette étape peut être ignorée si bamboolib est déjà installé dans l’espace de travail ou le cluster.

    %pip install bamboolib
    
  4. Dans la deuxième cellule du notebook, entrez le code suivant, puis exécutez la cellule.

    import bamboolib as bam
    
  5. Dans la première cellule du notebook, entrez le code suivant, puis exécutez la cellule.

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    Notez que bamboolib prend uniquement en charge les DataFrames Pandas. Pour convertir un DataFrame PySpark en DataFrame Pandas, appelez toPandas sur le DataFrame PySpark. Pour convertir une API Pandas sur un DataFrame Spark en DataFrame Pandas, appelez to_pandas sur l’API Pandas sur le DataFrame Spark.

  6. Cliquez sur Afficher l’interface utilisateur de bamboolib.

  7. Affichez toutes les lignes où item_type a la valeur Baby Food (Aliments pour bébé) :

    1. Dans la liste Actions de recherche, sélectionnez Filtrer les lignes.
    2. Dans le volet Filtrer les lignes, dans la liste Choisir(au-dessus de ), sélectionnez Sélectionner les lignes.
    3. Dans la liste sous , sélectionnez item_type.
    4. Dans la liste Choisir en regard de item_type, sélectionnez a une ou plusieurs valeurs.
    5. Dans la zone Choisir une ou plusieurs valeurs en regard de a une ou plusieurs valeurs, sélectionnez Baby Food (Aliments pour bébé).
    6. Cliquez sur Exécuter.
  8. Copiez le code Python généré automatiquement pour cette requête : Pour ce faire, cliquez sur Copier le code sous l’aperçu des données.

  9. Collez et modifiez le code :

    1. Dans la quatrième cellule du notebook, collez le code que vous avez copié. Il doit se présenter comme suit :

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Ajoutez des éléments à ce code pour qu’il affiche uniquement les lignes où order_prio a la valeur C, puis exécutez la cellule :

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Conseil

    Au lieu d’écrire ce code, vous pouvez également faire la même chose en utilisant simplement bamboolib dans la troisième cellule pour afficher uniquement les lignes où order_prio a la valeur C. Cette étape est un exemple d’extension du code qui est automatiquement généré par bamboolib.

  10. Triez les lignes par région par ordre croissant :

    a. Dans le widget situé dans la quatrième cellule, cliquez sur Trier les lignes.

    1. Dans le volet Trier la ou les colonnes, dans la liste Choisir une colonne, sélectionnez région.
    2. Dans la liste en regard de région, sélectionnez Croissant (A-Z).
    3. Cliquez sur Exécuter.

    Notes

    Cela équivaut à écrire vous-même le code suivant :

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Vous pourriez également avoir simplement utilisé bamboolib dans la troisième cellule pour trier les lignes par région par ordre croissant. Cette étape montre comment vous pouvez utiliser bamboolib pour étendre le code que vous écrivez. Lorsque vous utilisez bamboolib, il génère automatiquement le code supplémentaire pour vous en arrière-plan, afin que vous puissiez étendre davantage votre code déjà étendu.

  11. Passez aux tâches clés.

Tâches clés

Dans cette section :

Ajouter le widget à une cellule

Scénario : Vous souhaitez que le widget bamboolib s’affiche dans une cellule.

  1. Vérifiez que le notebook répond aux exigences de bamboolib.

  2. Si bamboolib n’est pas déjà installé dans l’espace de travail ou le cluster exécutez le code suivant dans une cellule du notebook, de préférence dans la première cellule :

    %pip install bamboolib
    
  3. Exécutez le code suivant dans le notebook, de préférence dans la première ou la deuxième cellule de celui-ci :

    import bamboolib as bam
    
  4. Option 1 : Dans la cellule dans laquelle vous souhaitez que le widget s’affiche, ajoutez le code suivant, puis exécutez la cellule :

    bam
    

    Le widget apparaît dans la cellule située sous le code.

    Ou :

    Option 2 : Dans une cellule qui contient une référence à un DataFrame Pandas, imprimez le DataFrame. Par exemple, en fonction de la définition de DataFrame suivante, exécutez la cellule :

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    Le widget apparaît dans la cellule située sous le code.

    Notez que bamboolib prend uniquement en charge les DataFrames Pandas. Pour convertir un DataFrame PySpark en DataFrame Pandas, appelez toPandas sur le DataFrame PySpark. Pour convertir une API Pandas sur un DataFrame Spark en DataFrame Pandas, appelez to_pandas sur l’API Pandas sur le DataFrame Spark.

Effacer le widget

Scénario : Vous souhaitez effacer le contenu d’un widget, puis lire de nouvelles données dans le widget existant.

Option 1 : Exécutez le code suivant dans la cellule qui contient le widget cible :

bam

Le widget s’efface, puis réaffiche les boutons Databricks : Lire le fichier CSV à partir de DBFS, Databricks : Charger la table de base de données et Charger des données factices.

Notes

Si l’erreur name 'bam' is not defined s’affiche, exécutez le code suivant dans le notebook (de préférence dans la première cellule de celui-ci), puis réessayez :

import bamboolib as bam

Option 2 : Dans une cellule qui contient une référence à un DataFrame Pandas, imprimez à nouveau le DataFrame en réexécutant la cellule. Le widget s’efface, puis affiche les nouvelles données.

Tâches de chargement de données

Dans cette section :

Lire le contenu d’un exemple de jeu de données dans le widget

Scénario : Vous souhaitez lire des exemples de données dans le widget, par exemple des données de ventes fictives, afin de pouvoir tester les fonctionnalités du widget.

  1. Cliquez sur Charger des données factices.

    Notes

    Si Charger des données factices n’est pas visible, effacez le widget avec l’option 1 et réessayez.

  2. Dans le volet Charger des données factices, pour Charger un jeu de données factices pour tester bamboolib, sélectionnez le nom du jeu de données que vous souhaitez charger.

  3. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.

  4. Cliquez sur Exécuter.

    Le widget affiche le contenu du jeu de données.

Conseil

Vous pouvez changer le widget actuel pour afficher le contenu d’un autre exemple de jeu de données :

  1. Dans le widget actuel, cliquez sur l’onglet Charger des données factices.
  2. Suivez les étapes précédentes pour lire le contenu de l’autre exemple de jeu de données dans le widget.

Lire le contenu d’un fichier CSV dans le widget

Scénario : Vous souhaitez lire, dans le widget, le contenu d’un fichier CSV de votre espace de travail Azure Databricks.

  1. Cliquez sur Databricks : Lire le fichier CSV à partir de DBFS.

    Notes

    Si Databricks : Lire le fichier CSV à partir de DBFS n’est pas visible, effacez le widget avec l’option 1, puis réessayez.

  2. Dans le volet Lire le fichier CSV à partir de DBFS, accédez à l’emplacement qui contient le fichier CSV cible.

  3. Sélectionnez le fichier CSV cible.

  4. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du fichier CSV sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.

  5. Pour le Séparateur de valeurs CSV, entrez le caractère qui sépare les valeurs dans le fichier CSV, ou laissez le caractère , (virgule) comme séparateur de valeurs par défaut.

  6. Pour le Séparateur décimal, entrez le caractère qui sépare les décimales dans le fichier CSV, ou laissez le caractère . (point) comme séparateur de valeurs par défaut.

  7. Pour Limite de lignes : lire les N premières lignes - laisser vide pour ne définir aucune limite, entrez le nombre maximal de lignes à lire dans le widget, ou laissez 100 000 comme nombre de lignes par défaut, ou laissez cette zone vide pour ne spécifier aucune limite de lignes.

  8. Cliquez sur Ouvrir le fichier CSV.

    Le widget affiche le contenu du fichier CSV, en fonction des paramètres que vous avez spécifiés.

Conseil

Vous pouvez changer le widget actuel pour afficher le contenu d’un fichier CSV différent :

  1. Dans le widget actuel, cliquez sur l’onglet Lire le fichier CSV à partir de DBFS.
  2. Suivez les étapes précédentes pour lire le contenu de l’autre fichier CSV dans le widget.

Lire le contenu d’une table de base de données dans le widget

Scénario : Vous souhaitez lire, dans le widget, le contenu d’une table de base de données de votre espace de travail Azure Databricks.

  1. Cliquez sur Databricks : Charger la table de base de données.

    Notes

    Si Databricks : Chargement de la table de base de données n’est pas visible, effacez le widget avec l’option 1, puis réessayez.

  2. Dans le volet Databricks : Charger la table de base de données, pour Base de données - Laisser vide pour utiliser la base de données par défaut, entrez le nom de la base de données dans laquelle se trouve la table cible, ou laissez cette zone vide pour spécifier la base de données par défaut.

  3. Pour Table, entrez le nom de la table cible.

  4. Pour Limite de lignes : lire les N premières lignes - laisser vide pour ne définir aucune limite, entrez le nombre maximal de lignes à lire dans le widget, ou laissez 100 000 comme nombre de lignes par défaut, ou laissez cette zone vide pour ne spécifier aucune limite de lignes.

  5. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.

  6. Cliquez sur Exécuter.

    Le widget affiche le contenu de la table, en fonction des paramètres que vous avez spécifiés.

Conseil

Vous pouvez changer le widget actuel pour afficher le contenu d’une table différente :

  1. Dans le widget actuel, cliquez sur l’onglet Databricks : Charger la table de base de données.
  2. Suivez les étapes précédentes pour lire le contenu de l’autre table dans le widget.

Tâches d’action de données

bamboolib offre plus de 50 actions de données. Voici quelques-unes des tâches d’action de données d’initiation les plus courantes.

Dans cette section :

Select columns

Scénario : Vous souhaitez afficher uniquement des colonnes de table spécifiques par nom, par type de données ou correspondant à une expression régulière. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez afficher uniquement les colonnes item_type et sales_channel, ou afficher uniquement les colonnes qui contiennent la chaîne _date dans leurs noms de colonnes.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez sélectionner, puis sélectionnez Sélectionner ou supprimer des colonnes.
    • Sélectionnez Sélectionner ou supprimer des colonnes.
  2. Dans le volet Sélectionner ou supprimer des colonnes, dans la liste déroulante Choisir, sélectionnez Sélectionner.
  3. Sélectionnez les noms des colonnes cibles ou le critère d’inclusion.
  4. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.
  5. Cliquez sur Exécuter.

Supprimer des colonnes

Scénario : Vous souhaitez masquer des colonnes de table spécifiques par nom, par type de données ou correspondant à une expression régulière. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez masquer les colonnes order_prio, order_date et ship_date, ou vous souhaitez masquer toutes les colonnes qui contiennent uniquement des valeurs de date/heure.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez supprimer, puis sélectionnez Sélectionner ou supprimer des colonnes.
    • Sélectionnez Sélectionner ou supprimer des colonnes.
  2. Dans le volet Sélectionner ou supprimer des colonnes, dans la liste déroulante Choisir, sélectionnez Supprimer.
  3. Sélectionnez les noms des colonnes cibles ou le critère d’inclusion.
  4. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.
  5. Cliquez sur Exécuter.

Filtrer les lignes

Scénario : Vous souhaitez afficher ou masquer des lignes de table spécifiques en fonction de critères tels que des valeurs de colonnes spécifiques correspondantes ou manquantes. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez afficher uniquement les lignes où la valeur de la colonne item_type est définie sur Baby Food.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez filtrer, puis sélectionnez Filtrer les lignes.
    • Sélectionnez Filtrer les lignes.
  2. Dans le volet Filtrer les lignes, dans la liste déroulante Choisir au-dessus de , sélectionnez Sélectionner des lignes ou Supprimer des lignes.
  3. Spécifiez le premier critère de filtre.
  4. Pour ajouter un autre critère de filtre, cliquez sur Ajouter une condition, puis spécifiez le critère de filtre suivant. Répétez l’opération comme vous le souhaitez.
  5. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.
  6. Cliquez sur Exécuter.

Trier les lignes

Scénario : Vous souhaitez trier les lignes d’une table en fonction des valeurs présentes dans une ou plusieurs colonnes. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez afficher les lignes selon les valeurs de la colonne region par ordre alphabétique de A à Z.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez trier, puis sélectionnez Trier les lignes.
    • Sélectionnez Trier les lignes.
  2. Dans le volet Trier la ou les colonnes, choisissez la première colonne à trier et l’ordre de tri.
  3. Pour ajouter un autre critère de tri, cliquez sur Ajouter une colonne, puis spécifiez le critère de tri suivant. Répétez l’opération comme vous le souhaitez.
  4. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.
  5. Cliquez sur Exécuter.

Regroupement de tâches de lignes et de colonnes

Dans cette section :
Regrouper des lignes et des colonnes sur une seule fonction d’agrégation

Scénario : Vous souhaitez afficher les résultats des lignes et des colonnes par regroupements calculés, et affecter des noms personnalisés à ces regroupements. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez regrouper les lignes selon les valeurs de la colonne country, en indiquant le nombre de lignes contenant la même valeur country et en donnant à la liste des totaux calculés le nom country_count.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez regrouper, puis sélectionnez Regrouper par et agréger (avec renommage).
    • Sélectionnez Regrouper par et agréger (avec renommage).
  2. Dans le volet Regrouper par avec renommage de colonne, sélectionnez les colonnes sur lesquelles effectuer le regroupement, le premier calcul, et spécifiez éventuellement un nom pour la colonne calculée.
  3. Pour ajouter un autre calcul, cliquez sur Ajouter un calcul, puis spécifiez le calcul suivant et un nom de colonne. Répétez l’opération comme vous le souhaitez.
  4. Spécifiez où stocker le résultat.
  5. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.
  6. Cliquez sur Exécuter.
Regrouper des lignes et des colonnes sur plusieurs fonctions d’agrégation

Scénario : Vous souhaitez afficher les résultats des lignes et des colonnes par regroupements calculés. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez regrouper les lignes selon les valeurs des colonnes region, country et sales_channel, en indiquant le nombre de lignes contenant la même valeur region et country par sales_channel, ainsi que la valeur total_revenue par une combinaison unique de region, country et sales_channel.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez regrouper, puis sélectionnez Regrouper par et agréger (par défaut).
    • Sélectionnez Regrouper par et agréger (par défaut).
  2. Dans le volet Regrouper par avec renommage de colonne, sélectionnez les colonnes à regrouper et le premier calcul.
  3. Pour ajouter un autre calcul, cliquez sur Ajouter un calcul, puis spécifiez le calcul suivant. Répétez l’opération comme vous le souhaitez.
  4. Spécifiez où stocker le résultat.
  5. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.
  6. Cliquez sur Exécuter.

Supprimer les lignes avec des valeurs manquantes

Scénario : Vous souhaitez supprimer toute ligne dont une valeur est manquante pour les colonnes spécifiées. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez supprimer toutes les lignes qui ont une valeur item_type manquante.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez supprimer ou retirer, puis sélectionnez Supprimer les valeurs manquantes.
    • Sélectionnez Supprimer les valeurs manquantes.
  2. Dans le volet Supprimer les valeurs manquantes, sélectionnez les colonnes pour lesquelles supprimer toutes les lignes qui ont une valeur manquante.
  3. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.
  4. Cliquez sur Exécuter.

Supprimer les lignes dupliquées

Scénario : Vous souhaitez supprimer toute ligne dont une valeur est dupliquée pour les colonnes spécifiées. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez supprimer toutes les lignes qui sont des doublons exacts l’une de l’autre.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez supprimer ou retirer, puis sélectionnez Supprimer/Retirer les doublons.
    • Sélectionnez Supprimer/Retirer des doublons.
  2. Dans le volet Supprimer des doublons, sélectionnez les colonnes desquelles supprimer toutes les lignes qui ont une valeur dupliquée, puis indiquez s’il faut conserver la première ou la dernière ligne qui contient la valeur dupliquée.
  3. Pour le Nom du DataFrame, entrez un nom pour l’identificateur programmatique du contenu de la table sous la forme d’un DataFrame, ou laissez df comme identificateur programmatique par défaut.
  4. Cliquez sur Exécuter.

Rechercher et remplacer les valeurs manquantes

Scénario : Vous souhaitez remplacer la valeur manquante par une valeur de remplacement pour toute ligne des colonnes spécifiées. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez remplacer toute ligne ayant une valeur manquante dans la colonne item_type par la valeur Unknown Item Type.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez rechercher ou remplacer, puis sélectionnez Rechercher et remplacer les valeurs manquantes.
    • Sélectionnez Rechercher et remplacer les valeurs manquantes.
  2. Dans le volet Remplacer les valeurs manquantes, sélectionnez les colonnes pour lesquelles remplacer les valeurs manquantes, puis spécifiez la valeur de remplacement.
  3. Cliquez sur Exécuter.

Créer une formule de colonne

Scénario : Vous souhaitez créer une colonne qui utilise une formule unique. Par exemple, dans le jeu de données Sales (Ventes) factice, vous souhaitez créer une colonne nommée profit_per_unit qui affiche le résultat de la division de la valeur de colonne total_profit par la valeur de colonne units_sold pour chaque ligne.

  1. Sous l’onglet Données, dans la liste déroulante Actions de recherche, effectuez l’une des opérations suivantes :
    • Tapez formule, puis sélectionnez Nouvelle formule de colonne.
    • Sélectionnez Nouvelle formule de colonne.
  2. Dans le volet Remplacer les valeurs manquantes, sélectionnez les colonnes pour lesquelles remplacer les valeurs manquantes, puis spécifiez la valeur de remplacement.
  3. Cliquez sur Exécuter.

Tâches d’historique des actions de données

Dans cette section :

Afficher la liste des actions effectuées dans le widget

Scénario : Vous souhaitez afficher la liste de toutes les modifications qui ont été apportées dans le widget, en commençant par la modification la plus récente.

Cliquez sur Historique. La liste des actions s’affiche dans le volet Historique des transformations.

Annuler l’action la plus récente effectuée dans le widget

Scénario : Vous souhaitez annuler la modification la plus récente qui a été effectuée dans le widget.

Effectuez l’une des opérations suivantes :

  • Cliquez sur l’icône représentant une flèche dans le sens inverse des aiguilles d’une montre.
  • Cliquez sur Historique, puis, dans le volet Historique des transformations, cliquez sur Annuler la dernière étape.

Répéter l’action la plus récente effectuée dans le widget

Scénario : Vous souhaitez annuler l’annulation la plus récente qui a été effectuée dans le widget.

Effectuez l’une des opérations suivantes :

  • Cliquez sur l’icône représentant une flèche dans le sens des aiguilles d’une montre.
  • Cliquez sur Historique, puis, dans le volet Historique des transformations, cliquez sur Récupérer la dernière étape.

Changer l’action la plus récente effectuée dans le widget

Scénario : Vous souhaitez modifier la modification la plus récente qui a été apportées dans le widget.

  1. Effectuez l’une des actions suivantes :
    • Cliquez sur l’icône de crayon.
    • Cliquez sur Historique, puis, dans le volet Historique des transformations, cliquez sur Modifier la dernière étape.
  2. Apportez la modification souhaitée, puis cliquez sur Exécuter.

Obtenir du code pour recréer par programmation l’état actuel du widget en tant que DataFrame

Scénario : Vous souhaitez obtenir le code Python qui recrée par programmation l’état du widget actuel, représenté en tant que DataFrame Pandas. Vous souhaitez exécuter ce code dans une autre cellule de ce classeur ou dans un autre classeur tout entier.

  1. Cliquez sur Obtenir le code.

  2. Dans le volet Exporter le code, cliquez sur Copier le code. Le code est copié dans le Presse-papiers de votre système.

  3. Collez le code dans une autre cellule de ce classeur ou dans un autre classeur.

  4. Écrivez du code supplémentaire pour utiliser ce DataFrame Pandas par programmation, puis exécutez la cellule. Par exemple, pour afficher le contenu du DataFrame, en supposant que votre DataFrame est représenté par programmation par df :

    # Your pasted code here, followed by...
    df
    

Limites

Pour plus d’informations, consultez limitations connues des notebooks Databricks.

Ressources supplémentaires