Tutoriel : Interroger des données avec des notebooks

Ce didacticiel vous guide tout au long de l'utilisation de l'interface utilisateur des notebooks Databricks pour créer un cluster et un notebook, créer une table à partir d'un ensemble de données, interroger la table et afficher les résultats de la requête.

Conseil

Vous pouvez également utiliser le fournisseur Databricks Terraform pour créer les ressources de cet article. Consultez Créer des clusters, des notebooks et des travaux avec Terraform.

Spécifications

Notes

Si vous ne disposez pas des privilèges de contrôle de cluster, vous pouvez quand même effectuer la plupart des étapes ci-dessous tant que vous avez accès à un cluster.

Dans la barre latérale gauche de la page de destination, vous accédez aux entités fondamentales de l'espace de travail : l'espace de travail, le catalogue, les flux de travail et le calcul. L’espace de travail est le dossier racine spécial qui stocke vos ressources Azure Databricks, telles que les blocs-notes et les bibliothèques.

Pour obtenir des conseils sur la navigation dans un bloc-notes Databricks, consultez Interface et contrôles du bloc-notes Databricks.

Étape 1 : Créer un cluster

Un cluster est une collection de ressources de calcul Azure Databricks. Pour créer un cluster :

  1. Cliquez sur l’compute iconCalcul dans la barre latérale.
  2. Sur la page Calcul, cliquez sur Créer un calcul.
  3. Sur la page Nouveau calcul, sélectionnez 12.2 LTS (Scala 2.12, Spark 3.3.2) ou version ultérieure dans la liste déroulante des versions de Databricks Runtime.
  4. Cliquez sur Créer un cluster.

Étape 2 : Créer un notebook

Un notebook est une collection de cellules qui exécutent des calculs sur un cluster Apache Spark. Pour plus d’informations sur l’utilisation des notebooks, consultez Introduction aux notebooks Databricks. Pour créer un notebook dans l’espace de travail :

  1. Dans la barre latérale, cliquez sur Workspace IconEspace de travail.

  2. Dans votre dossier Accueil Home Icon, cliquez sur le bouton bleu Add buttonAjouter le bouton>Bloc de notes.

  3. Remplacez le nom par défaut de votre bloc-notes par votre propre titre et sélectionnez langage SQL dans la liste déroulante des langues. Vous définirez ainsi la langue par défaut du notebook.

    Choose language and title

  4. Joignez le notebook au cluster que vous avez créé. Cliquez sur le sélecteur de cluster dans la barre d’outils du notebook et sélectionnez un cluster dans le menu déroulant. Si vous ne voyez pas votre cluster, cliquez sur Plus... et sélectionnez le cluster dans le menu déroulant de la boîte de dialogue.

Étape 3 : Créer une table

Créez une table à l’aide des données d’un exemple de fichier de données CSV disponible dans Exemples de jeux de données, une collection de jeux de données montés sur Qu’est-ce que le système de fichiers Databricks (DBFS) ?, un système de fichiers distribués installé sur des clusters Azure Databricks. Il existe deux façons de créer la table.

Option 1 : Créer une table Spark à partir des données CSV

Utilisez cette option si vous souhaitez démarrer rapidement et si vous n’avez besoin que de niveaux de performances standard. Copiez et collez cet extrait de code dans une cellule de notebook :

DROP TABLE IF EXISTS diamonds;

CREATE TABLE diamonds USING CSV OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header "true")

Option 2 : Écrire les données CSV au format Delta Lake et créer une table Delta

Delta Lake offre une couche de stockage transactionnelle puissante qui permet des lectures rapides et d’autres avantages. Le format Delta Lake se compose de fichiers Parquet et d’un journal des transactions. Utilisez cette option pour obtenir les meilleures performances lors des opérations à venir sur la table.

  1. Lisez les données CSV dans un DataFrame et écrivez-les au format Delta Lake. Cette commande utilise une commande magique en langage Python, qui vous permet d’entrelacer des commandes dans des langages autres que le langage par défaut du notebook (SQL). Copiez et collez cet extrait de code dans une cellule de notebook :

    %python
    
    diamonds = (spark.read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
    )
    
    diamonds.write.format("delta").mode("overwrite").save("/mnt/delta/diamonds")
    
  2. Créez une table Delta à l’emplacement stocké. Copiez et collez cet extrait de code dans une cellule de notebook :

    DROP TABLE IF EXISTS diamonds;
    
    CREATE TABLE diamonds USING DELTA LOCATION '/mnt/delta/diamonds/'
    

Exécutez les cellules en appuyant sur MAJ + ENTRÉE. Le notebook est automatiquement joint au cluster que vous avez créé au cours de l’étape 2 et exécute la commande dans la cellule.

Étape 4 : Interroger la table

Exécutez une instruction SQL pour interroger la table afin d’obtenir le prix moyen du diamant par couleur.

  1. Pour ajouter une cellule au notebook, placez la souris sur la cellule inférieure, puis cliquez sur l’icône Add Cell.

    Add cell

  2. Copiez cet extrait de code et collez-le dans la cellule.

    SELECT color, avg(price) AS price FROM diamonds GROUP BY color ORDER BY COLOR
    
  3. Appuyez sur MAJ + ENTRÉE. Le notebook affiche une table de couleur de diamant et de prix moyen.

    Run command

Étape 5 : Afficher les données

Afficher un graphique du prix moyen du diamant par couleur.

  1. Près de l’onglet Table, cliquez sur +, puis sur Visualisation.

    L’éditeur de visualisation affiche.

  2. Dans la liste déroulante Type de visualisation, vérifiez que Barre est sélectionnée.

  3. Décochez la case Graphique horizontal.

  4. Modifiez le type d'agrégation pour les colonnes y de Sum à Moyenne.

  5. Cliquez sur Enregistrer.

    Bar chart

Étapes suivantes

Pour en savoir plus sur les principaux outils utilisés et les tâches que vous pouvez effectuer avec l’espace de travail Data Science & Engineering de Databricks, consultez :