Tutoriel : Interroger des données avec des notebooks
Ce didacticiel vous guide tout au long de l'utilisation de l'interface utilisateur des notebooks Databricks pour créer un cluster et un notebook, créer une table à partir d'un ensemble de données, interroger la table et afficher les résultats de la requête.
Conseil
Vous pouvez également utiliser le fournisseur Databricks Terraform pour créer les ressources de cet article. Consultez Créer des clusters, des notebooks et des travaux avec Terraform.
Spécifications
- Vous êtes connecté à un espace de travail Azure Databricks.
- Vous devez avoir l’autorisation de créer un cluster.
Notes
Si vous ne disposez pas des privilèges de contrôle de cluster, vous pouvez quand même effectuer la plupart des étapes ci-dessous tant que vous avez accès à un cluster.
Dans la barre latérale gauche de la page de destination, vous accédez aux entités fondamentales de l'espace de travail : l'espace de travail, le catalogue, les flux de travail et le calcul. L’espace de travail est le dossier racine spécial qui stocke vos ressources Azure Databricks, telles que les blocs-notes et les bibliothèques.
Pour obtenir des conseils sur la navigation dans un bloc-notes Databricks, consultez Interface et contrôles du bloc-notes Databricks.
Étape 1 : Créer un cluster
Un cluster est une collection de ressources de calcul Azure Databricks. Pour créer un cluster :
- Cliquez sur l’Calcul dans la barre latérale.
- Sur la page Calcul, cliquez sur Créer un calcul.
- Sur la page Nouveau calcul, sélectionnez 12.2 LTS (Scala 2.12, Spark 3.3.2) ou version ultérieure dans la liste déroulante des versions de Databricks Runtime.
- Cliquez sur Créer un cluster.
Étape 2 : Créer un notebook
Un notebook est une collection de cellules qui exécutent des calculs sur un cluster Apache Spark. Pour plus d’informations sur l’utilisation des notebooks, consultez Introduction aux notebooks Databricks. Pour créer un notebook dans l’espace de travail :
Dans la barre latérale, cliquez sur Espace de travail.
Dans votre dossier Accueil , cliquez sur le bouton bleu Ajouter le bouton>Bloc de notes.
Remplacez le nom par défaut de votre bloc-notes par votre propre titre et sélectionnez langage SQL dans la liste déroulante des langues. Vous définirez ainsi la langue par défaut du notebook.
Joignez le notebook au cluster que vous avez créé. Cliquez sur le sélecteur de cluster dans la barre d’outils du notebook et sélectionnez un cluster dans le menu déroulant. Si vous ne voyez pas votre cluster, cliquez sur Plus... et sélectionnez le cluster dans le menu déroulant de la boîte de dialogue.
Étape 3 : Créer une table
Créez une table à l’aide des données d’un exemple de fichier de données CSV disponible dans Exemples de jeux de données, une collection de jeux de données montés sur Qu’est-ce que le système de fichiers Databricks (DBFS) ?, un système de fichiers distribués installé sur des clusters Azure Databricks. Il existe deux façons de créer la table.
Option 1 : Créer une table Spark à partir des données CSV
Utilisez cette option si vous souhaitez démarrer rapidement et si vous n’avez besoin que de niveaux de performances standard. Copiez et collez cet extrait de code dans une cellule de notebook :
DROP TABLE IF EXISTS diamonds;
CREATE TABLE diamonds USING CSV OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header "true")
Option 2 : Écrire les données CSV au format Delta Lake et créer une table Delta
Delta Lake offre une couche de stockage transactionnelle puissante qui permet des lectures rapides et d’autres avantages. Le format Delta Lake se compose de fichiers Parquet et d’un journal des transactions. Utilisez cette option pour obtenir les meilleures performances lors des opérations à venir sur la table.
Lisez les données CSV dans un DataFrame et écrivez-les au format Delta Lake. Cette commande utilise une commande magique en langage Python, qui vous permet d’entrelacer des commandes dans des langages autres que le langage par défaut du notebook (SQL). Copiez et collez cet extrait de code dans une cellule de notebook :
%python diamonds = (spark.read .format("csv") .option("header", "true") .option("inferSchema", "true") .load("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv") ) diamonds.write.format("delta").mode("overwrite").save("/mnt/delta/diamonds")
Créez une table Delta à l’emplacement stocké. Copiez et collez cet extrait de code dans une cellule de notebook :
DROP TABLE IF EXISTS diamonds; CREATE TABLE diamonds USING DELTA LOCATION '/mnt/delta/diamonds/'
Exécutez les cellules en appuyant sur MAJ + ENTRÉE. Le notebook est automatiquement joint au cluster que vous avez créé au cours de l’étape 2 et exécute la commande dans la cellule.
Étape 4 : Interroger la table
Exécutez une instruction SQL pour interroger la table afin d’obtenir le prix moyen du diamant par couleur.
Pour ajouter une cellule au notebook, placez la souris sur la cellule inférieure, puis cliquez sur l’icône .
Copiez cet extrait de code et collez-le dans la cellule.
SELECT color, avg(price) AS price FROM diamonds GROUP BY color ORDER BY COLOR
Appuyez sur MAJ + ENTRÉE. Le notebook affiche une table de couleur de diamant et de prix moyen.
Étape 5 : Afficher les données
Afficher un graphique du prix moyen du diamant par couleur.
Près de l’onglet Table, cliquez sur +, puis sur Visualisation.
L’éditeur de visualisation affiche.
Dans la liste déroulante Type de visualisation, vérifiez que Barre est sélectionnée.
Décochez la case Graphique horizontal.
Modifiez le type d'agrégation pour les colonnes y de Sum à Moyenne.
Cliquez sur Enregistrer.
Étapes suivantes
Pour en savoir plus sur les principaux outils utilisés et les tâches que vous pouvez effectuer avec l’espace de travail Data Science & Engineering de Databricks, consultez :
- Présentation d’Azure Databricks
- Naviguer dans l’espace de travail
- Présentation des notebooks et visualisations Databricksdans les notebooks Databricks
- Bibliothèques
- Calcul et introduction aux workflows Azure Databricks
- Charger des données à l'aide de l'interface utilisateur d'ajout de données et créer ou modifier une table à l'aide du téléchargement de fichiers
- Qu’est-ce que Catalog Explorer ?
- Outils et conseils de développement
- Partenaires technologiques