Tutoriel : Interroger et visualiser des données à partir d’un notebook

Ce tutoriel vous guide tout au long de l’utilisation d’un notebook Azure Databricks pour interroger des exemples de données stockés dans le catalogue Unity à l’aide de SQL, Python, Scala et R, puis visualiser les résultats de la requête dans le notebook.

Tip

Indiquez au code Genie (mode Agent) de le faire pour vous :

Create a new notebook that queries @samples.nyctaxi.trips and displays a bar chart showing the average fare amount by trip distance, grouped by the pickup zip code.

Spécifications

Pour effectuer les tâches décrites dans cet article, vous devez répondre aux exigences suivantes :

  • Votre espace de travail doit avoir le catalogue Unity activé. Pour plus d’informations sur la prise en main du catalogue Unity, consultez Prise en main du catalogue Unity.
  • Vous devez avoir l’autorisation d’utiliser une ressource de calcul existante ou d’en créer une. Consultez Calcul ou consultez votre administrateur Databricks.

Étape 1 : créer un notebook

Pour créer un bloc-notes dans votre espace de travail, cliquez sur Nouvelle icônedans la barre latérale, puis sur Bloc-notes. Un notebook vide s’ouvre dans l’espace de travail.

Pour en savoir plus sur la création et la gestion de blocs-notes, consultez Gérer les blocs-notes.

Étape 2 : interroger une table

Interrogez la table samples.nyctaxi.trips dans Unity Catalog en utilisant le langage de votre choix.

  1. Copiez et collez le code suivant dans la nouvelle cellule de notebook vide. Ce code affiche les résultats de l’interrogation de la table samples.nyctaxi.trips dans Unity Catalog.

    SQL

    SELECT * FROM samples.nyctaxi.trips
    

    Python

    display(spark.read.table("samples.nyctaxi.trips"))
    

    Langage de programmation Scala

    display(spark.read.table("samples.nyctaxi.trips"))
    

    R

    library(SparkR)
    display(sql("SELECT * FROM samples.nyctaxi.trips"))
    
  2. Appuyez sur Shift+Enter pour exécuter la cellule et passer à la cellule suivante.

    Les résultats de la requête s’affichent dans le notebook.

Étape 3 : afficher les données

Affichez le tarif moyen par distance du trajet, regroupés par le code postal de prise en charge.

  1. En regard de l’onglet Tableau , cliquez + , puis cliquez sur Visualisation.

    L'éditeur de visualisation est affiché.

  2. Dans la liste déroulante Type de visualisation , vérifiez que la barre est sélectionnée.

  3. Sélectionnez fare_amount pour la colonne X.

  4. Sélectionnez trip_distance pour la Colonne Y.

  5. Sélectionnez Average comme type d’agrégation.

  6. Sélectionnez pickup_zip pour la colonne Regrouper par.

    Graphique à barres

  7. Cliquez sur Enregistrer.

Étapes suivantes