Partager via


Tutoriel : utiliser un notebook avec Apache Spark pour interroger une base de données KQL

Les notebooks sont à la fois des documents lisibles contenant des descriptions et des résultats d’analyse des données, ainsi que des documents exécutables qui peuvent être exécutés pour effectuer une analyse des données. Dans cet article, vous allez apprendre à utiliser un notebook Microsoft Fabric pour lire et écrire des données dans une base de données KQL à l’aide d’Apache Spark. Ce tutoriel utilise des jeux de données et des notebooks précréés dans les environnements Real-Time Intelligence et Ingénieurs de données dans Microsoft Fabric. Pour plus d’informations sur les notebooks, consultez Utilisation des notebooks Microsoft Fabric.

Plus précisément, vous allez découvrir comment :

  • Créer une base de données KQL
  • Importer un notebook
  • Écrire des données dans une base de données KQL à l’aide d’Apache Spark
  • Interroger des données à partir d’une base de données KQL

Prérequis

1- Créer une base de données KQL

  1. Ouvrez le sélecteur d’expérience en bas du volet de navigation et sélectionnez Real-Time Intelligence.

  2. Sélectionnez la mosaïque de base de données KQL.

    Capture d’écran de la vignette d’une nouvelle base de données KQL dans Real-Time Intelligence.

  3. Dans le champ Nom de la base de données KQL, entrez nycGreenTaxi, puis sélectionnez Créer.

    La base de données KQL est créée dans le contexte de l’espace de travail sélectionné.

  4. Copiez l’URI de requête à partir des détails de la base de données carte dans le tableau de bord de la base de données et collez-le quelque part, comme un bloc-notes, pour l’utiliser dans une étape ultérieure.

     Capture d'écran de la carte des détails de la base de données qui montre les détails de la base de données. L'option URI de requête intitulée Copier l’URI est mise en évidence.

2- Télécharger le notebook NYC GreenTaxi

Nous avons créé un exemple de notebook qui vous guide tout au long des étapes nécessaires pour charger des données dans votre base de données à l’aide du connecteur Spark.

  1. Ouvrez le référentiel d’exemples Fabric sur GitHub pour télécharger le notebook NYC GreenTaxi KQL.

    Capture d'écran du référentiel GitHub montrant le notebook NYC GreenTaxi. L'option intitulée Brut est mise en évidence.

  2. Enregistrez le notebook localement sur votre appareil.

    Remarque

    Le notebook doit être enregistré au format de fichier .ipynb.

3- Importer le notebook

Le reste de ce workflow se produit dans la section Engineering données du produit et utilise un notebook Spark pour charger et interroger des données dans votre base de données KQL.

  1. Ouvrez le sélecteur d’expérience en bas du volet de navigation, puis sélectionnez Développer, puis votre espace de travail.

  2. Sélectionnez Importer>Bloc-notes>Depuis cet ordinateur>Télécharger,puis choisissez le bloc-notes NYC GreenTaxi que vous avez téléchargé à une étape précédente.

    Capture d'écran de la fenêtre d'état de l'importation. Le bouton intitulé Charger est en surbrillance.

  3. Une fois l’importation terminée, ouvrez le bloc-notes importé depuis votre espace de travail.

4- Obtenir des données

Pour interroger votre base de données à l’aide du connecteur Spark, vous devez accorder un accès en lecture et en écriture au conteneur d’objets blob NYC GreenTaxi.

Sélectionnez le bouton lecture pour exécuter les cellules suivantes, ou sélectionnez la cellule et appuyez sur Maj + Entrée. Répétez cette étape pour chaque cellule de code.

Remarque

Attendez que la coche d'achèvement apparaisse avant d'exécuter la cellule suivante.

  1. Exécutez la cellule suivante pour activer l’accès au conteneur d’objets blob NYC GreenTaxi.

    Capture d’écran de la première cellule de code indiquant les informations d’accès au stockage.

  2. Dans KustoURI, collez l’URI de requête que vous avez copié précédemment au lieu du texte de l’espace réservé.

  3. Remplacez le nom de l’espace réservé de base de données par nycGreenTaxi.

  4. Remplacez le nom de l’espace réservé de table par GreenTaxiData.

    Capture d'écran d’une seconde cellule de code montrant les informations sur la base de données cible. L'URI de la requête, le nom de la base de données et le nom de la table sont mis en évidence.

  5. Exécutez la cellule.

  6. Exécutez la cellule suivante pour écrire des données dans votre base de données. Attendez quelques minutes que cette étape se termine.

    Capture d’écran de la troisième cellule de code montrant la commande de mappage de table et d’ingestion.

Les données de votre base de données sont désormais chargées dans une table nommée GreenTaxiData.

5- Exécuter le notebook

Exécutez les deux cellules restantes séquentiellement pour interroger les données de votre table. Les résultats montrent les 20 premiers prix de course et distances de taxi les plus élevés et les plus bas enregistrés par année.

Capture d’écran de la quatrième et cinquième cellule de code indiquant les résultats de la requête.

6- Nettoyer les ressources

Nettoyez les éléments créés en accédant à l’espace de travail dans lequel ils ont été créés.

  1. Dans votre espace de travail, pointez sur le notebook que vous souhaitez supprimer, sélectionnez le Menu Plus [...] >Supprimer.

    Capture d'écran de l'espace de travail montrant le menu déroulant du notebook NYC GreenTaxi. L'option intitulée Supprimer est en surbrillance.

  2. Sélectionnez Supprimer. Vous ne pouvez pas récupérer votre notebook une fois que vous l’avez supprimé.