Tutoriel : Utiliser un notebook avec Apache Spark pour interroger une base de données KQL

Important

Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici.

Les notebooks sont à la fois des documents lisibles contenant des descriptions et des résultats d’analyse des données, ainsi que des documents exécutables qui peuvent être exécutés pour effectuer une analyse des données. Dans cet article, vous allez apprendre à utiliser un notebook Microsoft Fabric pour lire et écrire des données dans une base de données KQL à l’aide d’Apache Spark. Ce tutoriel utilise des jeux de données et des notebooks précréés dans les environnements d’analytique en temps réel et de Ingénieurs de données dans Microsoft Fabric. Pour plus d’informations sur les notebooks, consultez Utilisation des notebooks Microsoft Fabric.

Plus précisément, vous apprenez à :

  • Créer une base de données KQL
  • Importer un notebook
  • Écrire des données dans une base de données KQL à l’aide d’Apache Spark
  • Interroger des données à partir d’une base de données KQL

Prérequis

1- Créer une base de données KQL

  1. Ouvrez le sélecteur d’expérience en bas du volet de navigation, puis sélectionnez Analyse en temps réel.

  2. Sélectionnez la vignette Base de données KQL (préversion).

    Capture d’écran de la nouvelle vignette de base de données KQL dans Real-Time Analytics.

  3. Dans le champ Nom de la base de données KQL , entrez nycGreenTaxi, puis sélectionnez Créer.

    La base de données KQL a maintenant été créée dans le contexte de l’espace de travail sélectionné.

  4. Copiez l’URI de requête à partir des détails de la base de données carte dans le tableau de bord de la base de données et collez-le quelque part, comme un bloc-notes, pour l’utiliser à une étape ultérieure.

    Capture d’écran des détails de la base de données carte montrant les détails de la base de données. L’option URI de requête intitulée Copier l’URI est mise en surbrillance.

2- Télécharger le notebook New York GreenTaxi

Nous avons créé un exemple de notebook qui vous guide dans toutes les étapes nécessaires pour charger des données dans votre base de données à l’aide du connecteur Spark.

  1. Ouvrez le référentiel d’exemples Fabric sur GitHub pour télécharger le notebook KQL GreenTaxi de New York.

    Capture d’écran du dépôt GitHub montrant le notebook New York GreenTaxi. L’option Raw est mise en surbrillance.

  2. Enregistrez le notebook localement sur votre appareil.

    Notes

    Le notebook doit être enregistré au format de .ipynb fichier.

3- Importer le notebook

Le reste de ce workflow se produit dans la section Ingénieurs de données du produit et utilise un notebook Spark pour charger et interroger des données dans votre base de données KQL.

  1. Ouvrez le sélecteur d’expérience en bas du volet de navigation et sélectionnez Ingénieurs de données.

  2. Sélectionnez Importer un bloc-notes.

    Capture d’écran des options d’élément dans Ingénieurs de données. L’élément intitulé Importer un bloc-notes est mis en surbrillance.

  3. Dans la fenêtre Importer status, sélectionnez Charger.

    Capture d’écran de la fenêtre Importer status. Le bouton intitulé Charger est mis en surbrillance.

  4. Sélectionnez le notebook New York GreenTaxi que vous avez téléchargé à l’étape précédente.

  5. Une fois l’importation terminée, revenez à votre espace de travail pour ouvrir ce notebook.

4- Obtenir des données

Pour interroger votre base de données à l’aide du connecteur Spark, vous devez accorder un accès en lecture et en écriture au conteneur d’objets blob New York GreenTaxi.

Sélectionnez le bouton de lecture pour exécuter les cellules suivantes, ou sélectionnez la cellule et appuyez sur Maj+Entrée. Répétez cette étape pour chaque cellule de code.

Notes

Attendez que la marque d’achèvement case activée s’affiche avant d’exécuter la cellule suivante.

  1. Exécutez la cellule suivante pour activer l’accès au conteneur d’objets blob New York GreenTaxi.

    Capture d’écran de la première cellule de code montrant les informations d’accès au stockage.

  2. Dans KustoURI, collez l’URI de requête que vous avez copié précédemment au lieu du texte de l’espace réservé.

  3. Remplacez le nom de la base de données d’espace réservé par nycGreenTaxi.

  4. Remplacez le nom de la table d’espace réservé par GreenTaxiData.

    Capture d’écran de la deuxième cellule de code montrant les informations de la base de données cible. L’URI de requête, le nom de la base de données et le nom de la table sont mis en surbrillance.

  5. Exécutez la cellule.

  6. Exécutez la cellule suivante pour écrire des données dans votre base de données. L’exécution de cette étape peut prendre quelques minutes.

    Capture d’écran de la troisième cellule de code montrant la commande de mappage de table et d’ingestion.

Votre base de données a maintenant des données chargées dans une table nommée GreenTaxiData.

5- Exécuter le notebook

Exécutez les deux cellules restantes séquentiellement pour interroger les données de votre table. Les résultats montrent les 20 premiers tarifs et distances de taxi les plus élevés et les plus bas enregistrés par année.

Capture d’écran des quatrième et cinquième cellules de code montrant les résultats de la requête.

6- Nettoyer les ressources

Nettoyez les éléments créés en accédant à l’espace de travail dans lequel ils ont été créés.

  1. Dans votre espace de travail, pointez sur le bloc-notes que vous souhaitez supprimer, sélectionnez le menu Plus [...] >Supprimer.

    Capture d’écran de l’espace de travail montrant le menu déroulant du notebook New York GreenTaxi. L’option intitulée Supprimer est mise en surbrillance.

  2. Sélectionnez Supprimer. Vous ne pouvez pas récupérer votre bloc-notes une fois que vous l’avez supprimé.

Étapes suivantes