Obtenir des données de streaming dans lakehouse et y accéder avec un point de terminaison SQL

Ce guide de démarrage rapide explique comment créer une définition de travail Spark qui contient du code Python avec Spark Structured Streaming pour atterrir des données dans un lakehouse, puis les servir via un point de terminaison SQL. Après avoir terminé ce démarrage rapide, vous disposez d’une définition de travail Spark qui s’exécute en continu et le point de terminaison SQL peut afficher les données entrantes.

Important

Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici.

Créer un script Python

  1. Utilisez le code Python suivant qui utilise le streaming structuré Spark pour obtenir des données dans une table lakehouse.

    Capture d’écran montrant le script Python

  2. Enregistrez votre script en tant que fichier Python (.py) sur votre ordinateur local.

Créer un lakehouse.

Pour créer un lakehouse, procédez comme suit :

  1. Dans Microsoft Fabric, sélectionnez l’expérience Ingénieurs de données Synapse.

  2. Accédez à l’espace de travail souhaité ou créez-en un si nécessaire.

  3. Pour créer un lakehouse, sélectionnez l’icône Lakehouse sous la section Nouveau dans le volet main.

    Capture d’écran montrant la nouvelle boîte de dialogue lakehouse

  4. Entrez le nom de votre lakehouse, puis sélectionnez Créer.

Créer une définition de travail Spark

Procédez comme suit pour créer une définition de travail Spark :

  1. Dans l’espace de travail où vous avez créé un lakehouse, sélectionnez l’icône Créer dans le menu de gauche.

  2. Sous « Ingénieurs de données », sélectionnez Définition de travail Spark.

    Capture d’écran montrant la nouvelle boîte de dialogue Définition de travail Spark

  3. Entrez le nom de votre définition de travail Spark, puis sélectionnez Créer.

  4. Sélectionnez Charger , puis sélectionnez le fichier Python que vous avez créé à l’étape précédente.

  5. Sous Référence Lakehouse , choisissez le lakehouse que vous avez créé.

Définir la stratégie de nouvelle tentative pour la définition de travail Spark

Utilisez les étapes suivantes pour définir la stratégie de nouvelle tentative pour votre définition de travail Spark :

  1. Dans le menu supérieur, sélectionnez l’icône Paramètre .

    Capture d’écran montrant l’icône des paramètres de définition de travail Spark

  2. Ouvrez l’onglet Optimisation et définissez le déclencheur Stratégie de nouvelle tentativeActivé.

    Capture d’écran montrant l’onglet Optimisation de la définition de travail Spark

  3. Définissez le nombre maximal de nouvelles tentatives ou case activée Autoriser les tentatives illimitées.

  4. Spécifiez le temps entre chaque nouvelle tentative et sélectionnez Appliquer.

Exécuter et surveiller la définition de travail Spark

  1. Dans le menu supérieur, sélectionnez l’icône Exécuter .

    Capture d’écran montrant l’icône d’exécution d’une définition de travail Spark

  2. Vérifiez si la définition du travail Spark a été envoyée et en cours d’exécution.

Afficher des données à l’aide d’un point de terminaison SQL

  1. Dans la vue espace de travail, sélectionnez votre Lakehouse.

  2. Dans le coin droit, sélectionnez Lakehouse , puis point de terminaison SQL.

  3. Dans la vue Point de terminaison SQL sous Tables, sélectionnez la table que votre script utilise pour atterrir des données. Vous pouvez ensuite afficher un aperçu de vos données à partir du point de terminaison SQL.

Étapes suivantes