Obtenir des données de streaming dans lakehouse et y accéder avec un point de terminaison SQL
Ce guide de démarrage rapide explique comment créer une définition de travail Spark qui contient du code Python avec Spark Structured Streaming pour atterrir des données dans un lakehouse, puis les servir via un point de terminaison SQL. Après avoir terminé ce démarrage rapide, vous disposez d’une définition de travail Spark qui s’exécute en continu et le point de terminaison SQL peut afficher les données entrantes.
Important
Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici.
Créer un script Python
Utilisez le code Python suivant qui utilise le streaming structuré Spark pour obtenir des données dans une table lakehouse.
Enregistrez votre script en tant que fichier Python (.py) sur votre ordinateur local.
Créer un lakehouse.
Pour créer un lakehouse, procédez comme suit :
Dans Microsoft Fabric, sélectionnez l’expérience Ingénieurs de données Synapse.
Accédez à l’espace de travail souhaité ou créez-en un si nécessaire.
Pour créer un lakehouse, sélectionnez l’icône Lakehouse sous la section Nouveau dans le volet main.
Entrez le nom de votre lakehouse, puis sélectionnez Créer.
Créer une définition de travail Spark
Procédez comme suit pour créer une définition de travail Spark :
Dans l’espace de travail où vous avez créé un lakehouse, sélectionnez l’icône Créer dans le menu de gauche.
Sous « Ingénieurs de données », sélectionnez Définition de travail Spark.
Entrez le nom de votre définition de travail Spark, puis sélectionnez Créer.
Sélectionnez Charger , puis sélectionnez le fichier Python que vous avez créé à l’étape précédente.
Sous Référence Lakehouse , choisissez le lakehouse que vous avez créé.
Définir la stratégie de nouvelle tentative pour la définition de travail Spark
Utilisez les étapes suivantes pour définir la stratégie de nouvelle tentative pour votre définition de travail Spark :
Dans le menu supérieur, sélectionnez l’icône Paramètre .
Ouvrez l’onglet Optimisation et définissez le déclencheur Stratégie de nouvelle tentativeActivé.
Définissez le nombre maximal de nouvelles tentatives ou case activée Autoriser les tentatives illimitées.
Spécifiez le temps entre chaque nouvelle tentative et sélectionnez Appliquer.
Exécuter et surveiller la définition de travail Spark
Dans le menu supérieur, sélectionnez l’icône Exécuter .
Vérifiez si la définition du travail Spark a été envoyée et en cours d’exécution.
Afficher des données à l’aide d’un point de terminaison SQL
Dans la vue espace de travail, sélectionnez votre Lakehouse.
Dans le coin droit, sélectionnez Lakehouse , puis point de terminaison SQL.
Dans la vue Point de terminaison SQL sous Tables, sélectionnez la table que votre script utilise pour atterrir des données. Vous pouvez ensuite afficher un aperçu de vos données à partir du point de terminaison SQL.