Utiliser Python pour Apache Spark

Microsoft Fabric fournit une prise en charge Python intégrée pour Apache Spark. Cela inclut la prise en charge de PySpark, qui permet aux utilisateurs d’interagir avec Spark à l’aide d’interfaces Spark ou Python familières. Vous pouvez analyser des données à l’aide de Python via des définitions de tâches par lots Spark ou avec des blocs-notes Fabric interactifs. Ce document fournit une vue d’ensemble du développement d’applications Spark dans Synapse à l’aide du langage Python.

Créer et exécuter des sessions de notebook

Le notebook Microsoft Fabric est une interface Web qui vous permet de créer des fichiers contenant du code en direct, des visualisations et du texte narratif. Les notebooks constituent un bon endroit où valider des idées et effectuer des expérimentations rapides pour extraire des insights de vos données. Les notebooks sont également largement utilisés pour la préparation et la visualisation de données, l’apprentissage automatique et d’autres scénarios en lien avec le Big Data.

Pour démarrer avec Python dans les blocs-notes Microsoft Fabric, modifiez la langue principale en haut de votre bloc-notes en définissant l’option de langue sur PySpark (Python).

Par ailleurs, vous pouvez utiliser plusieurs langages dans un même bloc-notes en spécifiant la commande magic du langage au début d’une cellule.

%%pyspark
# Enter your Python code here

Pour en savoir plus sur les blocs-notes dans Microsoft Fabric Analytics, voir Comment utiliser les blocs-notes.

Installer des packages

Les bibliothèques fournissent du code réutilisable que vous pouvez inclure dans vos programmes ou projets. Pour qu’un code tiers ou généré localement soit disponible pour vos applications, vous pouvez installer une bibliothèque en ligne dans votre session de notebook, ou l’administrateur de votre espace de travail peut créer un environnement, y installer la bibliothèque et attacher l’environnement en tant qu’espace de travail par défaut dans le paramètre de l’espace de travail.

Pour en savoir plus sur la gestion des bibliothèques dans Microsoft Fabric, consultez Gérer les bibliothèques Apache Spark.

Utilitaires de notebook

Microsoft Spark Utilities (MSSparkUtils) est un package intégré qui vous permet d’effectuer aisément des tâches courantes. Vous pouvez utiliser MSSparkUtils pour travailler efficacement avec des systèmes de fichiers, pour récupérer des variables d’environnement, chaîner des notebooks et utiliser des secrets. MSSparkUtils est pris en charge pour les notebooks PySpark.

Pour commencer, vous pouvez exécuter les commandes suivantes :

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Pour en savoir plus sur les commandes MSSparkUtils prises en charge, consultez Utiliser les utilitaires Microsoft Spark.

Utiliser Pandas sur Spark

L’API Pandas sur Spark vous permet d’adapter votre charge de travail Pandas à n’importe quelle taille en l’exécutant sur plusieurs nœuds. Si vous êtes déjà familiarisé avec les pandas et que vous souhaitez tirer parti de Spark pour le Big Data, l’API pandas sur Spark vous rend immédiatement productif et vous permet de migrer vos applications sans modifier le code. Vous pouvez avoir une seule base de code qui fonctionne à la fois avec les pandas (tests, ensembles de données plus petits) et avec Spark (production, ensembles de données distribués) et vous pouvez basculer entre l’API pandas et l’API Pandas sur Spark facilement et sans surcharge.

Exécution Python

Microsoft Fabric Runtime est un environnement organisé optimisé pour la science des données et l’apprentissage automatique. Le runtime Microsoft Fabric propose une gamme de bibliothèques Python open source populaires, notamment des bibliothèques telles que Pandas, PyTorch, Scikit-Learn, XGBoost, etc.

Visualisation Python

L’écosystème Python propose plusieurs bibliothèques graphiques dotées de nombreuses fonctionnalités différentes. Par défaut, chaque instance Spark dans Microsoft Fabric contient un ensemble de bibliothèques open source organisées et populaires. Vous pouvez également ajouter ou gérer des bibliothèques ou des versions supplémentaires. Pour plus d’informations sur la gestion des bibliothèques, consultez Résumé des meilleures pratiques de gestion des bibliothèques.

Pour en savoir plus sur la création de visualisations Python, consultez Visualisation Python.