Utiliser Python pour Apache Spark
Important
Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici.
Microsoft Fabric fournit une prise en charge intégrée de Python pour Apache Spark. Cela inclut la prise en charge de PySpark, qui permet aux utilisateurs d’interagir avec Spark à l’aide d’interfaces Spark ou Python familières. Vous pouvez analyser des données à l’aide de Python via des définitions de travaux par lots Spark ou avec des notebooks Fabric interactifs. Ce document fournit une vue d’ensemble du développement d’applications Spark dans Synapse à l’aide du langage Python.
Créer et exécuter des sessions de notebook
Le notebook Microsoft Fabric est une interface web qui vous permet de créer des fichiers qui contiennent du code en direct, des visualisations et du texte narratif. Les notebooks constituent un bon endroit où valider des idées et effectuer des expérimentations rapides pour extraire des insights de vos données. Les notebooks sont également largement utilisés pour la préparation et la visualisation de données, l’apprentissage automatique et d’autres scénarios en lien avec le Big Data.
Pour commencer à utiliser Python dans les notebooks Microsoft Fabric, modifiez le langage principal en haut de votre bloc-notes en définissant l’option de langue sur PySpark (Python).
Par ailleurs, vous pouvez utiliser plusieurs langages dans un même bloc-notes en spécifiant la commande magic du langage au début d’une cellule.
%%pyspark
# Enter your Python code here
Pour en savoir plus sur les notebooks dans Microsoft Fabric Analytics, consultez Utilisation des notebooks.
Installer des packages
Les bibliothèques fournissent du code réutilisable que vous pouvez inclure dans vos programmes ou projets. Pour mettre à la disposition de vos applications du code tiers ou créé localement, vous pouvez installer une bibliothèque sur l’une de vos sessions d’espace de travail ou de notebook.
Pour en savoir plus sur la gestion des bibliothèques Python, consultez Gestion des bibliothèques Python.
Utilitaires de notebook
Microsoft Spark Utilities (MSSparkUtils) est un package intégré qui vous permet d’effectuer aisément des tâches courantes. Vous pouvez utiliser MSSparkUtils pour travailler efficacement avec des systèmes de fichiers, pour récupérer des variables d’environnement, chaîner des notebooks et utiliser des secrets. MSSparkUtils est pris en charge pour les notebooks PySpark.
Pour commencer, vous pouvez exécuter les commandes suivantes :
from notebookutils import mssparkutils
mssparkutils.notebook.help()
Pour en savoir plus sur les commandes MSSparkUtils prises en charge, consultez Utiliser les utilitaires Microsoft Spark.
Utiliser Pandas sur Spark
L’API Pandas sur Spark vous permet de mettre à l’échelle votre charge de travail Pandas à n’importe quelle taille en l’exécutant distribuée sur plusieurs nœuds. Si vous êtes déjà familiarisé avec pandas et que vous souhaitez tirer parti de Spark pour le Big Data, l’API pandas sur Spark vous rend immédiatement productif et vous permet de migrer vos applications sans modifier le code. Vous pouvez avoir un codebase unique qui fonctionne à la fois avec pandas (tests, jeux de données plus petits) et avec Spark (jeux de données de production, distribués) et vous pouvez basculer entre l’API pandas et l’API Pandas sur Spark facilement et sans surcharge.
Runtime Python
Microsoft Fabric Runtime est un environnement organisé optimisé pour la science des données et le Machine Learning. Le runtime Microsoft Fabric offre une gamme de bibliothèques open source Python populaires, y compris des bibliothèques telles que Pandas, PyTorch, Scikit-Learn, XGBoost, etc.
Visualisation Python
L’écosystème Python offre plusieurs bibliothèques de graphiques qui sont fournies avec de nombreuses fonctionnalités différentes. Par défaut, chaque instance Spark dans Microsoft Fabric contient un ensemble de bibliothèques open source organisées et populaires. Vous pouvez également ajouter ou gérer des bibliothèques ou des versions supplémentaires à l’aide des fonctionnalités de gestion des bibliothèques Microsoft Fabric.
Pour en savoir plus sur la création de visualisations Python, consultez visualisation Python.
Étapes suivantes
- Découvrez comment utiliser l’API Pandas sur Apache Spark : API Pandas sur Apache Spark
- Gérer les bibliothèques Python : gestion des bibliothèques Python
- Visualiser des données dans Python : visualiser des données dans Python