Utiliser Python pour Apache Spark

2024-11-26

Microsoft Fabric fournit une prise en charge Python intégrée pour Apache Spark. La prise en charge inclut PySpark, qui permet aux utilisateurs d’interagir avec Spark à l’aide des interfaces Spark ou Python connues.

Vous pouvez analyser des données à l’aide de Python via des définitions de tâches par lots Spark ou avec des blocs-notes Fabric interactifs. Cet article fournit une vue d’ensemble du développement d’applications Spark dans Synapse en utilisant le langage Python.

Créer et exécuter des sessions de notebook

Le notebook Microsoft Fabric est une interface Web qui vous permet de créer des fichiers contenant du code en direct, des visualisations et du texte narratif. Les notebooks constituent un bon endroit où valider des idées et effectuer des expérimentations rapides pour extraire des insights de vos données. Les notebooks sont également largement utilisés pour la préparation et la visualisation de données, l’apprentissage automatique et d’autres scénarios en lien avec le Big Data.

Pour commencer à utiliser Python dans les notebooks Microsoft Fabric, changez le langage principal en haut de votre notebook en définissant l’option de langage sur PySpark (Python).

%%pyspark
# Enter your Python code here

Vous pouvez utiliser plusieurs langages dans un même notebook en spécifiant la commande magic du langage au début d’une cellule.

Pour en savoir plus sur les notebooks dans Microsoft Fabric Analytics, consultez Comment utiliser les notebooks.

Installer des packages

Les bibliothèques fournissent du code réutilisable que vous pouvez inclure dans vos programmes ou projets. Pour rendre disponible le code partenaire ou le code généré localement pour vos applications, installez une bibliothèque inline dans votre session de notebook. Votre administrateur d’espace de travail peut également créer un environnement, y installer la bibliothèque et attacher l’environnement comme espace de travail par défaut dans le paramètre de l’espace de travail.

Pour en savoir plus sur la gestion des bibliothèques dans Microsoft Fabric, consultez Gérer les bibliothèques Apache Spark.

Utilitaires de notebook

Microsoft Spark Utilities (MSSparkUtils) est un package intégré qui vous permet d’effectuer aisément des tâches courantes. Vous pouvez utiliser MSSparkUtils pour travailler efficacement avec des systèmes de fichiers, pour récupérer des variables d’environnement, chaîner des notebooks et utiliser des secrets. MSSparkUtils est pris en charge pour les notebooks PySpark.

Pour commencer, exécutez les commandes suivantes :

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Pour plus d’informations sur les commandes MSSparkUtils prises en charge, consultez Utiliser les utilitaires Microsoft Spark.

Utiliser Pandas sur Spark

L’API Pandas sur Spark vous permet d’adapter votre charge de travail Pandas à n’importe quelle taille en l’exécutant sur plusieurs nœuds. Si vous êtes déjà familiarisé avec pandas et que vous souhaitez utiliser Spark pour le Big Data, l’API pandas sur Spark vous permet d’être immédiatement productif.

Vous pouvez migrer vos applications sans modifier le code. Vous pouvez avoir une seule codebase qui fonctionne à la fois avec pandas, pour les tests et les jeux de données plus petits, et avec Spark, pour les jeux de données de production et distribués. Vous pouvez passer de l’API pandas à l’API Pandas sur Spark facilement et sans surcharge.

Exécution Python

Microsoft Fabric Runtime est un environnement organisé optimisé pour la science des données et l’apprentissage automatique. Le runtime Microsoft Fabric propose une gamme de bibliothèques Python open source connues, notamment les bibliothèques telles que Pandas, PyTorch, scikit-learn et XGBoost.

Visualisation Python

L'écosystème Python propose plusieurs bibliothèques graphiques avec de nombreuses fonctionnalités différentes. Par défaut, chaque instance Spark dans Microsoft Fabric contient un ensemble de bibliothèques open source organisées et populaires. Vous pouvez également ajouter ou gérer d’autres bibliothèques ou d’autres versions. Pour plus d’informations sur la gestion des bibliothèques, consultez Résumé des meilleures pratiques de gestion des bibliothèques.

Pour en savoir plus sur la création de visualisations Python, consultez Visualisation Python.

Apprenez à utiliser l’API Pandas sur Apache Spark : API Pandas sur Apache Spark
Gérez les bibliothèques Apache Spark dans Microsoft Fabric
Visualiser les données en Python : Visualiser les données en Python

Partager via