Entraîner des modèles d'apprentissage automatique

Apache Spark dans Azure Synapse Analytics permet l’apprentissage automatique avec le Big Data, en offrant la possibilité d’extraire de précieuses informations de grandes quantités de données structurées, non structurées et à déplacement rapide. Il existe plusieurs options pour effectuer l’apprentissage de modèles Machine Learning à l’aide d’Azure Spark dans Azure Synapse Analytics : Apache Spark MLlib, Azure Machine Learning et diverses autres bibliothèques open source.

Apache SparkML et MLlib

Apache Spark dans Azure Synapse Analytics est l’une des implémentations par Microsoft d’Apache Spark dans le cloud. Il fournit une infrastructure de traitement de données parallèle, open source et unifiée qui prend en charge le traitement en mémoire pour améliorer l’analytique du Big Data. Le moteur de traitement Spark est élaboré pour permettre des analyses rapides, simples d’utilisation et sophistiquées. De par ses capacités de calcul distribué en mémoire, Spark constitue le choix idéal pour les algorithmes itératifs utilisés dans l’apprentissage automatique et les calculs de graphiques.

Il existe deux bibliothèques Machine Learning évolutives, qui offrent des fonctionnalités de modélisation d’algorithme à cet environnement distribué : MLlib et SparkML. MLlib contient l’API d’origine construite sur les RDD. SparkML est un package plus récent qui fournit une API de niveau supérieur reposant sur des trames de données pour construire des pipelines ML. SparkML ne prend pas en charge toutes les fonctionnalités de MLlib, mais remplace MLlib en tant que bibliothèque de Machine Learning standard de Spark.

Note

Vous pouvez en savoir plus sur la création d’un modèle SparkML en suivant ce tutoriel.

Bibliothèques populaires

Chaque pool Apache Spark dans Azure Synapse Analytics est fourni avec un ensemble de bibliothèques Machine Learning préchargées et populaires. Ces bibliothèques fournissent du code réutilisable que vous pouvez inclure dans vos programmes ou projets. Parmi les bibliothèques de Machine Learning pertinentes qui sont incluses par défaut, citons :

Scikit-learn est l’une des bibliothèques les plus populaires de Machine Learning à nœud unique pour les algorithmes classiques de ML. Scikit-learn prend en charge la plupart des algorithmes d’apprentissage supervisés et non supervisés et peut également être utilisée pour l’exploration et l’analyse des données.
XGBoost est une bibliothèque populaire de Machine Learning qui contient des algorithmes optimisés pour la formation des arbres de décision et des forêts aléatoires.
PyTorch et TensorFlow sont des bibliothèques puissantes de Deep Learning en Python. Au sein d’un pool Apache Spark dans Azure Synapse Analytics, vous pouvez utiliser ces bibliothèques pour construire des modèles de machine unique en fixant à zéro le nombre d’Exécuteurs sur votre pool. Même si Apache Spark ne fonctionne pas dans le cadre de cette configuration, il s’agit d’un moyen simple et économique de créer des modèles à une seule machine.

Pour en savoir plus sur les bibliothèques disponibles et les versions associées, consultez le runtime Azure Synapse Analytics publié.

MMLSpark

La bibliothèque Microsoft Machine Learning pour Apache Spark est MMLSpark. Cette bibliothèque est conçue pour améliorer la productivité des scientifiques des données sur Spark, accroître le taux d’expérimentation et tirer parti des techniques de Machine Learning de pointe, notamment le Deep Learning, sur des jeux de données volumineux.

MMLSpark crée une couche au-dessus des API de bas niveau de SparkML lors de la création de modèles ML évolutifs (comme des chaînes d’indexation), lors du formatage de données dans une disposition compatibles avec les algorithmes de Machine Learning et lors de l’assemblage de vecteurs de caractéristiques. La bibliothque MMLSpark simplifie ces opérations ainsi que d’autres tâches courantes permettant de créer des modèles dans PySpark.

Outils de fonderie

Les outils Foundry offrent des fonctionnalités d’apprentissage automatique pour résoudre des problèmes généraux tels que l’analyse de texte pour le sentiment émotionnel ou l’analyse d’images pour reconnaître des objets ou des visages. Pour utiliser ces services, vous n’avez pas besoin de connaissances spéciales en matière de Machine Learning ou de science des données. Un service cognitif fournit tout ou partie des composants d’une solution de Machine Learning : données, algorithme et modèle formé. Ces services requièrent une connaissance générale de vos données mais ne nécessitent aucune expérience en Machine Learning ou en science des données. Vous pouvez tirer parti de ces outils Foundry préentraînés automatiquement dans Azure Synapse Analytics.

Étapes suivantes

Cet article fournit une vue d’ensemble des différentes options d’apprentissage des modèles Machine Learning dans les pools Apache Spark dans Azure Synapse Analytics. Vous pouvez en savoir plus sur la formation des modèles en suivant le tutoriel ci-dessous :

Exécuter des expériences ML automatisées à l’aide d’Azure Machine Learning et Azure Synapse Analytics : Tutoriel ML automatisé
Exécuter des expériences SparkML : Tutoriel Apache SparkML
Afficher les bibliothèques par défaut : Environnement d'exécution Azure Synapse Analytics

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-02-13