Effectuer l’apprentissage de modèles Machine Learning

Apache Spark dans Microsoft Fabric permet l'apprentissage automatique avec le Big Data, offrant la possibilité d'obtenir des informations précieuses à partir de grandes quantités de données structurées, non structurées et à évolution rapide. Il existe plusieurs options lors de la formation de modèles d'apprentissage automatique à l'aide d'Apache Spark dans Microsoft Fabric : Apache Spark MLlib, SynapseML et diverses autres bibliothèques open source.

Apache SparkML et MLlib

Apache Spark dans Microsoft Fabric fournit une infrastructure de traitement de données parallèle unifiée, open source, prenant en charge le traitement en mémoire pour dynamiser l'analytique données volumineuses. Le moteur de traitement Spark est élaboré pour permettre des analyses rapides, simples d’utilisation et sophistiquées. De par ses capacités de calcul distribué en mémoire, Spark constitue le choix idéal pour les algorithmes itératifs utilisés dans l’apprentissage automatique et les calculs de graphiques.

Il existe deux bibliothèques Machine Learning évolutives, qui offrent des fonctionnalités de modélisation d’algorithme à cet environnement distribué : MLlib et SparkML. MLib contient l’API d’origine qui vient au-dessus des RDD. SparkML est un package plus récent qui fournit une API de niveau supérieur reposant sur des trames de données pour construire des pipelines ML. SparkML ne prend pas en charge toutes les fonctionnalités de MLlib, mais remplace MLlib en tant que bibliothèque de Machine Learning standard de Spark.

Notes

Vous pouvez en savoir plus sur la création d'un modèle SparkML dans l'article Entraîner des modèles avec Apache Spark MLlib.

Le runtime Microsoft Fabric pour Apache Spark comprend plusieurs packages open source populaires pour la formation de modèles d'apprentissage automatique. Ces bibliothèques fournissent du code réutilisable que vous pouvez inclure dans vos programmes ou projets. Parmi les bibliothèques de Machine Learning pertinentes qui sont incluses par défaut, citons :

  • Scikit-learn est l’une des bibliothèques les plus populaires de Machine Learning à nœud unique pour les algorithmes classiques de ML. Scikit-learn prend en charge la plupart des algorithmes d’apprentissage supervisés et non supervisés et peut également être utilisée pour l’exploration et l’analyse des données.

  • XGBoost est une bibliothèque populaire de Machine Learning qui contient des algorithmes optimisés pour la formation des arbres de décision et des forêts aléatoires.

  • PyTorch & Tensorflow sont de puissantes bibliothèques de deep learning en Python. Vous pouvez utiliser ces bibliothèques pour créer des modèles à machine unique en définissant le nombre d'exécuteurs sur votre pool sur zéro. Même si Apache Spark ne fonctionne pas dans le cadre de cette configuration, il s’agit d’un moyen simple et économique de créer des modèles à une seule machine.

SynapseML

SynapseML (anciennement connu sous le nom de MMLSpark) est une bibliothèque open source qui simplifie la création de pipelines d'apprentissage automatique (ML) massivement évolutifs. Cette bibliothèque est conçue pour améliorer la productivité des scientifiques des données sur Spark, accroître le taux d’expérimentation et tirer parti des techniques de Machine Learning de pointe, notamment le Deep Learning, sur des jeux de données volumineux.

SynapseML fournit une couche au-dessus des API de bas niveau de SparkML lors de la création de modèles ML évolutifs, tels que l'indexation de chaînes, la contrainte de données dans une mise en page attendue par les algorithmes d'apprentissage automatique et l'assemblage de vecteurs de caractéristiques. La bibliothèque SynapseML simplifie ces tâches et d'autres tâches courantes pour la création de modèles dans PySpark.

Cet article fournit une vue d'ensemble des différentes options pour former des modèles d'apprentissage automatique dans Apache Spark dans Microsoft Fabric. Vous pouvez en savoir plus sur la formation des modèles en suivant le tutoriel ci-dessous :