Présentation de Spark Machine Learning sur les Clusters Big Data SQL Server
S’applique à : SQL Server 2019 (15.x)
Important
Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.
Cet article explique comment utiliser Spark pour Machine Learning sur les Clusters Big Data SQL Server.
Spark Machine Learning dans les Clusters Big Data SQL Server
Les Clusters Big Data SQL Server permettent des scénarios et des solutions de machine learning qui utilisent différentes piles technologiques : SQL Server Machine Learning Services et Apache Spark ML.
Pour savoir quand utiliser chaque pile technologique, consultez le Guide du machine learning pour les Clusters Big Data SQL Server. Ce guide aborde Apache Spark ML.
Pour les scénarios de machine learning basés sur le Big Data, l’utilisation de HDFS pour l’hébergement du Big Data et des capacités d’Apache Spark ML est une approche plus rentable, scalable et puissante. Toutefois, la liste des possibilités offertes par Spark Machine Learning est loin d’être exhaustive. Pour obtenir la liste complète des fonctionnalités, consultez Spark MLlib.
La section suivante fournit une liste organisée de scénarios et de références pour Spark dans les Clusters Big Data SQL Server.
Composants de Spark Machine Learning sur les Clusters Big Data SQL Server
Learn | Contenu | Lien |
---|---|---|
Runtime des Clusters Big Data SQL Server pour Apache Spark | Indique ce qui est inclus dans chaque version | Guide du runtime des Clusters Big Data SQL Server pour Apache Spark |
Pool de stockage | Comment stocker et utiliser HDFS + Spark ensemble afin de déverrouiller les données pour le machine learning | Présentation du pool de stockage dans les Clusters Big Data SQL Server |
Utiliser des expériences basées sur les notebooks en plus des outils de votre choix | Connecter un point de terminaison Spark-Livy à l’aide des outils de votre choix | Envoyer des travaux Spark sur les Clusters Big Data SQL Server dans Azure Data Studio Envoyer des travaux Spark sur un cluster Big Data SQL Server dans Visual Studio Code Utiliser sparklyr dans un cluster Big Data SQL Server |
Comment installer des packages supplémentaires | Si un package n’est pas fourni prêt à l’emploi, l’installer | Gestion de la bibliothèque Spark |
Comment résoudre les problèmes | En cas d’interruption | Résoudre les problèmes d’un notebook pyspark Déboguer et diagnostiquer des applications Spark sur les Clusters Big Data SQL Server dans le serveur d’historique Spark |
Comment envoyer des programmes de traitement par lots de machine learning | Lancer l’exécution de l’entraînement ML et du scoring par lots avec la ligne de commande | Soumettre des travaux Spark à l’aide d’outils de ligne de commande |
Comment déplacer rapidement des données entre SQL Server et Spark | Définissez SQL Server comme source et/ou destination de vos scénarios Spark ML. L’utilisation de HDFS n’est pas obligatoire | Utiliser le connecteur Apache Spark pour SQL Server et Azure SQL |
Opérationnalisation du modèle Spark | Après l’entraînement, effectuer l’opérationnalisation à l’aide de MLeap | Créer, exporter et scorer des modèles de machine learning Spark sur les Clusters Big Data SQL Server |
Data wrangling | En plus des fonctionnalités de data wrangling puissantes de Spark, nous fournissons PROSE | Data wrangling avec l’accélérateur de code PROSE |
Étapes suivantes
Pour plus d’informations, consultez Présentation des Clusters Big Data SQL Server.