Présentation de Spark Machine Learning sur les Clusters Big Data SQL Server

S’applique à : SQL Server 2019 (15.x)

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Cet article explique comment utiliser Spark pour Machine Learning sur les Clusters Big Data SQL Server.

Spark Machine Learning dans les Clusters Big Data SQL Server

Les Clusters Big Data SQL Server permettent des scénarios et des solutions de machine learning qui utilisent différentes piles technologiques : SQL Server Machine Learning Services et Apache Spark ML.

Pour savoir quand utiliser chaque pile technologique, consultez le Guide du machine learning pour les Clusters Big Data SQL Server. Ce guide aborde Apache Spark ML.

Pour les scénarios de machine learning basés sur le Big Data, l’utilisation de HDFS pour l’hébergement du Big Data et des capacités d’Apache Spark ML est une approche plus rentable, scalable et puissante. Toutefois, la liste des possibilités offertes par Spark Machine Learning est loin d’être exhaustive. Pour obtenir la liste complète des fonctionnalités, consultez Spark MLlib.

La section suivante fournit une liste organisée de scénarios et de références pour Spark dans les Clusters Big Data SQL Server.

Composants de Spark Machine Learning sur les Clusters Big Data SQL Server

Learn Contenu Lien
Runtime des Clusters Big Data SQL Server pour Apache Spark Indique ce qui est inclus dans chaque version Guide du runtime des Clusters Big Data SQL Server pour Apache Spark
Pool de stockage Comment stocker et utiliser HDFS + Spark ensemble afin de déverrouiller les données pour le machine learning Présentation du pool de stockage dans les Clusters Big Data SQL Server
Utiliser des expériences basées sur les notebooks en plus des outils de votre choix Connecter un point de terminaison Spark-Livy à l’aide des outils de votre choix Envoyer des travaux Spark sur les Clusters Big Data SQL Server dans Azure Data Studio
Envoyer des travaux Spark sur un cluster Big Data SQL Server dans Visual Studio Code
Utiliser sparklyr dans un cluster Big Data SQL Server
Comment installer des packages supplémentaires Si un package n’est pas fourni prêt à l’emploi, l’installer Gestion de la bibliothèque Spark
Comment résoudre les problèmes En cas d’interruption Résoudre les problèmes d’un notebook pyspark
Déboguer et diagnostiquer des applications Spark sur les Clusters Big Data SQL Server dans le serveur d’historique Spark
Comment envoyer des programmes de traitement par lots de machine learning Lancer l’exécution de l’entraînement ML et du scoring par lots avec la ligne de commande Soumettre des travaux Spark à l’aide d’outils de ligne de commande
Comment déplacer rapidement des données entre SQL Server et Spark Définissez SQL Server comme source et/ou destination de vos scénarios Spark ML. L’utilisation de HDFS n’est pas obligatoire Utiliser le connecteur Apache Spark pour SQL Server et Azure SQL
Opérationnalisation du modèle Spark Après l’entraînement, effectuer l’opérationnalisation à l’aide de MLeap Créer, exporter et scorer des modèles de machine learning Spark sur les Clusters Big Data SQL Server
Data wrangling En plus des fonctionnalités de data wrangling puissantes de Spark, nous fournissons PROSE Data wrangling avec l’accélérateur de code PROSE

Étapes suivantes

Pour plus d’informations, consultez Présentation des Clusters Big Data SQL Server.