Présentation de Spark Machine Learning sur les Clusters Big Data SQL Server

Article
03/21/2023

S’applique à : SQL Server 2019 (15.x)

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Cet article explique comment utiliser Spark pour Machine Learning sur les Clusters Big Data SQL Server.

Spark Machine Learning dans les Clusters Big Data SQL Server

Les Clusters Big Data SQL Server permettent des scénarios et des solutions de machine learning qui utilisent différentes piles technologiques : SQL Server Machine Learning Services et Apache Spark ML.

Pour savoir quand utiliser chaque pile technologique, consultez le Guide du machine learning pour les Clusters Big Data SQL Server. Ce guide aborde Apache Spark ML.

Pour les scénarios de machine learning basés sur le Big Data, l’utilisation de HDFS pour l’hébergement du Big Data et des capacités d’Apache Spark ML est une approche plus rentable, scalable et puissante. Toutefois, la liste des possibilités offertes par Spark Machine Learning est loin d’être exhaustive. Pour obtenir la liste complète des fonctionnalités, consultez Spark MLlib.

La section suivante fournit une liste organisée de scénarios et de références pour Spark dans les Clusters Big Data SQL Server.

Composants de Spark Machine Learning sur les Clusters Big Data SQL Server

Learn	Contenu	Lien
Runtime des Clusters Big Data SQL Server pour Apache Spark	Indique ce qui est inclus dans chaque version	Guide du runtime des Clusters Big Data SQL Server pour Apache Spark
Pool de stockage	Comment stocker et utiliser HDFS + Spark ensemble afin de déverrouiller les données pour le machine learning	Présentation du pool de stockage dans les Clusters Big Data SQL Server
Utiliser des expériences basées sur les notebooks en plus des outils de votre choix	Connecter un point de terminaison Spark-Livy à l’aide des outils de votre choix	Envoyer des travaux Spark sur les Clusters Big Data SQL Server dans Azure Data Studio Envoyer des travaux Spark sur un cluster Big Data SQL Server dans Visual Studio Code Utiliser sparklyr dans un cluster Big Data SQL Server
Comment installer des packages supplémentaires	Si un package n’est pas fourni prêt à l’emploi, l’installer	Gestion de la bibliothèque Spark
Comment résoudre les problèmes	En cas d’interruption	Résoudre les problèmes d’un notebook `pyspark` Déboguer et diagnostiquer des applications Spark sur les Clusters Big Data SQL Server dans le serveur d’historique Spark
Comment envoyer des programmes de traitement par lots de machine learning	Lancer l’exécution de l’entraînement ML et du scoring par lots avec la ligne de commande	Soumettre des travaux Spark à l’aide d’outils de ligne de commande
Comment déplacer rapidement des données entre SQL Server et Spark	Définissez SQL Server comme source et/ou destination de vos scénarios Spark ML. L’utilisation de HDFS n’est pas obligatoire	Utiliser le connecteur Apache Spark pour SQL Server et Azure SQL
Opérationnalisation du modèle Spark	Après l’entraînement, effectuer l’opérationnalisation à l’aide de MLeap	Créer, exporter et scorer des modèles de machine learning Spark sur les Clusters Big Data SQL Server
Data wrangling	En plus des fonctionnalités de data wrangling puissantes de Spark, nous fournissons PROSE	Data wrangling avec l’accélérateur de code PROSE

Étapes suivantes

Pour plus d’informations, consultez Présentation des Clusters Big Data SQL Server.

Partager via

Présentation de Spark Machine Learning sur les Clusters Big Data SQL Server

Spark Machine Learning dans les Clusters Big Data SQL Server

Composants de Spark Machine Learning sur les Clusters Big Data SQL Server

Étapes suivantes

Commentaires

Ressources supplémentaires