Einführung von Spark Machine Learning auf SQL Server-Big Data-Cluster
Gilt für: SQL Server 2019 (15.x)
Wichtig
Das Microsoft SQL Server 2019-Big Data-Cluster-Add-On wird eingestellt. Der Support für SQL Server 2019-Big Data-Clusters endet am 28. Februar 2025. Alle vorhandenen Benutzer*innen von SQL Server 2019 mit Software Assurance werden auf der Plattform vollständig unterstützt, und die Software wird bis zu diesem Zeitpunkt weiterhin über kumulative SQL Server-Updates verwaltet. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und unter Big Data-Optionen auf der Microsoft SQL Server-Plattform.
In diesem Artikel wird erläutert, wie Sie Spark effektiv für Machine Learning auf Big Data-Cluster für SQL Server verwenden.
Spark Machine Learning Services in SQL Server-Big Data-Clustern
SQL Server-Big Data-Cluster ermöglicht Machine Learning-Szenarios und -Lösungen mithilfe verschiedener Technologiestapel: SQL Server Machine Learning Services und Apache Spark ML.
Um besser zu verstehen, wann die einzelnen Technologiestapel verwendet werden sollten, lesen Sie den Machine Learning Leitfaden für SQL Server-Big Data-Cluster. Dieser Leitfaden behandelt Apache Spark ML.
Für Big Data-basierte Machine Learning-Szenarios ist die Verwendung von HDFS für Big Data-Hosting und Apache Spark ML-Funktionen ein kostengünstigerer, skalierbarer und leistungsfähigerer Ansatz. Dies ist jedoch keine vollständige Liste der Möglichkeiten, was mit Spark Machine Learning erreicht werden kann. Eine vollständige Liste der Features finden Sie unter Spark MLlib.
Der nächste Abschnitt enthält eine zusammengestellte Liste von Szenarios und Verweisen für Spark in SQL Server-Big Data-Cluster.
Bausteine für Spark Machine Learning auf SQL Server-Big Data-Clustern
Learn | Inhalte | Link |
---|---|---|
Die Runtime von SQL Server-Big Data-Cluster für Apache Spark | Dies zeigt, was in jedem Release enthalten ist. | Die Runtime von SQL Server-Big Data-Cluster für Apache Spark-Leitfaden |
Der Speicherpool | Speichern und Verwenden von HDFS und Spark zum Entsperren von Daten für maschinelles Lernen | Einführung in den Speicherpool in Big Data-Cluster für SQL Server |
Verwenden Sie notebookbasierte Funktionen und Ihre bevorzugten Tools. | Verbinden Sie den Endpunkt von Spark-Livy mit Ihren bevorzugten Tools. | Übermitteln von Spark-Aufträgen auf Big Data-Cluster für SQL Server in Azure Data Studio Übermitteln von Spark-Aufträgen an Big-Data-Cluster von SQL Server in Visual Studio Code Verwenden von sparklyr in SQL Server-Big Data-Clustern |
Installieren von zusätzlichen Paketen | Falls ein Paket nicht sofort bereitgestellt wird, installieren Sie es. | Spark-Bibliotheksverwaltung |
Informationen zur Problembehandlung | Für den Fall, dass ein Fehler auftritt | Problembehandlung für pyspark -Notebooks.Debuggen und Diagnostizieren von Spark-Anwendungen auf Big Data-Cluster für SQL Server in Spark History Server |
Übermitteln von Machine Learning-Batchaufträgen | Ausführen von ML Trainings- und Batchbewertung über die Befehlszeile | Übermitteln von Spark-Aufträgen mithilfe von Befehlszeilentools |
Schnelles Verschieben von Daten zwischen SQL Server und Spark | Legen Sie die SQL Server-Quelle und/oder das -Ziel für Ihre Spark-ML-Szenarios fest. Die Verwendung von HDFS ist nicht obligatorisch. | Verwenden des Apache Spark-Connectors für SQL Server und Azure SQL |
Operationalisierung des Spark-Modells | Führen Sie die Operationalisierung nach dem Training mithilfe von MLeap durch. | Erstellen, Exportieren und Bewerten von Machine Learning-Modellen in Spark auf Big Data-Cluster für SQL Server |
Data Wrangling | Zusammen mit den leistungsstarken Data Wrangling-Funktionen von Spark liefern wir PROSE. | Data Wrangling mithilfe von PROSE Code Accelerator |
Nächste Schritte
Weitere Informationen finden Sie hier: Einführung in Big Data-Cluster für SQL Server.