Einführung von Spark Machine Learning auf SQL Server-Big Data-Cluster

Artikel
03/23/2023

Gilt für: SQL Server 2019 (15.x)

Wichtig

Das Microsoft SQL Server 2019-Big Data-Cluster-Add-On wird eingestellt. Der Support für SQL Server 2019-Big Data-Clusters endet am 28. Februar 2025. Alle vorhandenen Benutzer*innen von SQL Server 2019 mit Software Assurance werden auf der Plattform vollständig unterstützt, und die Software wird bis zu diesem Zeitpunkt weiterhin über kumulative SQL Server-Updates verwaltet. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und unter Big Data-Optionen auf der Microsoft SQL Server-Plattform.

In diesem Artikel wird erläutert, wie Sie Spark effektiv für Machine Learning auf Big Data-Cluster für SQL Server verwenden.

Spark Machine Learning Services in SQL Server-Big Data-Clustern

SQL Server-Big Data-Cluster ermöglicht Machine Learning-Szenarios und -Lösungen mithilfe verschiedener Technologiestapel: SQL Server Machine Learning Services und Apache Spark ML.

Um besser zu verstehen, wann die einzelnen Technologiestapel verwendet werden sollten, lesen Sie den Machine Learning Leitfaden für SQL Server-Big Data-Cluster. Dieser Leitfaden behandelt Apache Spark ML.

Für Big Data-basierte Machine Learning-Szenarios ist die Verwendung von HDFS für Big Data-Hosting und Apache Spark ML-Funktionen ein kostengünstigerer, skalierbarer und leistungsfähigerer Ansatz. Dies ist jedoch keine vollständige Liste der Möglichkeiten, was mit Spark Machine Learning erreicht werden kann. Eine vollständige Liste der Features finden Sie unter Spark MLlib.

Der nächste Abschnitt enthält eine zusammengestellte Liste von Szenarios und Verweisen für Spark in SQL Server-Big Data-Cluster.

Bausteine für Spark Machine Learning auf SQL Server-Big Data-Clustern

Learn	Inhalte	Link
Die Runtime von SQL Server-Big Data-Cluster für Apache Spark	Dies zeigt, was in jedem Release enthalten ist.	Die Runtime von SQL Server-Big Data-Cluster für Apache Spark-Leitfaden
Der Speicherpool	Speichern und Verwenden von HDFS und Spark zum Entsperren von Daten für maschinelles Lernen	Einführung in den Speicherpool in Big Data-Cluster für SQL Server
Verwenden Sie notebookbasierte Funktionen und Ihre bevorzugten Tools.	Verbinden Sie den Endpunkt von Spark-Livy mit Ihren bevorzugten Tools.	Übermitteln von Spark-Aufträgen auf Big Data-Cluster für SQL Server in Azure Data Studio Übermitteln von Spark-Aufträgen an Big-Data-Cluster von SQL Server in Visual Studio Code Verwenden von sparklyr in SQL Server-Big Data-Clustern
Installieren von zusätzlichen Paketen	Falls ein Paket nicht sofort bereitgestellt wird, installieren Sie es.	Spark-Bibliotheksverwaltung
Informationen zur Problembehandlung	Für den Fall, dass ein Fehler auftritt	Problembehandlung für `pyspark`-Notebooks. Debuggen und Diagnostizieren von Spark-Anwendungen auf Big Data-Cluster für SQL Server in Spark History Server
Übermitteln von Machine Learning-Batchaufträgen	Ausführen von ML Trainings- und Batchbewertung über die Befehlszeile	Übermitteln von Spark-Aufträgen mithilfe von Befehlszeilentools
Schnelles Verschieben von Daten zwischen SQL Server und Spark	Legen Sie die SQL Server-Quelle und/oder das -Ziel für Ihre Spark-ML-Szenarios fest. Die Verwendung von HDFS ist nicht obligatorisch.	Verwenden des Apache Spark-Connectors für SQL Server und Azure SQL
Operationalisierung des Spark-Modells	Führen Sie die Operationalisierung nach dem Training mithilfe von MLeap durch.	Erstellen, Exportieren und Bewerten von Machine Learning-Modellen in Spark auf Big Data-Cluster für SQL Server
Data Wrangling	Zusammen mit den leistungsstarken Data Wrangling-Funktionen von Spark liefern wir PROSE.	Data Wrangling mithilfe von PROSE Code Accelerator

Nächste Schritte

Weitere Informationen finden Sie hier: Einführung in Big Data-Cluster für SQL Server.

Freigeben über

Einführung von Spark Machine Learning auf SQL Server-Big Data-Cluster

Spark Machine Learning Services in SQL Server-Big Data-Clustern

Bausteine für Spark Machine Learning auf SQL Server-Big Data-Clustern

Nächste Schritte

Feedback

Feedback

Zusätzliche Ressourcen