Trainieren von Machine Learning-Modellen

Apache Spark in Azure Synapse Analytics ermöglicht maschinelles Lernen mit Big Data und bietet so die Chance, wertvolle Erkenntnisse aus großen Mengen strukturierter, unstrukturierter und sich schnell verändernder Daten zu gewinnen. Beim Trainieren von Machine Learning-Modellen mithilfe von Azure Spark in Azure Synapse Analytics gibt es mehrere Optionen: Apache Spark MLlib, Azure Machine Learning und verschiedene andere Open-Source-Bibliotheken.

Apache SparkML und MLlib

Apache Spark in Azure Synapse Analytics ist eine der cloudbasierten Apache Spark-Implementierungen von Microsoft. Sie bietet ein einheitliches Open-Source-Framework für die Parallelverarbeitung von Daten, das die arbeitsspeicherinterne Verarbeitung unterstützt, um die Leistung von Big Data-Analysen zu steigern. Die Spark-Verarbeitungs-Engine ist auf Geschwindigkeit, einfache Nutzung und anspruchsvolle Analysen ausgelegt. Dank seiner verteilten In-Memory-Datenverarbeitungsfunktionen eignet sich Spark besonders für iterative Algorithmen beim maschinellen Lernen und für Graphberechnungen.

Es gibt zwei skalierbare Bibliotheken für maschinelles Lernen, die algorithmische Modellierungsfunktionen in dieser verteilten Umgebung bereitstellen: MLlib und SparkML. MLlib enthält die Original-API, die auf Grundlage von RDDs erstellt wurde. SparkML ist ein neueres Paket, das eine API auf höherer Ebene bereitstellt, die auf Dataframes basiert, um ML-Pipelines zu erstellen. SparkML unterstützt noch nicht alle Features von MLlib, ersetzt jedoch MLlib als Machine Learning-Standardbibliothek in Spark.

Hinweis

In diesem Tutorial erfahren Sie, wie Sie ein SparkML-Modell erstellen.

Beliebte Bibliotheken

Jeder Apache Spark-Pool in Azure Synapse Analytics wird mit einer Reihe beliebter, vorab geladener Machine Learning-Bibliotheken bereitgestellt. Diese Bibliotheken enthalten wiederverwendbaren Code, den Sie in Ihren Programmen oder Projekten nutzen können. Zu den relevanten Machine Learning-Bibliotheken, die standardmäßig enthalten sind, gehören die folgenden:

Scikit-learn ist eine der beliebtesten Machine Learning-Bibliotheken für einen Knoten für klassische ML-Algorithmen. Scikit-learn unterstützt die meisten beaufsichtigten und unbeaufsichtigten Lernalgorithmen und kann ebenfalls für Data Mining und Datenanalyse verwendet werden.
XGBoost ist eine beliebte Bibliothek für maschinelles Lernen, die die optimierten Algorithmen zum Trainieren von Entscheidungsbäumen und zufälligen Wäldern enthält.
PyTorch und TensorFlow sind leistungsstarke Deep Learning-Bibliotheken von Python. Innerhalb eines Apache Spark-Pools in Azure Synapse Analytics können Sie diese Bibliotheken verwenden, um Modelle mit einzelnen Computern zu erstellen, indem Sie die Anzahl von Executors in Ihrem Pool auf Null festlegen. Auch wenn Apache Spark in dieser Konfiguration nicht funktionsfähig ist, stellt es eine einfache und kostengünstige Möglichkeit dar, Modelle mit einzelnen Computern zu erstellen.

Weitere Informationen zu den verfügbaren Bibliotheken und zugehörigen Versionen finden Sie in der veröffentlichten Azure Synapse Analytics-Runtime.

MMLSpark

Die Microsoft Machine Learning-Bibliothek für Apache Spark ist MMLSpark. Diese Bibliothek ist darauf ausgelegt, die Produktivität von Data Scientists mit Spark zu steigern, die Experimentierrate zu erhöhen und innovative Verfahren für das maschinelle Lernen – einschließlich Deep Learning – in großen Datasets zu nutzen.

MMLSpark bietet zusätzlich zu den SparkML-APIs auf niedriger Ebene eine weitere Ebene beim Erstellen skalierbarer ML-Modelle, z.B. zum Indizieren von Zeichenfolgen, Umwandeln von Daten in ein von Algorithmen für maschinelles Lernen erwartetes Layout und Zusammenstellen von Featurevektoren. Die MMLSpark-Bibliothek vereinfacht diese und andere gängige Aufgaben zum Erstellen von Modellen in PySpark.

Gießerei-Werkzeuge

Foundry Tools bieten maschinelle Lernfunktionen, um allgemeine Probleme zu lösen, z. B. das Analysieren von Text für emotionale Stimmungen oder die Analyse von Bildern zur Erkennung von Objekten oder Gesichtern. Sie benötigen keine speziellen Kenntnisse zu maschinellem Lernen oder Data Science, um diese Dienste zu verwenden. Ein Cognitive Service stellt einige oder alle Komponenten einer Machine Learning-Lösung bereit: Daten, Algorithmus und trainiertes Modell. Zur Nutzung dieser Dienste sind allgemeine Kenntnisse über Ihre Daten erforderlich, ohne dass Sie Erfahrung mit maschinellem Lernen oder Data Science benötigen. Sie können diese vorab geschulten Foundry Tools automatisch in Azure Synapse Analytics nutzen.

Nächste Schritte

Dieser Artikel bietet eine Übersicht über die verschiedenen Optionen zum Trainieren von ML-Modellen innerhalb von Apache Spark-Pools in Azure Synapse Analytics. In den folgenden Tutorials erfahren Sie mehr über das Modelltraining:

Ausführen von AutoML-Experimenten mit Azure Machine Learning und Azure Synapse Analytics: Tutorial zum automatisierten maschinellen Lernen
Ausführen von SparkML-Experimenten: Tutorial zu Apache SparkML
Anzeigen der Standardbibliotheken: Azure Synapse Analytics-Runtime

Feedback

War diese Seite hilfreich?

Last updated on 2026-02-13