Referenz zu Algorithmen und Komponenten im Azure Machine Learning-Designer

Artikel
04/04/2023

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Hinweis

Designer unterstützt zwei Arten von Komponenten, die klassischen vordefinierten Komponenten und die benutzerdefinierten Komponenten. Diese beiden Arten von Komponenten sind nicht kompatibel.

Klassische vordefinierte Komponenten bieten vordefinierte Komponenten vor allem für die Datenverarbeitung und traditionelle Machine Learning-Aufgaben wie Regression und Klassifizierung. Dieser Komponententyp wird weiterhin unterstützt, aber es werden keine neuen Komponenten hinzugefügt.

Benutzerdefinierte Komponenten ermöglichen es Ihnen, Ihren eigenen Code als Komponente bereitzustellen. Sie unterstützen die arbeitsbereichsübergreifende Freigabe und die reibungslose Erstellung über Studio-, CLI- und SDK-Schnittstellen.

Dieser Artikel bezieht sich auf klassische vordefinierte Komponenten.

Dieser Referenzinhalt bietet den technischen Hintergrund zu den einzelnen klassischen vordefinierten Komponenten, die im Azure Machine Learning-Designer verfügbar sind.

Jede Komponente stellt Code dar, der unabhängig ausgeführt werden kann und eine Aufgabe zum maschinellen Lernen ausführen kann, wenn die erforderlichen Eingaben gegeben sind. Eine Komponente enthält möglicherweise einen bestimmten Algorithmus, oder führt eine Aufgabe aus, die beim maschinellen Lernen wichtig ist, z. B. das Ersetzen eines fehlenden Werts oder eine statistische Analyse.

Hilfe beim Auswählen von Algorithmen finden Sie unter:

Tipp

Sie können in jeder Pipeline im Designer Informationen zu einer bestimmten Komponente erhalten. Wählen Sie den Link Weitere Informationen auf der Komponentenkarte aus, wenn Sie auf die Komponente in der Komponentenliste oder im rechten Bereich der Komponente darauf zeigen.

Komponenten für die Datenaufbereitung

Funktionalität	BESCHREIBUNG	Komponente
Dateneingabe und -ausgabe	Verschieben Sie Daten aus Cloudquellen in Ihre Pipeline. Schreiben Sie Ihre Ergebnisse oder Zwischendaten während der Ausführung einer Pipeline in Azure Storage oder Azure SQL-Datenbank, oder verwenden Sie Cloudspeicher, um Daten zwischen Pipelines auszutauschen.	Manuelles Eingeben von Daten Daten exportieren Daten importieren
Datentransformation	Vorgänge für Daten, die für maschinelles Lernen typisch sind, z. B. Normalisieren oder Quantisierung von Daten, Verringerung der Dimensionalität und Konvertierung von Daten zwischen verschiedenen Dateiformaten.	Hinzufügen von Spalten Hinzufügen von Zeilen Anwenden einer mathematischen Operation Anwenden der SQL-Transformation Bereinigen fehlender Daten Beschneiden von Werten Konvertieren in CSV Konvertieren in ein Dataset Konvertieren in Indikatorwerte Bearbeiten von Metadaten Gruppieren von Daten in Containern Verknüpfen von Daten Normalisieren von Daten Partition und Beispiel Entfernen doppelter Zeilen SMOTE Auswählen der Spaltentransformation Auswählen von Spalten im Dataset Aufteilen von Daten
Featureauswahl	Wählen Sie eine Teilmenge relevanter, nützlicher Features aus, die beim Erstellen eines analytischen Modells verwendet werden.	Filterbasierte Featureauswahl Permutation Feature Importance
Statistische Funktionen	Stellen eine Vielzahl von statistischen Methoden für Data Science bereit.	Zusammenfassen von Daten

Machine Learning-Algorithmen

Funktionalität	BESCHREIBUNG	Komponente
Regression	Sagen Sie einen Wert vorher.	Regression bei verstärktem Entscheidungsbaum Entscheidungswaldregression Schnelle gesamtstrukturbasierte Quantilregression Lineare Regression Regression mit neuronalen Netzwerken Poisson-Regression
Clustering	Gruppieren Sie Daten.	K-Means-Clustering
Klassifizierung	Sagen Sie eine Klasse vorher. Wählen Sie aus Binäralgorithmen (zwei Klassen) oder Multiklassenalgorithmen.	Verstärkte Entscheidungsstruktur mit mehreren Klassen Entscheidungswald mit mehreren Klassen Logistische Regression mit mehreren Klassen Mehrklassiges neuronales Netzwerk One-vs- All-Multiklasse One-vs- One-Multiklasse Gemitteltes Perzeptron mit zwei Klassen Verstärkter Entscheidungsbaum mit zwei Klassen Entscheidungswald mit zwei Klassen Logistische Regression mit zwei Klassen Zweiklassiges neuronales Netzwerk Zweiklassige Support Vector Machine

Komponenten zum Erstellen und Auswerten von Modellen

Funktionalität	BESCHREIBUNG	Komponente
Modelltraining	Führen Sie Daten über den Algorithmus aus.	Trainieren des Clusteringmodells Train Model (Modell trainieren) Train Pytorch Model (PyTorch-Modell trainieren) Tune Model Hyperparameters
Modellbewertung und -auswertung	Bewerten Sie die Genauigkeit des trainierten Modells	Anwenden der Transformation Assign Data to Clusters (Zuweisen von Daten zu Clustern) Cross Validate Model Auswertungsmodell Score Image Model (Bildmodell bewerten) Score Model (Modell bewerten)
Python	Schreiben Sie Code, und betten Sie ihn in eine Komponente ein, um Python in Ihre Pipeline zu integrieren.	Erstellen eines Python-Modells Ausführen von Python-Skripts
R	Schreiben Sie Code, und betten Sie ihn in eine Komponente ein, um R in Ihre Pipeline zu integrieren.	Ausführen von R-Skripts
Textanalyse	Stellen Sie spezielle Berechnungstools zum Arbeiten mit strukturiertem und unstrukturiertem Text bereit.	Konvertieren eines Word-Dokuments in das PDF-Format Extrahieren von N-Gramm-Funktionen aus Text Feature Hashing Vorverarbeiten von Text Latent Dirichlet Allocation Score Vowpal Wabbit Model (Vowpal Wabbit-Modell bewerten) Train Vowpal Wabbit Model (Vowpal Wabbit-Modell trainieren)
Maschinelles Sehen	Komponenten zur Vorverarbeitung von Bilddaten und zur Bilderkennung	Apply Image Transformation (Bildtransformation anwenden) Convert to Image Directory (In Bildverzeichnis konvertieren) Init Image Transformation (Bildtransformation initialisieren) Split Image Directory (Bildverzeichnis teilen) DenseNet ResNet
Empfehlung	Erstellen Sie Empfehlungsmodelle.	Evaluate Recommender Score SVD Recommender Score Wide and Deep Recommender (Wide- und Deepempfehlung bewerten) Train SVD Recommender Train Wide and Deep Recommender (Wide- und Deepempfehlung trainieren)
Erkennung von Anomalien	Erstellen Sie Modelle zur Erkennung von Anomalien.	PCA-basierte Anomalieerkennung Train Anomaly Detection Model (Anomalieerkennungsmodell trainieren)

Webdienst

Hier erfahren Sie mehr über die Webdienstkomponenten, die für Echtzeitrückschlüsse im Azure Machine Learning-Designer erforderlich sind.

Fehlermeldungen

Hier erfahren Sie mehr über Fehlermeldungen und Ausnahmecodes, die beim Verwenden von Komponenten im Azure Machine Learning-Designer auftreten können.

Komponentenumgebung

Alle integrierten Komponenten im Designer werden in einer festen Umgebung ausgeführt, die von Microsoft bereitgestellt wird.

Zuvor basierte diese Umgebung auf Python 3.6, und für sie wurde jetzt ein Upgrade auf Python 3.8 durchgeführt. Dieses Upgrade ist transparent, da die Komponenten automatisch in der Python 3.8-Umgebung ausgeführt werden, zudem ist keine Aktion vom Benutzer*innen erforderlich. Das Umgebungsupdate wirkt sich möglicherweise auf Komponentenausgaben aus und stellt den Echtzeitendpunkt aus einem Echtzeitrückschluss bereit. Weitere Informationen dazu finden Sie in den folgenden Abschnitten.

Komponentenausgaben unterscheiden sich von früheren Ergebnissen

Nachdem für die Python-Version ein Upgrade von 3.6 auf 3.8 durchgeführt wurde, können die Abhängigkeiten von integrierten Komponenten auch entsprechend upgegradet werden. Daher können sich einige Komponentenausgaben von früheren Ergebnissen unterscheiden.

Wenn Sie die „Execute Python Script“-Komponente (Ausführen von Python-Skripts) verwenden und zuvor Pakete installiert haben, die an Python 3.6 gebunden sind, können Fehler wie die folgenden auftreten:

„Could not find a version that satisfies the requirement.“ (Es wurde keine Version gefunden, die der Anforderung entspricht.)
„No matching distribution found.“ (Keine übereinstimmende Verteilung gefunden.) Dann müssen Sie die Paketversion angeben, die an Python 3.8 angepasst ist, und Ihre Pipeline erneut ausführen.

Bereitstellen eines Echtzeitendpunkts aus dem Echtzeitrückschluss-Pipelineproblem

Wenn Sie den Echtzeitendpunkt direkt aus einer früher abgeschlossenen Echtzeitrückschlusspipeline bereitstellen, können Fehler auftreten.

Empfehlung: Klonen Sie die Rückschlusspipeline, und senden Sie sie erneut, und stellen Sie sie dann für den Echtzeitendpunkt bereit.

Nächste Schritte

Tutorial: Erstellen eines Modells im Designer zum automatischen Vorhersagen von Preisen