Tutorial: Trainieren eines Klassifizierungsmodells mit AutoML ohne Schreiben von Code in Azure Machine Learning Studio

Artikel
10/16/2024

Erfahren Sie, wie Sie ein Klassifizierungsmodell mit AutoML ohne Schreiben von Code trainieren, indem Sie in Azure Machine Learning Studio automatisierte maschinelles Lernen verwenden. Dieses Klassifizierungsmodell sagt vorher, ob ein Kunde Festgeld bei einer Bank anlegt.

Sie können zeitintensive Aufgaben mit dem Azure Machine Learning automatisieren. Beim automatisierten maschinellen Lernen werden viele Kombinationen von Algorithmen und Hyperparametern schnell durchlaufen, um basierend auf einer von Ihnen ausgewählten Erfolgsmetrik das beste Modell zu ermitteln.

In diesem Tutorial schreiben Sie keinen Code. Sie verwenden die Studio-Benutzeroberfläche für das Trainieren. Dabei lernen Sie Folgendes:

Erstellen Sie einen Azure Machine Learning-Arbeitsbereich.
Ausführen eines automatisierten Machine Learning-Experiments
Untersuchen Sie die Modelldetails.
Stellen Sie das empfohlene Model bereit.

Probieren Sie auch automatisiertes maschinelles Lernen für diese anderen Modelltypen aus:

Ein Beispiel ohne Code für die Vorhersage finden Sie unter Tutorial: Vorhersage des Bedarfs mithilfe von automatisiertem maschinellem Lernen.
Ein erstes Codebeispiel eines Objekterkennungsmodells finden Sie im Tutorial: Trainieren eines Objekterkennungsmodells mit automatisierter ML und Python.

Voraussetzungen

Ein Azure-Abonnement. Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen.
Laden Sie die Datendatei bankmarketing_train.csv herunter. In der Spalte y ist angegeben, ob ein Kunde Festgeld angelegt hat. Sie wird später als Zielspalte für Vorhersagen in diesem Tutorial festgelegt.

Erstellen eines Arbeitsbereichs

Ein Azure Machine Learning-Arbeitsbereich ist eine grundlegende Cloudressource zum Experimentieren, Trainieren und Bereitstellen von Machine Learning-Modellen. Er verknüpft Ihr Azure-Abonnement und Ihre Ressourcengruppe mit einem einfach nutzbaren Objekt im Dienst.

Führen Sie in diesem Tutorial die folgenden Schritte aus, um einen Arbeitsbereich zu erstellen und das Tutorial fortzusetzen.

Melden Sie sich bei Azure Machine Learning Studio an.
Wählen Sie Arbeitsbereich erstellen aus.
Geben Sie die folgenden Informationen an, um den neuen Arbeitsbereich zu konfigurieren:

Feld	BESCHREIBUNG
Arbeitsbereichname	Geben Sie einen eindeutigen Namen ein, der Ihren Arbeitsbereich identifiziert. Namen müssen in der Ressourcengruppe eindeutig sein. Verwenden Sie einen Namen, der leicht zu merken ist und sich von den von anderen Benutzern erstellten Arbeitsbereichen unterscheidet. Für den Namen des Arbeitsbereichs wird die Groß-/Kleinschreibung nicht beachtet.
Subscription	Wählen Sie das gewünschte Azure-Abonnement aus.
Resource group	Verwenden Sie eine vorhandene Ressourcengruppe in Ihrem Abonnement, oder geben Sie einen Namen ein, um eine neue Ressourcengruppe zu erstellen. Eine Ressourcengruppe enthält verwandte Ressourcen für eine Azure-Lösung. Die Rolle Mitwirkender oder Besitzer ist für die Verwendung einer vorhandenen Ressourcengruppe erforderlich. Weitere Informationen zum Zugriff finden Sie unter Verwalten des Zugriffs auf einen Azure Machine Learning-Arbeitsbereich.
Region	Wählen Sie die Azure-Region aus, die Ihren Benutzern und den Datenressourcen am nächsten ist, um Ihren Arbeitsbereich zu erstellen.

Wählen Sie Erstellen aus, um den Arbeitsbereich zu erstellen.

Weitere Informationen zu Azure-Ressourcen finden Sie im Artikel Erstellen Sie Ressourcen, die Sie für die ersten Schritte benötigen.

Weitere Möglichkeiten zum Erstellen eines Arbeitsbereichs in Azure finden Sie unter Verwalten von Azure Machine Learning-Arbeitsbereichen im Portal oder mit dem Python SDK (v2).

Erstellen eines Auftrags für automatisiertes maschinelles Lernen

Sie schließen die folgende Experimenteinrichtung ab und führen Schritte über Azure Machine Learning Studio unter https://ml.azure.com aus. Hierbei handelt es sich um eine konsolidierte Weboberfläche mit Tools für maschinelles Lernen zur Durchführung von Data Science-Szenarien für Datenwissenschaftler jeglicher Qualifikation. Das Azure Machine Learning-Studio wird in Internet Explorer-Browsern nicht unterstützt.

Wählen Sie Ihr Abonnement und den erstellten Arbeitsbereich aus.
Wählen Sie im linken Bereich im Abschnitt Erstellung die Option Automatisiertes maschinelles Lernen aus.

Wenn Sie zum ersten Mal ein Experiment für automatisiertes ML ausführen, werden eine leere Liste und Links zur Dokumentation angezeigt.
Wählen Sie + Neuer automatisierter ML-Auftrag aus.
Wählen Sie Automatisch trainieren aus.
Wählen Sie Konfigurierungsauftrag starten aus.
Wählen Sie im Abschnitt Experimentnamen die Option Neu erstellen aus, und geben Sie diesen Experimentnamen ein: my-1st-automl-experiment.

Erstellen und Laden eines Datasets als Datenressource

Laden Sie vor dem Konfigurieren Ihres Experiments Ihre Datendatei in Form einer Azure Machine Learning-Datenressource in Ihren Arbeitsbereich hoch. In diesem Tutorial können Sie sich eine Datenressource als Ihr Dataset für den Auftrag für automatisiertes ML vorstellen. Dadurch wird die ordnungsgemäße Formatierung der Daten für Ihr Experiment sichergestellt.

Wählen Sie Klassifizierung als Aufgabentyp aus.

Erstellen Sie eine neue Datenressource, indem Sie Erstellen auswählen.

Geben Sie Ihrer Datenressource im Formular Grundlegende Informationen einen Namen, und geben Sie optional eine Beschreibung an. Die Oberfläche für automatisiertes maschinelles Lernen unterstützt derzeit nur TabularDatasets. Der Datasettyp muss daher standardmäßig auf Tabellarisch festgelegt sein.
Wählen Sie links unten die Option Weiter aus.
Wählen Sie im Formular Datenspeicher- und Dateiauswahl den Standarddatenspeicher aus, der im Zuge der Erstellung Ihres Arbeitsbereichs automatisch eingerichtet wurde: workspaceblobstore (Azure Blob Storage) . Hier laden Sie Ihre Datendatei hoch, um sie für Ihren Arbeitsbereich verfügbar zu machen.
Wählen Sie im Upload-Dropdownmenü den Eintrag Dateien hochladen aus.
Wählen Sie auf dem lokalen Computer die Datei bankmarketing_train.csv aus. Dies ist die Datei, die Sie als Voraussetzung heruntergeladen haben.
Wählen Sie unten links Weiter aus, um das Dataset in den Standardcontainer hochzuladen, der bei der Erstellung Ihres Arbeitsbereichs automatisch eingerichtet wurde.

Sobald das Hochladen abgeschlossen ist, wird das Formular Einstellungen und Vorschau basierend auf dem Dateityp vorab aufgefüllt.

Vergewissern Sie sich unter Schema, dass Ihre Daten ordnungsgemäß formatiert sind Die Daten sollten wie folgt aufgefüllt werden: Nachdem Sie die Richtigkeit der Daten überprüft haben, wählen Sie Weiter aus.

Feld	BESCHREIBUNG	Wert für das Tutorial
Dateiformat	Definiert das Layout und den Typ der in einer Datei gespeicherten Daten.	Durch Trennzeichen getrennt
Trennzeichen	Mindestens ein Zeichen zum Angeben der Grenze zwischen separaten, unabhängigen Regionen in Nur-Text- oder anderen Datenströmen.	Komma
Codieren	Gibt an, welche Bit-zu-Zeichen-Schematabelle verwendet werden soll, um Ihr Dataset zu lesen.	UTF-8
Spaltenüberschriften	Gibt an, wie die Header des Datasets, sofern vorhanden, behandelt werden.	Alle Dateien weisen dieselben Header auf.
Zeilen überspringen	Gibt an, wie viele Zeilen im Dataset übersprungen werden.	Keine

Das Formular Schema ermöglicht eine weitere Konfiguration der Daten für dieses Experiment. Wählen Sie für dieses Beispiel den Umschalter für das Feature day_of_week aus, um es nicht einzuschließen. Wählen Sie Weiter aus.
Überprüfen Sie im Formular Details bestätigen die zuvor in die Formulare Grundlegende Infos, Datenspeicher- und Dateiauswahl und Einstellungen und Vorschau eingetragenen Informationen.
Wählen Sie Erstellen aus, um die Erstellung Ihres Datasets abzuschließen.
Wählen Sie Ihr Dataset aus, sobald es in der Liste angezeigt wird.
Überprüfen Sie die Daten, indem Sie die Datenressource auswählen und sich die Registerkarte Vorschau ansehen, die aufgefüllt wird, um sicherzustellen, dass day_of_week nicht eingefügt wurde. Wählen Sie dann Schließen aus.
Wählen Sie Weiter aus.

Auftrag konfigurieren

Nach dem Laden und Konfigurieren Ihrer Daten können Sie Ihr Experiment einrichten. Dieses Setup umfasst Experimententwurfsaufgaben, etwa das Auswählen der Größe Ihrer Compute-Umgebung und das Angeben der Spalte, die Sie vorhersagen möchten.

Füllen Sie das Formular Auftrag konfigurieren wie folgt aus:

Wählen Sie y als Zielspalte aus, in der Sie Vorhersagen ausführen möchten. Diese Spalte gibt an, ob der Kunde eine Termineinlage bei der Bank gezeichnet hat.

Klicken Sie auf Zusätzliche Konfigurationseinstellungen anzeigen, und füllen Sie die Felder wie folgt aus. Mit diesen Einstellungen können Sie den Trainingsauftrag besser steuern. Andernfalls werden die Standardwerte auf Basis der Experimentauswahl und -daten angewendet.

Zusätzliche Konfigurationen	BESCHREIBUNG	Wert für das Tutorial
Primary metric (Primäre Metrik)	Auswertungsmetrik, die zur Messung des Machine Learning-Algorithmus verwendet wird.	AUC_weighted
Explain best model (Bestes Modell erläutern)	Zeigt automatisch die Erklärbarkeit für das beste Modell an, das durch automatisiertes ML erstellt wurde.	Aktivieren
Blockierte Algorithmen	Algorithmen, die Sie aus den Trainingsauftrag ausschließen möchten.	Keine
Zusätzliche Klassifizierungseinstellungen	Diese Einstellungen tragen dazu bei, die Genauigkeit des Modells zu verbessern.	Positive Klassenbezeichnung: keine
Beendigungskriterium	Wenn ein Kriterium erfüllt ist, wird der Trainingsauftrag angehalten.	Trainingsauftragszeit (Stunden): 1 Metrischer Bewertungsschwellenwert: keiner
Parallelität	Die maximale Anzahl paralleler Iterationen pro Iteration	Maximale Anzahl gleichzeitiger Iterationen: 5

Wählen Sie Speichern.

Wählen Sie im Formular [Optional] Validieren und Testen
1. „k-fache Kreuzvalidierung“ als Validierungstyp aus.
2. Wählen Sie 2 als Anzahl der Kreuzvalidierungen aus.
Wählen Sie Weiter aus.
Wählen Sie Computecluster als Computetyp aus.

Ein Computeziel ist eine lokale oder cloudbasierte Ressourcenumgebung, in der Ihr Trainingsskript ausgeführt oder Ihre Dienstbereitstellung gehostet wird. Für dieses Experiment können Sie entweder cloudbasiertes serverloses Computing (Vorschau) ausprobieren oder eine eigene cloudbasierte Computeressource erstellen.

Um serverloses Computing zu verwenden, aktivieren Sie die Previewfunktion, wählen sie Serverlos aus, und überspringen Sie den Rest dieses Schritts.

Um Ihr eigenes Computeziel zu erstellen, wählen Sie +Neu aus, um Ihr Computeziel zu konfigurieren.

Füllen Sie das Formular VM auswählen aus, um Ihre Compute-Instanz einzurichten.

Feld	BESCHREIBUNG	Wert für das Tutorial
Standort	Ihre Region, von der aus Sie die VM ausführen möchten	USA, Westen 2
Stufe der VM	Wählen Sie aus, welche Priorität ihr Experiment aufweisen soll.	Dediziert
Typ des virtuellen Computers	Wählen Sie den VM-Typ für Ihre Compute-Umgebung aus.	CPU (Zentralprozessor)
Größe des virtuellen Computers	Wählen Sie die Größe für Ihren Computes aus. Eine Liste der empfohlenen Größen wird auf der Grundlage Ihrer Daten und des Experimenttyps bereitgestellt.	Standard_DS12_V2

Wählen Sie Weiter aus, um das Formular Einstellungen konfigurieren auszufüllen.

Feld	BESCHREIBUNG	Wert für das Tutorial
Computename	Ein eindeutiger Name, der Ihren Computekontext identifiziert.	automl-compute
Min/Max nodes (Min./Max. Knoten)	Um ein Datenprofil zu erstellen, müssen Sie mindestens einen Knoten angeben.	Min. Knoten: 1 Max. Knoten: 6
Leerlauf in Sekunden vor dem Herunterskalieren	Leerlaufzeit vor dem automatischen Herunterskalieren des Clusters auf die minimale Knotenanzahl	120 (Standardwert)
Erweiterte Einstellungen	Einstellungen zum Konfigurieren und Autorisieren eines virtuellen Netzwerks für Ihr Experiment	Keine

Wählen Sie Erstellen aus, um Ihr Computeziel zu erstellen.

Dieser Vorgang nimmt einige Minuten in Anspruch.
Wählen Sie nach der Erstellung in der Dropdownliste Ihr neues Computeziel aus.

Wählen Sie Weiter aus.
Wählen Sie Trainingsauftrag übermitteln aus, um das Experiment auszuführen. Wenn die Vorbereitung des Experiments beginnt, wird der Bildschirm Auftragsübersicht geöffnet, auf dem am oberen Rand der Auftragsstatus angezeigt wird. Dieser Status wird während des Experimentausführung entsprechend aktualisiert. Außerdem werden in der rechten oberen Ecke des Studios Benachrichtigungen angezeigt, die Sie über den Status Ihres Experiments informieren.

Wichtig

Die Vorbereitung des Experiments nimmt 10 –15 Minuten in Anspruch. Sobald es ausgeführt wird, dauert jede Iteration mindestens zwei bis drei Minuten.

In einer Produktionsumgebung würden Sie in dieser Zeit wahrscheinlich eine kurze Pause machen. Für dieses Tutorial empfehlen wir jedoch, schon während der Ausführung der weiteren Iterationen mit der Untersuchung der getesteten Algorithmen auf der Registerkarte Modelle zu beginnen.

Untersuchen von Modellen

Navigieren Sie zur Registerkarte Modelle, um die getesteten Algorithmen (Modelle) anzuzeigen. Standardmäßig werden die Modelle nach ihrem Abschluss nach der Metrikbewertung sortiert. In diesem Tutorial steht das Modell, das für die ausgewählte AUC_weighted-Metrik die höchste Bewertung erhält, ganz oben in der Liste.

Während Sie auf den Abschluss aller Experimentmodelle warten, können Sie den Algorithmusnamen eines abgeschlossenen Modells auswählen und sich die zugehörigen Leistungsdetails ansehen.

Nachfolgend werden die Registerkarten Details und Metriken durchlaufen, um die Eigenschaften, Metriken und Leistungsdiagramme des ausgewählten Modells anzuzeigen.

Details zur Iterationsausführung

Modellerklärungen

Während Sie darauf warten, dass die Modelle abgeschlossen werden, können Sie anhand der Modellerklärungen ermitteln, welche Datenfeatures (Rohdaten oder verarbeitete Daten) die Vorhersagen eines bestimmten Modells beeinflusst haben.

Diese Modellerklärungen können bei Bedarf generiert werden und werden auf der Registerkarte Erklärungen (Vorschau) auf dem Dashboard für Modellerklärungen zusammengefasst.

So generieren Sie Modellerklärungen:

Wählen Sie am oberen Rand die Option Auftrag 1 aus, um zum Bildschirm Modelle zurückzukehren.
Wählen Sie die Registerkarte Modelle aus.
Wählen Sie für dieses Tutorial das erste Modell MaxAbsScaler, LightGBM aus.
Wählen Sie im oberen Bereich die Schaltfläche Modell erklären aus. Auf der rechten Seite wird der Bereich Modell erklären angezeigt.
Wählen Sie den zuvor erstellten Computecluster automl-compute aus. Dieser Computecluster initiiert einen untergeordneten Auftrag, um die Modellerklärungen zu generieren.
Wählen Sie im unteren Bereich die Option Erstellen aus. Im oberen Bereich des Bildschirms wird eine grüne Erfolgsmeldung angezeigt.

Hinweis

Die Erklärbarkeitsauftrag dauert ca. zwei bis fünf Minuten.
Wählen Sie die Schaltfläche Erklärungen (Vorschau) aus. Diese Registerkarte wird nach Abschluss der Erklärbarkeitsausführung aufgefüllt.
Erweitern Sie den Bereich auf der linken Seite, und wählen Sie die Zeile aus, in der unter Features der Wert Rohdaten angegeben ist.
Wählen Sie auf der rechten Seite die Registerkarte Aggregierte Featurerelevanz aus. Dieses Diagramm zeigt, welche Datenfeatures die Vorhersagen des ausgewählten Modells beeinflusst haben.

In diesem Beispiel hatte offenbar die Dauer den größten Einfluss auf die Vorhersagen des Modells.

Bereitstellen des besten Modells

Über die Oberfläche für automatisiertes maschinelles Lernen können Sie in wenigen Schritten das beste Modell als Webdienst bereitstellen. Bei der Bereitstellung handelt es sich um die Integration des Modells, sodass neue Daten vorhergesagt und potenzielle Verkaufschancen identifiziert werden können.

In diesem Experiment bedeutet Bereitstellung in einem Webdienst, dass das Finanzinstitut nun über eine iterative und skalierbare Weblösung zur Identifizierung potenzieller Festgeldkunden verfügt.

Überprüfen Sie, ob die Ausführung des Experiments beendet ist. Navigieren Sie dazu zurück zur Seite mit dem übergeordneten Auftrag, indem Sie oben auf dem Bildschirm Auftrag 1 auswählen. Oben links auf dem Bildschirm wird der Status Abgeschlossen angezeigt.

Wenn die Ausführung des Experiments abgeschlossen ist, wird die Seite Details mit dem Abschnitt Zusammenfassung des besten Modells aufgefüllt. Aus diesem Experimentkontext geht VotingEnsemble basierend auf der AUC_weighted-Metrik als bestes Modell hervor.

Wir stellen dieses Modell bereit. Die Bereitstellung dauert jedoch etwa 20 Minuten. Der Bereitstellungsprozess umfasst mehrere Schritte, einschließlich der Registrierung des Modells, der Erstellung von Ressourcen und der Konfiguration dieser Ressourcen für den Webdienst.

Wählen Sie VotingEnsemble aus, um die modellspezifische Seite zu öffnen.
Wählen Sie oben links das Menü Bereitstellen und dann Für Webdienst bereitstellen aus.

Füllen Sie den Bereich Modell bereitstellen wie folgt aus:

Feld	Wert
„Deployment name“ (Bereitstellungsname)	my-automl-deploy
„Deployment description“ (Bereitstellungsbeschreibung)	„Meine erste Bereitstellung eines automatisierten Machine Learning-Experiments“
Computetyp	Auswählen von Azure Container Instances (ACI)
Authentifizierung aktivieren	Deaktivieren Sie diese Option.
Use custom deployments (Benutzerdefinierte Bereitstellungen verwenden)	Deaktivieren Sie diese Option. Dadurch wird die automatische Erstellung der Standardtreiberdatei (Bewertungsskript) und der Umgebungsdatei ermöglicht.

In diesem Beispiel werden die im Menü Erweitert angegebenen Standardwerte verwendet.

Klicken Sie auf Bereitstellen.

Oben auf dem Bildschirm Auftrag wird eine grüne Erfolgsmeldung und im Bereich Modellzusammenfassung unter Bereitstellungsstatus eine Statusmeldung angezeigt. Wählen Sie von Zeit zu Zeit die Option Aktualisieren, um den Status der Bereitstellung zu überprüfen.

Nun haben Sie einen einsatzfähigen Webdienst, mit dem Vorhersagen generiert werden können.

Fahren Sie mit Nächste Schritte fort, um weitere Informationen zur Nutzung Ihres neuen Webdiensts zu erhalten, und testen Sie Ihre Vorhersagen mithilfe der integrierten Azure Machine Learning-Unterstützung von Power BI.

Bereinigen von Ressourcen

Bereitstellungsdateien sind größer als Daten- und Experimentdateien, sodass ihre Speicherung teurer ist. Löschen Sie nur die Bereitstellungsdateien, um die Kosten für Ihr Konto zu minimieren, oder wenn Sie den Arbeitsbereich und die Experimentdateien beibehalten möchten. Löschen Sie andernfalls die gesamte Ressourcengruppe, wenn Sie keine der Dateien verwenden möchten.

Löschen der Bereitstellungsinstanz

Löschen Sie nur die Bereitstellungsinstanz aus Azure Machine Learning unter https://ml.azure.com/, wenn Sie die Ressourcengruppe und den Arbeitsbereich für andere Tutorials und Untersuchungen behalten möchten.

Wechseln Sie zu Azure Machine Learning. Navigieren Sie zu Ihrem Arbeitsbereich, und wählen Sie links unter dem Bereich Ressourcen die Option Endpunkte aus.
Wählen Sie die zu löschende Bereitstellung aus, und klicken Sie auf Delete (Löschen).
Wählen Sie Proceed (Fortfahren) aus.

Löschen der Ressourcengruppe

Wichtig

Die von Ihnen erstellten Ressourcen können ggf. auch in anderen Azure Machine Learning-Tutorials und -Anleitungen verwendet werden.

Wenn Sie die erstellten Ressourcen nicht mehr benötigen, löschen Sie diese, damit Ihnen keine Kosten entstehen:

Wählen Sie ganz links im Azure-Portal Ressourcengruppen aus.
Wählen Sie in der Liste die Ressourcengruppe aus, die Sie erstellt haben.
Wählen Sie die Option Ressourcengruppe löschen.
Geben Sie den Ressourcengruppennamen ein. Wählen Sie anschließend die Option Löschen.

Nächste Schritte

In diesem Tutorial zum automatisierten maschinellen Lernen haben Sie über die Oberfläche für automatisiertes maschinelles Lernen von Azure Machine Learning ein Klassifizierungsmodell erstellt und bereitgestellt. Weitere Informationen und nächste Schritte finden Sie in diesen Artikeln:

Weitere Informationen zu automatisiertem Machine Learning.
Weitere Informationen zu Klassifizierungsmetriken und Diagrammen finden Sie im Artikel Grundlegendes zu den Ergebnissen des automatisierten maschinellen Lernens.
Weitere Informationen finden Sie unter Einrichten von AutoML für NLP.

Hinweis

Dieses Bank Marketing-Dataset wird unter der Creative Commons (CCO: Public Domain)-Lizenz zur Verfügung gestellt. Alle Rechte in den einzelnen Inhalten der Datenbank sind gemäß der Database Contents License lizenziert und auf Kaggle verfügbar. Dieses Dataset war ursprünglich in der UCI Machine Learning Database verfügbar.

[Moro et al., 2014] S. Moro, P. Cortez und P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. (Ein datengesteuerter Ansatz zur Prognose des Erfolgs im Bank-Telemarketing.) Decision Support Systems, Elsevier, 62:22-31, Juni 2014.

Freigeben über