Anpassen von Ausgaben in Batchbereitstellungen

Artikel
09/03/2024

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

In dieser Anleitung wird erläutert, wie Sie Bereitstellungen erstellen, die benutzerdefinierte Ausgaben und Dateien generieren. Manchmal benötigen Sie mehr Kontrolle darüber, was als Ausgabe von Batch-Rückschlussaufträgen geschrieben wurde. Zu diesen Fällen gehören die folgenden Situationen:

Sie müssen steuern, wie Vorhersagen in der Ausgabe geschrieben werden. Sie möchten beispielsweise die Vorhersage an die ursprünglichen Daten anfügen, wenn die Daten tabellarisch sind.
Sie müssen Ihre Vorhersagen in einem anderen Dateiformat als dem schreiben, das standardmäßig von Batchbereitstellungen unterstützt wird.
Ihr Modell ist ein generatives Modell, das die Ausgabe nicht in einem tabellarischen Format schreiben kann. Beispielsweise Modelle, die Bilder als Ausgabe erzeugen.
Ihr Modell erzeugt mehrere tabellarische Dateien anstelle einer einzelnen Datei. Beispielsweise Modelle, die Vorhersagen unter Berücksichtigung mehrerer Szenarien erstellen.

Batchbereitstellungen ermöglichen es Ihnen, die Ausgabe der Aufträge zu steuern, indem Sie direkt in die Ausgabe des Batch-Bereitstellungsauftrags schreiben können. In diesem Tutorial erfahren Sie, wie Sie ein Modell bereitstellen, um Batchrückschlüsse durchzuführen und die Ausgaben im Format Parquet zu schreiben, indem Sie die Vorhersagen an die ursprünglichen Eingabedaten anfügen.

Informationen zu diesem Beispiel

Dieses Beispiel zeigt, wie Sie ein Modell bereitstellen können, um einen Batchrückschluss durchzuführen und anzupassen, wie Ihre Vorhersagen in der Ausgabe geschrieben werden. Das Modell basiert auf dem UCI Heart Disease-Dataset. Die Datenbank enthält 76 Attribute, aber in diesem Beispiel wird eine Teilmenge von 14 verwendet. Das Modell versucht, das Vorhandensein einer Herzerkrankung bei einem Patienten vorherzusagen. Der Wert ist eine ganze Zahl zwischen 0 (nicht vorhanden) und 1 (vorhanden).

Das Modell wurde mit einem XGBBoost-Klassifizierer trainiert, und alle erforderlichen Vorverarbeitungen wurden in einer scikit-learn-Pipeline zusammengefasst, was dieses Modell zu einer End-to-End-Pipeline macht, die von Rohdaten bis zu Vorhersagen reicht.

Das Beispiel in diesem Artikel basiert auf Codebeispielen, die im Repository azureml-examples enthalten sind. Um die Befehle lokal auszuführen, ohne YAML und andere Dateien kopieren/einfügen zu müssen, klonen Sie zunächst das Repository, und ändern Sie dann die Verzeichnisse zum Ordner:

Azure-Befehlszeilenschnittstelle
Python

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

Die Dateien für dieses Beispiel befinden sich in:

cd endpoints/batch/deploy-models/custom-outputs-parquet

Nachvollziehen in einem Jupyter Notebook

Es gibt ein Jupyter Notebook, das Sie verwenden können, um diesem Beispiel zu folgen. Öffnen Sie in dem geklonten Repository das Notebook mit dem Namen: custom-output-batch.ipynb.

Voraussetzungen

Ein Azure-Abonnement. Wenn Sie nicht über ein Azure-Abonnement verfügen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen. Probieren Sie die kostenlose oder kostenpflichtige Version von Azure Machine Learning aus.
Ein Azure Machine Learning-Arbeitsbereich. Informationen zum Erstellen eines Arbeitsbereichs finden Sie unter Verwalten von Azure Machine Learning-Arbeitsbereichen.
Stellen Sie sicher, dass Sie über die folgenden Berechtigungen im Machine Learning-Arbeitsbereich verfügen:
- Erstellen oder Verwalten von Batchendpunkten und Batchbereitstellungen: Verwenden Sie die Rolle für Besitzer oder Mitwirkende oder eine benutzerdefinierte Rolle, die Microsoft.MachineLearningServices/workspaces/batchEndpoints/* zulässt.
- Erstellen von Azure Resource Manager-Bereitstellungen in der Arbeitsbereichsressourcengruppe: Verwenden Sie „Besitzer“-, „Mitwirkender“- oder eine benutzerdefinierte Rolle, die Microsoft.Resources/deployments/write in der Ressourcengruppe zulässt, in der der Arbeitsbereich bereitgestellt wird.
Installieren Sie die folgende Software, um mit Machine Learning zu arbeiten:
- Azure-Befehlszeilenschnittstelle
- Python
Führen Sie den folgenden Befehl aus, um die Azure CLI und die ml-Erweiterung für Azure Machine Learning zu installieren:
```
az extension add -n ml
```
Bereitstellungen der Pipelinekomponenten für Batchendpunkte werden in Version 2.7 der ml-Erweiterung für die Azure CLI eingeführt. Verwenden Sie den az extension update --name ml-Befehl, um die aktuelle Version abzurufen.
Führen Sie den folgenden Befehl aus, um das Azure Machine Learning-SDK für Python zu installieren:
```
pip install azure-ai-ml
```
Die ModelBatchDeployment- und PipelineComponentBatchDeployment-Klassen werden in Version 1.7.0 des SDK eingeführt. Verwenden Sie den pip install -U azure-ai-ml-Befehl, um die aktuelle Version abzurufen.

Herstellen einer Verbindung mit Ihrem Arbeitsbereich

Der Arbeitsbereich ist die wichtigste Ressource für maschinelles Lernen. Es bietet einen zentralen Ort für die Arbeit mit allen Artefakten, die Sie bei der Verwendung von Machine Learning erstellen. In diesem Abschnitt stellen Sie eine Verbindung mit dem Arbeitsbereich her, in dem Sie Ihre Bereitstellungsaufgaben durchführen.

Azure-Befehlszeilenschnittstelle
Python

Geben Sie im folgenden Befehl die Werte für Ihre Abonnement-ID, Ihren Arbeitsbereich, Ihren Standort und Ihre Ressourcengruppe ein:

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Importieren Sie die erforderlichen Bibliotheken.

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

Konfigurieren Sie die Arbeitsbereichsdetails, und rufen Sie einen Handle für den Arbeitsbereich ab:

Geben Sie im folgenden Befehl die Werte für Ihre Abonnement-ID, Ihren Arbeitsbereich und Ihre Ressourcengruppe ein:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```

Erstellen einer Batchbereitstellung mit einer benutzerdefinierten Ausgabe

In diesem Beispiel erstellen Sie eine Bereitstellung, die direkt in den Ausgabeordner des Batch-Bereitstellungsauftrags schreiben kann. Die Bereitstellung verwendet dieses Feature, um benutzerdefinierte Parquet-Dateien zu schreiben.

Registrieren des Modells

Sie können registrierte Modelle nur mithilfe eines Batchendpunkts bereitstellen. In diesem Fall ist bereits eine lokale Kopie des Modells im Repository vorhanden, daher muss das Modell nur in der Registrierung im Arbeitsbereich veröffentlicht werden. Sie können diesen Schritt überspringen, wenn das Modell, das Sie bereitstellen möchten, bereits registriert ist.

Azure-Befehlszeilenschnittstelle
Python

MODEL_NAME='heart-classifier-sklpipe'
az ml model create --name $MODEL_NAME --type "custom_model" --path "model"

model_name = "heart-classifier-sklpipe"
model_description = "A heart condition classifier trained with XGBoosts and Scikit-Learn for feature processing."
model_local_path = "model"

model = ml_client.models.create_or_update(
    Model(
        name=model_name,
        path=model_local_path,
        type=AssetTypes.CUSTOM_MODEL,
        tags={"framework": "scikit-learn", "estimator": "xgboost"},
    )
)

Erstellen Sie ein Bewertungsskript.

Sie müssen ein Bewertungsskript erstellen, das die von der Batchbereitstellung bereitgestellten Eingabedaten lesen und die Scores des Modells zurückgeben kann. Sie werden auch direkt in den Ausgabeordner des Auftrags schreiben. Zusammenfassend führt das vorgeschlagene Bewertungsskript Folgendes aus:

Es liest die Eingabedaten als CSV-Dateien.
Es führt eine predict-Funktion des MLflow-Modells für die Eingabedaten aus.
Es fügt die Vorhersagen zusammen mit den Eingabedaten an einen pandas.DataFrame an.
Es schreibt die Daten in eine Datei, die denselben Namen wie die Eingabedatei trägt, jedoch im Format parquet.

code/batch_driver.py

import os
import pickle
import glob
import pandas as pd
from pathlib import Path
from typing import List


def init():
    global model
    global output_path

    # AZUREML_MODEL_DIR is an environment variable created during deployment
    # It is the path to the model folder
    # Please provide your model's folder name if there's one:
    output_path = os.environ["AZUREML_BI_OUTPUT_PATH"]
    model_path = os.environ["AZUREML_MODEL_DIR"]
    model_file = glob.glob(f"{model_path}/*/*.pkl")[-1]

    with open(model_file, "rb") as file:
        model = pickle.load(file)


def run(mini_batch: List[str]):
    for file_path in mini_batch:
        data = pd.read_csv(file_path)
        pred = model.predict(data)

        data["prediction"] = pred

        output_file_name = Path(file_path).stem
        output_file_path = os.path.join(output_path, output_file_name + ".parquet")
        data.to_parquet(output_file_path)

    return mini_batch

Hinweise:

Beachten Sie, wie die Umgebungsvariable AZUREML_BI_OUTPUT_PATH verwendet wird, um Zugriff auf den Ausgabepfad des Bereitstellungsauftrags zu erhalten.
Die Funktion init() füllt eine globale Variable mit dem Namen output_path aus, die später verwendet werden kann, um zu ermitteln, wohin geschrieben werden soll.
Die Methode run gibt eine Liste der verarbeiteten Dateien zurück. Es ist erforderlich, dass die Funktion run ein list- oder ein pandas.DataFrame-Objekt zurückgibt.

Warnung

Berücksichtigen Sie, dass alle Batch-Executors gleichzeitig Schreibzugriff auf diesen Pfad haben. Das bedeutet, dass Sie Parallelität berücksichtigen müssen. Stellen Sie in diesem Fall sicher, dass jeder Executor seine eigene Datei unter Verwendung des Namens der Eingabedatei als Namen des Ausgabeordners schreibt.

Erstellen des Endpunkts

Sie erstellen nun einen Batchendpunkt mit dem Namen heart-classifier-batch, in dem das Modell bereitgestellt wird.

Entscheiden Sie sich für den Namen des Endpunkts. Der Name des Endpunkts wird im dem Endpunkt zugeordneten URI angezeigt, sodass Batch-Endpunktnamen innerhalb einer Azure-Region eindeutig sein müssen. Beispielsweise kann es nur einen Endpunkt namens mybatchendpoint in westus2 geben.
- Azure-Befehlszeilenschnittstelle
- Python
Platzieren Sie in diesem Fall den Namen des Endpunkts in einer Variablen, damit Sie später problemlos darauf verweisen können.
```
ENDPOINT_NAME="heart-classifier-custom"
```
Platzieren Sie in diesem Fall den Namen des Endpunkts in einer Variablen, damit Sie später problemlos darauf verweisen können.
```
endpoint_name = "heart-classifier-custom"
```

Konfigurieren Sie Ihren Batchendpunkt.

Azure-Befehlszeilenschnittstelle
Python

Die folgende YAML-Datei definiert einen Batchendpunkt:

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: heart-classifier-batch
description: A heart condition classifier for batch inference
auth_mode: aad_token

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="A heart condition classifier for batch inference",
)

Erstellen des Endpunkts:

Azure-Befehlszeilenschnittstelle
Python

az ml batch-endpoint create -n $ENDPOINT_NAME -f endpoint.yml

ml_client.batch_endpoints.begin_create_or_update(endpoint).result()

Erstellen Sie die Bereitstellung

Führen Sie die nächsten Schritte aus, um eine Bereitstellung mithilfe des vorherigen Bewertungsskripts zu erstellen:

Erstellen Sie zunächst eine Umgebung, in der das Bewertungsskript ausgeführt werden kann:
- Azure-Befehlszeilenschnittstelle
- Python
Für die Azure Machine Learning CLI sind keine weiteren Schritte erforderlich. Die Umgebungsdefinition wird in die Bereitstellungsdatei aufgenommen.
```
environment:
  name: batch-mlflow-xgboost
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
  conda_file: environment/conda.yaml
```
Rufen Sie einen Verweis auf die Umgebung ab:
```
environment = Environment(
    name="batch-mlflow-xgboost",
    conda_file="environment/conda.yaml",
    image="mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest",
)
```

Erstellen Sie die Bereitstellung. Beachten Sie, dass output_action jetzt auf SUMMARY_ONLY festgelegt ist.

Hinweis

In diesem Beispiel wird angenommen, dass Sie über einen Computecluster mit dem Namen batch-cluster verfügen. Ändern Sie diesen Namen entsprechend.

Azure-Befehlszeilenschnittstelle
Python

Um eine neue Bereitstellung unter dem erstellten Endpunkt zu erstellen, erstellen Sie eine YAML-Konfiguration wie die folgende. Sie können das vollständige YAML-Schema des Batchendpunkts auf zusätzliche Eigenschaften überprüfen.

$schema: https://azuremlschemas.azureedge.net/latest/modelBatchDeployment.schema.json
endpoint_name: heart-classifier-batch
name: classifier-xgboost-custom
description: A heart condition classifier based on XGBoost and Scikit-Learn pipelines that append predictions on parquet files.
type: model
model: azureml:heart-classifier-sklpipe@latest
environment:
  name: batch-mlflow-xgboost
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
  conda_file: environment/conda.yaml
code_configuration:
  code: code
  scoring_script: batch_driver.py
compute: azureml:batch-cluster
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 2
  mini_batch_size: 2
  output_action: summary_only
  retry_settings:
    max_retries: 3
    timeout: 300
  error_threshold: -1
  logging_level: info

Erstellen Sie dann die Bereitstellung mit dem folgenden Befehl:

az ml batch-deployment create --file deployment.yml --endpoint-name $ENDPOINT_NAME --set-default

Um eine neue Bereitstellung unter dem erstellten Endpunkt zu erstellen, verwenden Sie das folgende Skript:

deployment = ModelBatchDeployment(
    name="classifier-xgboost-custom",
    description="A heart condition classifier based on XGBoost which writes outputs in parquet format.",
    endpoint_name=endpoint.name,
    model=model,
    environment=environment,
    code_configuration=CodeConfiguration(
        code="code",
        scoring_script="batch_driver.py",
    ),
    compute=compute_name,
    settings=ModelBatchDeploymentSettings(
        mini_batch_size=2,
        instance_count=2,
        max_concurrency_per_instance=2,
        output_action=BatchDeploymentOutputAction.SUMMARY_ONLY,
        retry_settings=BatchRetrySettings(max_retries=3, timeout=300),
        logging_level="info",
    ),
)

Erstellen Sie dann die Bereitstellung mit dem folgenden Befehl:

ml_client.batch_deployments.begin_create_or_update(deployment).result()

An diesem Punkt ist unser Batchendpunkt zur Verwendung bereit.

Testen der Bereitstellung

Zum Testen Ihres Endpunkts verwenden Sie eine Stichprobe für nicht gekennzeichnete Daten, die sich in diesem Repository befinden, das mit dem Modell verwendet werden kann. Batch-Endpunkte können nur Daten verarbeiten, die sich in der Cloud befinden und über den Azure Machine Learning-Arbeitsbereich zugänglich sind. In diesem Beispiel laden Sie sie in einen Azure Machine Learning-Datenspeicher hoch. Sie erstellen eine Datenressource, die zum Aufrufen des Endpunkts für die Bewertung verwendet werden kann. Beachten Sie jedoch, dass Batchendpunkte Daten akzeptieren, die an mehreren verschiedenen Speicherorten platziert werden können.

Aufrufen des Endpunkts mit Daten aus einem Speicherkonto:
- Azure-Befehlszeilenschnittstelle
- Python
```
JOB_NAME = $(az ml batch-endpoint invoke --name $ENDPOINT_NAME --input https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data --query name -o tsv)
```
Hinweis

Das Hilfsprogramm jq wird möglicherweise nicht bei jeder Installation installiert. Sie können Anweisungen auf GitHub erhalten.
Tipp

Was ist der Unterschied zwischen dem inputs- und dem input-Parameter, wenn Sie einen Endpunkt aufrufen?

Im Allgemeinen können Sie einen inputs = {}-Parameter im Wörterbuch mit der invoke-Methode verwenden, um eine beliebige Anzahl erforderlicher Eingaben für einen Batchendpunkt bereitzustellen, der eine Modellimplementierung oder eine Pipelinebereitstellung enthält.

Bei einer Modellimplementierung können Sie den input-Parameter als schnellere Möglichkeit verwenden, um den Eingabedatenspeicherort für die Bereitstellung anzugeben. Dieser Ansatz funktioniert, da eine Modellimplementierung immer nur eine Dateneingabeentgegennimmt.

Konfigurieren der Eingaben:
```
input = Input(
    type=AssetTypes.URI_FOLDER,
    path="https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data",
)
```
Erstellen eines Auftrags:
```
job = ml_client.batch_endpoints.invoke(
    endpoint_name=endpoint.name, deployment_name=deployment.name, input=input
)
```
Ein Batchauftrag wird gestartet, sobald der Befehl zurückgegeben wird. Sie können den Status des Auftrags überwachen, bis er abgeschlossen ist:
- Azure-Befehlszeilenschnittstelle
- Python
```
az ml job show -n $JOB_NAME --web
```
```
ml_client.jobs.get(job.name)
```

Analysieren der Ausgaben

Der Auftrag generiert eine benannte Ausgabe mit dem Namen score, in der alle generierten Dateien platziert werden. Da Sie direkt in das Verzeichnis geschrieben haben, eine Datei pro Eingabedatei, können Sie erwarten, dass die gleiche Anzahl von Dateien vorhanden ist. Benennen Sie in diesem Beispiel die Ausgabedateien genauso wie die Eingabedateien, aber mit der Erweiterung „Parquet“.

Hinweis

Beachten Sie, dass eine predictions.csv-Datei auch im Ausgabeordner enthalten ist. Diese Datei enthält die Zusammenfassung der verarbeiteten Dateien.

Sie können die Ergebnisse des Auftrags mithilfe des Auftragsnamens herunterladen:

Azure-Befehlszeilenschnittstelle
Python

Verwenden Sie den folgenden Befehl, um die Vorhersagen herunterzuladen:

az ml job download --name $JOB_NAME --output-name score --download-path ./

ml_client.jobs.download(name=scoring_job.name, download_path=".", output_name="score")

Nachdem die Datei heruntergeladen wurde, können Sie sie mithilfe Ihres bevorzugten Tools öffnen. Im folgenden Beispiel werden die Vorhersagen mithilfe des Datenrahmens Pandas geladen.

import pandas as pd
import glob

output_files = glob.glob("named-outputs/score/*.parquet")
score = pd.concat((pd.read_parquet(f) for f in output_files))
score

Die Ausgabe sieht wie folgt aus:

age	sex	...	Thal	prediction
63	1	...	fixed	0
67	1	...	normal	1
67	1	...	umkehrbar	0
37	1	...	normal	0

Führen Sie den folgenden Code aus, um den Batchendpunkt und alle zugrundeliegenden Bereitstellungen zu löschen. Batch-Bewertungsaufträge werden nicht gelöscht.

az ml batch-endpoint delete --name $ENDPOINT_NAME --yes

Führen Sie den folgenden Code aus, um den Batchendpunkt und alle zugrundeliegenden Bereitstellungen zu löschen. Batch-Bewertungsaufträge werden nicht gelöscht.

ml_client.batch_endpoints.begin_delete(endpoint_name).result()

Freigeben über

Anpassen von Ausgaben in Batchbereitstellungen

Informationen zu diesem Beispiel

Nachvollziehen in einem Jupyter Notebook

Voraussetzungen

Herstellen einer Verbindung mit Ihrem Arbeitsbereich

Erstellen einer Batchbereitstellung mit einer benutzerdefinierten Ausgabe

Registrieren des Modells

Erstellen Sie ein Bewertungsskript.

Erstellen des Endpunkts

Erstellen Sie die Bereitstellung

Testen der Bereitstellung

Analysieren der Ausgaben

Bereinigen von Ressourcen

Feedback

Zusätzliche Ressourcen

Freigeben über

Anpassen von Ausgaben in Batchbereitstellungen

Informationen zu diesem Beispiel

Nachvollziehen in einem Jupyter Notebook

Voraussetzungen

Herstellen einer Verbindung mit Ihrem Arbeitsbereich

Erstellen einer Batchbereitstellung mit einer benutzerdefinierten Ausgabe

Registrieren des Modells

Erstellen Sie ein Bewertungsskript.

Erstellen des Endpunkts

Erstellen Sie die Bereitstellung

Testen der Bereitstellung

Analysieren der Ausgaben

Bereinigen von Ressourcen

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen