High-Performance-Bereitstellung mit Triton Inference Server (Vorschau)

Artikel
09/03/2024

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

Hier erfahren Sie, wie Sie den NVIDIA Triton Inference Server in Azure Machine Learning mit Onlineendpunkten verwenden.

Triton ist eine Open-Source-Software mit mehreren Frameworks, die für Inferenzen optimiert ist. Es unterstützt beliebte maschinelle Lernsysteme wie TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT und andere. Sie kann für Ihre CPU- oder GPU-Arbeitslasten verwendet werden.

Es gibt hauptsächlich zwei Ansätze, mit denen Sie Triton-Modelle nutzen können, wenn Sie sie auf einem Onlineendpunkt bereitstellen: No-Code-Bereitstellung oder Full-Code-Bereitstellung (Bring your own container).

Die No-Code-Bereitstellung für Triton-Modelle ist ein einfacher Weg, da Sie nur Triton-Modelle zur Bereitstellung mitbringen müssen.
Die Full-Code-Bereitstellung (Bring your own container) für Triton-Modelle ist anspruchsvoller, da Sie die volle Kontrolle über die Anpassung der für den Triton Rückschluss-Server verfügbaren Konfigurationen haben.

Für beide Optionen führt der Triton-Rückschluss-Server basierend auf dem Triton-Modell, wie von NVIDIA definiert, einen Rückschluss durch. Beispielsweise können Ensemblemodelle für komplexere Szenarien verwendet werden.

Triton wird sowohl in verwalteten Onlineendpunkten als auch in Kubernetes-Onlineendpunkten unterstützt.

In diesem Artikel erfahren Sie, wie Sie ein Modell mithilfe der No-Code-Bereitstellung für Triton auf einem verwalteten Onlineendpunkt bereitstellen. Es werden Informationen zur Verwendung der CLI (Befehlszeile), des Python SDS v2 und des Azure Machine Learning Studio bereitgestellt. Wenn Sie die Konfiguration des Triton-Rückschluss-Servers weiter anpassen möchten, lesen Sie Verwenden eines benutzerdefinierten Containers zum Bereitstellen eines Modells und das BYOC-Beispiel für Triton (Bereitstellungsdefinition und End-to-End-Skript).

Hinweis

Die Nutzung des NVIDIA Triton Inference Server-Containers unterliegt dem NVIDIA AI Enterprise Software-Lizenzvertrag und kann 90 Tage lang ohne Enterprise-Produktabonnement verwendet werden. Weitere Informationen finden Sie unter NVIDIA AI Enterprise in Azure Machine Learning.

Voraussetzungen

Stellen Sie vor dem Ausführen der Schritte in diesem Artikel sicher, dass Sie über die folgenden erforderlichen Komponenten verfügen:

Die Azure CLI und die ml-Erweiterung der Azure CLI. Weitere Informationen finden Sie unter Installieren, Einrichten und Verwenden der CLI (v2).

Wichtig

In den CLI-Beispielen in diesem Artikel wird davon ausgegangen, dass Sie die Bash-Shell (oder eine kompatible Shell) verwenden, beispielsweise über ein Linux-System oder ein Windows-Subsystem für Linux.
Ein Azure Machine Learning-Arbeitsbereich. Sofern noch nicht vorhanden, führen Sie die Schritte im Abschnitt Installieren, Einrichten und Verwenden der CLI (v2) aus, um einen Arbeitsbereich zu erstellen.

Eine funktionierende Python 3.8 (oder höher) Umgebung.
Sie müssen zusätzliche Python-Pakete für die Bewertung installiert haben und können sie mit dem folgenden Code installieren. Dazu gehören:
- Numpy: Eine Array- und numerische Computerbibliothek
- Triton Inference Server Client: Erleichtert Anforderungen an den Triton Inference Server
- Pillow: Eine Bibliothek für Bildvorgänge
- Gevent: Eine Netzwerkbibliothek, die beim Herstellen einer Verbindung mit dem Triton Server verwendet wird

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Zugang zu VMs der NCv3-Serie für Ihr Azure-Abonnement.

Wichtig

Möglicherweise müssen Sie eine Kontingenterhöhung für Ihr Abonnement beantragen, bevor Sie diese VMs verwenden können. Weitere Informationen finden Sie unter NCv3-series.

NVIDIA Triton Inference Server erfordert eine spezielle Modell-Repository-Struktur, in der es ein Verzeichnis für jedes Modell und Unterverzeichnisse für die Modellversion gibt. Der Inhalt der einzelnen Unterverzeichnisse der Modellversionen wird durch den Typ des Modells und die Anforderungen des Backends, das das Modell unterstützt, bestimmt. Um die gesamte Struktur des Modell-Repository zu sehen https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

Die Informationen in diesem Dokument basieren auf der Verwendung eines im ONNX-Format gespeicherten Modells, so dass die Verzeichnisstruktur des Modell-Repositorys <model-repository>/<model-name>/1/model.onnx lautet. Konkret führt dieses Modell eine Bildidentifizierung durch.

Die Informationen in diesem Artikel basieren auf Codebeispielen, die im Repository azureml-examples enthalten sind. Um die Befehle lokal auszuführen, ohne YAML und andere Dateien kopieren/einfügen zu müssen, klonen Sie das Repository, und wechseln Sie dann in das Verzeichnis cli im Repository:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

Wenn Sie die Standardeinstellungen für die Azure-Befehlszeilenschnittstelle noch nicht festgelegt haben, speichern Sie Ihre Standardeinstellungen. Um zu vermeiden, dass Sie die Werte für Ihr Abonnement, Ihren Arbeitsbereich und Ihre Ressourcengruppe mehrfach übergeben müssen, verwenden Sie die folgenden Befehle. Ersetzen Sie die folgenden Parameter durch Werte für Ihre spezifische Konfiguration:

Ersetzen Sie <subscription> durch Ihre Azure-Abonnement-ID.
Ersetzen Sie <workspace> durch den Namen Ihres Azure Machine Learning-Arbeitsbereichs.
Ersetzen Sie <resource-group> durch die Azure-Ressourcengruppe, die Ihren Arbeitsbereich enthält.
Ersetzen Sie <location> durch die Azure-Region, die Ihren Arbeitsbereich enthält.

Tipp

Mit dem Befehl az configure -l können Sie die aktuellen Standardwerte anzeigen.

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Stellen Sie vor dem Ausführen der Schritte in diesem Artikel sicher, dass Sie über die folgenden erforderlichen Komponenten verfügen:

Ein Azure Machine Learning-Arbeitsbereich. Wenn keiner vorliegt, führen Sie die Schritte unter Schnellstart: Erstellen von Arbeitsbereichsressourcen aus, um einen Arbeitsbereich zu erstellen.
Verwenden Sie zum Installieren des Python SDK v2 den folgenden Befehl:
```
pip install azure-ai-ml azure-identity
```
Verwenden Sie den folgenden Befehl, um eine vorhandene Installation des SDK auf die neueste Version zu aktualisieren:
```
pip install --upgrade azure-ai-ml azure-identity
```
Weitere Informationen finden Sie unter Installieren des Python SDK v2 für Azure Machine Learning.

Eine funktionierende Python 3.8 (oder höher) Umgebung.
Sie müssen zusätzliche Python-Pakete für die Bewertung installiert haben und können sie mit dem folgenden Code installieren. Dazu gehören:
- Numpy: Eine Array- und numerische Computerbibliothek
- Triton Inference Server Client: Erleichtert Anforderungen an den Triton Inference Server
- Pillow: Eine Bibliothek für Bildvorgänge
- Gevent: Eine Netzwerkbibliothek, die beim Herstellen einer Verbindung mit dem Triton Server verwendet wird
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Zugang zu VMs der NCv3-Serie für Ihr Azure-Abonnement.

Wichtig

Möglicherweise müssen Sie eine Kontingenterhöhung für Ihr Abonnement beantragen, bevor Sie diese VMs verwenden können. Weitere Informationen finden Sie unter NCv3-series.

Die Informationen in diesem Artikel basieren auf dem Notebook online-endpoints-triton.ipynb, das im Repository azureml-examples enthalten sind. Klonen Sie das Repository, und wechseln Sie dann in das Verzeichnis sdk/endpoints/online/triton/single-model/ im Repository, um die Befehle lokal auszuführen, ohne Dateien kopieren/einfügen zu müssen:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

Definieren der Bereitstellungskonfiguration

GILT FÜRAzure CLI-ML-Erweiterung v2 (aktuell)

In diesem Abschnitt wird gezeigt, wie Sie mit der Azure CLI und der Machine Learning-Erweiterung (v2) auf verwalteten Onlineendpunkten bereitstellen können.

Wichtig

Für die Bereitstellung ohne Code in Triton wird das Testen über lokale Endpunkte derzeit nicht unterstützt.

Um zu vermeiden, dass Sie einen Pfad für mehrere Befehle eingeben müssen, verwenden Sie den folgenden Befehl, um eine BASE_PATH-Umgebungsvariable zu setzen. Diese Variable verweist auf das Verzeichnis, in dem sich das Modell und die zugehörigen YAML-Konfigurationsdateien befinden:
```
BASE_PATH=endpoints/online/triton/single-model
```
Verwenden Sie den folgenden Befehl, um den Namen des zu erstellenden Endpunkts festzulegen. In diesem Beispiel wird ein zufälliger Name für den Endpunkt erstellt:
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
Erstellen Sie eine YAML-Konfigurationsdatei für Ihren Endpunkt. Im folgenden Beispiel werden der Name und der Authentifizierungsmodus des Endpunkts konfiguriert. Der in den folgenden Befehlen verwendete Befehl befindet sich unter /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml im azureml-examples-Repository, das Sie zuvor geklont haben:

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
Erstellen Sie eine YAML-Konfigurationsdatei für das Bereitstellen. Im folgenden Beispiel wird eine Bereitstellung mit dem Namen blue für den im vorherigen Schritt definierten Endpunkt konfiguriert. Der in den folgenden Befehlen verwendete Befehl befindet sich unter /cli/endpoints/online/triton/single-model/create-managed-deployment.yml im azureml-examples-Repository, das Sie zuvor geklont haben:

Wichtig

Damit die Triton-Bereitstellung ohne Code (NCD) funktioniert, müssen die Einstellungen type auf triton_model gesetzt werdentype: triton_model. Weitere Informationen finden Sie unter CLI (v2)-Modell YAML-Schema.

Diese Bereitstellung verwendet eine Standard_NC6s_v3-VM. Möglicherweise müssen Sie eine Kontingenterhöhung für Ihr Abonnement beantragen, bevor Sie diese VM verwenden können. Weitere Informationen finden Sie unter NCv3-series.
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

In diesem Abschnitt wird gezeigt, wie Sie eine Triton-Bereitstellung definieren können, die mithilfe des Azure Machine Learning Python SDK (v2) auf einem verwalteten Onlineendpunkt bereitgestellt werden soll.

Wichtig

Für die Bereitstellung ohne Code in Triton wird das Testen über lokale Endpunkte derzeit nicht unterstützt.

Um eine Verbindung mit dem Arbeitsbereich herzustellen, benötigen Sie Bezeichnerparameter – ein Abonnement, eine Ressourcengruppe und einen Arbeitsbereichsnamen.
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
Verwenden Sie den folgenden Befehl, um den Namen des zu erstellenden Endpunkts festzulegen. In diesem Beispiel wird ein zufälliger Name für den Endpunkt erstellt:
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
Sie verwenden diese oben genannten Details im MLClient ab azure.ai.ml, um ein Handle zum erforderlichen Azure Machine Learning-Arbeitsbereich zu erhalten. Weitere Informationen zum Konfigurieren von Anmeldeinformationen und Herstellen einer Verbindung mit einem Arbeitsbereich finden Sie im Konfigurationsnotebook.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
Erstellen Sie ein ManagedOnlineEndpoint-Objekt, um den Endpunkt zu konfigurieren. Im folgenden Beispiel werden der Name und der Authentifizierungsmodus des Endpunkts konfiguriert.
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

Erstellen Sie ein ManagedOnlineDeployment-Objekt, um die Bereitstellung zu konfigurieren. Im folgenden Beispiel wird eine Bereitstellung mit dem Namen blue für den im vorherigen Schritt definierten Endpunkt konfiguriert. Außerdem wird ein lokales Modell inline definiert.

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

In diesem Abschnitt wird gezeigt, wie Sie eine Triton-Bereitstellung mit Azure Machine Learning Studio auf verwalteten Onlineendpunkten definieren können.

Registrieren Sie Ihr Modell im Triton-Format mit dem folgenden YAML- und CLI-Befehl. Die YAML verwendet ein densenet-onnx-Modell von https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
Der folgende Screenshot zeigt, wie Ihr registriertes Modell auf der Seite Modelle von Azure Machine Learning Studio aussehen wird.
Wählen Sie in Studio Ihren Arbeitsbereich aus, und verwenden Sie dann entweder die Seite Endpunkte oder Modelle, um die Endpunktbereitstellung zu erstellen:
- Seite "Endpunkte"
- Seite „Modelle“
1. Wählen Sie auf der Seite Endpunkte die Option Erstellen aus.
2. Geben Sie einen Namen und einen Authentifizierungstyp für den Endpunkt an, und wählen Sie dann Weiter aus.
3. Wenn Sie ein Modell auswählen, wählen Sie das zuvor registrierte Triton-Modell. Klicken Sie auf Weiter, um fortzufahren.
4. Wenn Sie im Schritt Umgebung des Assistenten ein im Triton-Format registriertes Modell auswählen, benötigen Sie kein Scoring-Skript und keine Umgebung.
1. Wählen Sie das Triton-Modell aus und wählen Sie dann Einsatz. Wenn Sie dazu aufgefordert werden, wählen Sie Auf Echtzeitendpunkt bereitstellen aus.

Bereitstellen in Azure

GILT FÜRAzure CLI-ML-Erweiterung v2 (aktuell)

Um einen neuen Endpunkt unter Verwendung der YAML-Konfiguration zu erstellen, verwenden Sie den folgenden Befehl:
```
az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml
```

Um die Bereitstellung mit der YAML-Konfiguration zu erstellen, verwenden Sie den folgenden Befehl:

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Führen Sie den folgenden Befehl aus, um einen neuen Endpunkt unter Verwendung des ManagedOnlineEndpoint-Objekts zu erstellen:
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
Führen Sie den folgenden Befehl aus, um die Bereitstellung unter Verwendung des ManagedOnlineDeployment-Objekts zu erstellen:
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
Sobald die Bereitstellung abgeschlossen ist, wird der Datenverkehrswert auf 0% gesetzt. Aktualisieren Sie den Datenverkehr auf 100 %.
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

Schließen Sie den Assistenten ab, um den Endpunkt bereitzustellen.
Sobald die Bereitstellung abgeschlossen ist, wird der Datenverkehrswert auf 0% gesetzt. Aktualisieren Sie den Datenverkehr auf der Seite „Endpunkt“ auf 100 %, indem Sie in der zweiten Menüzeile auf Update Traffic klicken.

Testen des Endpunkts

GILT FÜRAzure CLI-ML-Erweiterung v2 (aktuell)

Sobald die Bereitstellung abgeschlossen ist, verwenden Sie den folgenden Befehl, um eine Bewertungsanfrage an den bereitgestellten Endpunkt zu stellen.

Tipp

Die Datei /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py im azureml-examples Repo wird für die Bewertung verwendet. Das an den Endpunkt übermittelte Bild muss vorverarbeitet werden, um die Anforderungen an Größe, Typ und Format zu erfüllen, und nachverarbeitet werden, um das vorhergesagte Label anzuzeigen. Die triton_densenet_scoring.py verwendet die tritonclient.http-Bibliothek zur Kommunikation mit dem Triton-Inferenzserver. Diese Datei wird auf der Clientseite ausgeführt.

Um die Endpunktbewertungsuri zu erhalten, verwenden Sie den folgenden Befehl:

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

Führen Sie den folgenden Befehl aus, um einen Authentifizierungsschlüssel abzurufen:

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

Um Daten mit dem Endpunkt zu bewerten, verwenden Sie den folgenden Befehl. Er übermittelt das Bild eines Pfaus (https://aka.ms/peacock-pic) an den Endpunkt:

python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg

Die Antwort des Skripts ähnelt dem folgenden Text:

Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Um die Endpunktbewertungsuri zu erhalten, verwenden Sie den folgenden Befehl:

endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri

Führen Sie den folgenden Befehl aus, um einen Authentifizierungsschlüssel abzurufen: keys = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

Der folgende Bewertungscode verwendet den Triton Inference Server-Client, um das Bild eines Pfaus an den Endpunkt zu übermitteln. Dieses Skript ist im Begleitnotebook für dieses Beispiel verfügbar – Bereitstellen eines Modells für Online-Endpunkte mithilfe von Triton.

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

Die Antwort des Skripts ähnelt dem folgenden Text:

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

Löschen des Endpunkts und des Modells

GILT FÜRAzure CLI-ML-Erweiterung v2 (aktuell)

Wenn Sie mit dem Endpunkt fertig sind, verwenden Sie den folgenden Befehl, um ihn zu löschen:
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```
Führen Sie den folgenden Befehl aus, um Ihr Modell zu archivieren:
```
az ml model archive --name $MODEL_NAME --version $MODEL_VERSION
```

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Löschen Sie den Endpunkt. Durch das Löschen des Endpunkts werden auch untergeordnete Bereitstellungen gelöscht, es werden jedoch keine zugeordneten Umgebungen oder Modelle archiviert.
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```

Archivieren Sie das Modell mit dem folgenden Code.

ml_client.models.archive(name=model_name, version=model_version)

Nächste Schritte

Weitere Informationen finden Sie in den folgenden Artikeln:

Freigeben über

High-Performance-Bereitstellung mit Triton Inference Server (Vorschau)

Voraussetzungen

Definieren der Bereitstellungskonfiguration

Bereitstellen in Azure

Testen des Endpunkts

Löschen des Endpunkts und des Modells

Nächste Schritte

Feedback

Zusätzliche Ressourcen