Högpresterande server med Triton Inference Server

Artikel
09/02/2024

GÄLLER FÖR:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (aktuell)

Lär dig hur du använder NVIDIA Triton Inference Server i Azure Mašinsko učenje med onlineslutpunkter.

Triton är programvara med öppen källkod med flera ramverk som är optimerad för slutsatsdragning. Det stöder populära maskininlärningsramverk som TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT med mera. Det kan användas för dina CPU- eller GPU-arbetsbelastningar.

Det finns huvudsakligen två metoder som du kan använda för att utnyttja Triton-modeller när du distribuerar dem till onlineslutpunkten: Distribution utan kod eller fullkodsdistribution (Bring your own container).

Distribution utan kod för Triton-modeller är ett enkelt sätt att distribuera dem eftersom du bara behöver använda Triton-modeller för distribution.
Fullkodsdistribution (Bring your own container) för Triton-modeller är ett mer avancerat sätt att distribuera dem eftersom du har fullständig kontroll över hur du anpassar de konfigurationer som är tillgängliga för Triton-slutsatsdragningsservern.

För båda alternativen utför Triton-slutsatsdragningsservern inferens baserat på Triton-modellen enligt definitionen av NVIDIA. Till exempel kan ensemblemodeller användas för mer avancerade scenarier.

Triton stöds i både hanterade onlineslutpunkter och Kubernetes onlineslutpunkter.

I den här artikeln får du lära dig hur du distribuerar en modell med hjälp av distribution utan kod för Triton till en hanterad onlineslutpunkt. Information finns om hur du använder CLI (kommandoraden), Python SDK v2 och Azure Mašinsko učenje studio. Om du vill anpassa ytterligare direkt med Triton-slutsatsdragningsserverns konfiguration läser du Använda en anpassad container för att distribuera en modell och BYOC-exemplet för Triton (distributionsdefinition och slutpunkt till slutpunkt-skript).

Kommentar

Användning av NVIDIA Triton Inference Server-containern styrs av licensavtalet för NVIDIA AI Enterprise Software och kan användas i 90 dagar utan en företagsproduktprenumeration. Mer information finns i NVIDIA AI Enterprise på Azure Mašinsko učenje.

Förutsättningar

Innan du följer stegen i den här artikeln kontrollerar du att du har följande förutsättningar:

Azure CLI och ml tillägget till Azure CLI. Mer information finns i Installera, konfigurera och använda CLI (v2).

Viktigt!

CLI-exemplen i den här artikeln förutsätter att du använder Bash-gränssnittet (eller det kompatibla). Till exempel från ett Linux-system eller Windows podsistem za Linux.
En Azure Machine Learning-arbetsyta. Om du inte har någon använder du stegen i Installera, konfigurera och använda CLI (v2) för att skapa en.

En fungerande Python 3.8-miljö (eller senare).
Du måste ha ytterligare Python-paket installerade för bedömning och kan installera dem med koden nedan. De omfattar:
- Numpy – en matris och numeriskt databehandlingsbibliotek
- Triton Inference Server Client – Underlättar begäranden till Triton Inference Server
- Pillow – ett bibliotek för bildåtgärder
- Gevent – ett nätverksbibliotek som används vid anslutning till Triton Server

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Åtkomst till virtuella datorer i NCv3-serien för din Azure-prenumeration.

Viktigt!

Du kan behöva begära en kvotökning för din prenumeration innan du kan använda den här serien med virtuella datorer. Mer information finns i NCv3-serien.

NVIDIA Triton Inference Server kräver en specifik modelllagringsplatsstruktur, där det finns en katalog för varje modell och underkataloger för modellversionen. Innehållet i varje modellversionsunderkatalog bestäms av typen av modell och kraven för den serverdel som stöder modellen. Så här ser du hela modelllagringsplatsens struktur https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

Informationen i det här dokumentet baseras på användning av en modell som lagras i ONNX-format, så katalogstrukturen för modelllagringsplatsen är <model-repository>/<model-name>/1/model.onnx. Mer specifikt utför den här modellen bildidentifiering.

Informationen i den här artikeln baseras på kodexempel som finns i lagringsplatsen azureml-examples . Om du vill köra kommandona lokalt utan att behöva kopiera/klistra in YAML och andra filer klonar du lagringsplatsen och ändrar sedan katalogerna till cli katalogen på lagringsplatsen:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

Om du inte redan har angett standardinställningarna för Azure CLI sparar du standardinställningarna. Använd följande kommandon för att undvika att skicka in värdena för din prenumeration, arbetsyta och resursgrupp flera gånger. Ersätt följande parametrar med värden för din specifika konfiguration:

Ersätt <subscription> med ditt Azure-prenumerations-ID.
Ersätt <workspace> med namnet på din Azure Mašinsko učenje-arbetsyta.
Ersätt <resource-group> med den Azure-resursgrupp som innehåller din arbetsyta.
Ersätt <location> med Den Azure-region som innehåller din arbetsyta.

Dricks

Du kan se vilka dina aktuella standardvärden är med hjälp az configure -l av kommandot .

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Innan du följer stegen i den här artikeln kontrollerar du att du har följande förutsättningar:

En Azure Machine Learning-arbetsyta. Om du inte har någon använder du stegen i artikeln Snabbstart: Skapa arbetsyteresurser för att skapa en.
Om du vill installera Python SDK v2 använder du följande kommando:
```
pip install azure-ai-ml azure-identity
```
Om du vill uppdatera en befintlig installation av SDK:et till den senaste versionen använder du följande kommando:
```
pip install --upgrade azure-ai-ml azure-identity
```
Mer information finns i Installera Python SDK v2 för Azure Mašinsko učenje.

En fungerande Python 3.8-miljö (eller senare).
Du måste ha ytterligare Python-paket installerade för bedömning och kan installera dem med koden nedan. De omfattar:
- Numpy – en matris och numeriskt databehandlingsbibliotek
- Triton Inference Server Client – Underlättar begäranden till Triton Inference Server
- Pillow – ett bibliotek för bildåtgärder
- Gevent – ett nätverksbibliotek som används vid anslutning till Triton Server
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Åtkomst till virtuella datorer i NCv3-serien för din Azure-prenumeration.

Viktigt!

Du kan behöva begära en kvotökning för din prenumeration innan du kan använda den här serien med virtuella datorer. Mer information finns i NCv3-serien.

Informationen i den här artikeln baseras på notebook-filen online-endpoints-triton.ipynb som finns på lagringsplatsen azureml-examples . Om du vill köra kommandona lokalt utan att behöva kopiera/klistra in filer klonar du lagringsplatsen och ändrar sedan kataloger till sdk/endpoints/online/triton/single-model/ katalogen på lagringsplatsen:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

Definiera distributionskonfigurationen

GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)

Det här avsnittet visar hur du kan distribuera till en hanterad onlineslutpunkt med hjälp av Azure CLI med tillägget Mašinsko učenje (v2).

Viktigt!

För Triton no-code-deployment stöds för närvarande inte testning via lokala slutpunkter .

Om du vill undvika att skriva in en sökväg för flera kommandon använder du följande kommando för att ange en BASE_PATH miljövariabel. Den här variabeln pekar på katalogen där modellen och tillhörande YAML-konfigurationsfiler finns:
```
BASE_PATH=endpoints/online/triton/single-model
```
Använd följande kommando för att ange namnet på slutpunkten som ska skapas. I det här exemplet skapas ett slumpmässigt namn för slutpunkten:
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
Skapa en YAML-konfigurationsfil för slutpunkten. I följande exempel konfigureras slutpunktens namn och autentiseringsläge. Den som används i följande kommandon finns i /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml lagringsplatsen azureml-examples som du klonade tidigare:

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
Skapa en YAML-konfigurationsfil för distributionen. I följande exempel konfigureras en distribution med namnet blue till slutpunkten som definierades i föregående steg. Den som används i följande kommandon finns i /cli/endpoints/online/triton/single-model/create-managed-deployment.yml lagringsplatsen azureml-examples som du klonade tidigare:

Viktigt!

För att Triton no-code-deployment (NCD) ska fungera krävs inställningen type till triton_model , type: triton_model. Mer information finns i YAML-schema för CLI-modell (v2).

Den här distributionen använder en Standard_NC6s_v3 virtuell dator. Du kan behöva begära en kvotökning för din prenumeration innan du kan använda den här virtuella datorn. Mer information finns i NCv3-serien.
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Det här avsnittet visar hur du kan definiera en Triton-distribution för distribution till en hanterad onlineslutpunkt med hjälp av Azure Mašinsko učenje Python SDK (v2).

Viktigt!

För Triton no-code-deployment stöds för närvarande inte testning via lokala slutpunkter .

För att ansluta till en arbetsyta behöver vi identifierarparametrar – en prenumeration, resursgrupp och arbetsytenamn.
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
Använd följande kommando för att ange namnet på slutpunkten som ska skapas. I det här exemplet skapas ett slumpmässigt namn för slutpunkten:
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
Vi använder den här informationen ovan i MLClient från azure.ai.ml för att få en handtag till den nödvändiga Azure Mašinsko učenje-arbetsytan. Mer information om hur du konfigurerar autentiseringsuppgifter och ansluter till en arbetsyta finns i konfigurationsanteckningsboken .
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
Skapa ett ManagedOnlineEndpoint objekt för att konfigurera slutpunkten. I följande exempel konfigureras slutpunktens namn och autentiseringsläge.
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

Skapa ett ManagedOnlineDeployment objekt för att konfigurera distributionen. I följande exempel konfigureras en distribution med namnet blue till slutpunkten som definierades i föregående steg och definierar en lokal modell infogad.

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

Det här avsnittet visar hur du kan definiera en Triton-distribution på en hanterad onlineslutpunkt med Hjälp av Azure Mašinsko učenje Studio.

Registrera din modell i Triton-format med hjälp av följande YAML- och CLI-kommando. YAML använder en densenet-onnx-modell från https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
Följande skärmbild visar hur din registrerade modell kommer att se ut på sidan Modeller i Azure Mašinsko učenje Studio.
Från studio väljer du din arbetsyta och använder sedan antingen sidan slutpunkter eller modeller för att skapa slutpunktsdistributionen:
- Sidan Slutpunkter
- Sidan Modeller
1. På sidan Slutpunkter väljer du Skapa.
2. Ange ett namn och en autentiseringstyp för slutpunkten och välj sedan Nästa.
3. När du väljer en modell väljer du den Triton-modell som registrerats tidigare. Klicka på Nästa när du vill fortsätta.
4. När du väljer en modell som är registrerad i Triton-format i steget Miljö i guiden behöver du inte bedömningsskript och miljö.
1. Välj Triton-modellen och välj sedan Distribuera. När du uppmanas till det väljer du Distribuera till realtidsslutpunkt.

Distribuera till Azure

GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)

Om du vill skapa en ny slutpunkt med YAML-konfigurationen använder du följande kommando:

az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml

Om du vill skapa distributionen med YAML-konfigurationen använder du följande kommando:

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Om du vill skapa en ny slutpunkt med hjälp av ManagedOnlineEndpoint objektet använder du följande kommando:
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
Använd följande kommando för att skapa distributionen ManagedOnlineDeployment med hjälp av objektet:
```
ml_client.online_deployments.begin_create_or_update(deployment)
```

När distributionen är klar anges dess trafikvärde till 0%. Uppdatera trafiken till 100 %.

endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)

Testa slutpunkten

GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)

När distributionen är klar använder du följande kommando för att göra en bedömningsbegäran till den distribuerade slutpunkten.

Dricks

Filen /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py i lagringsplatsen azureml-examples används för bedömning. Avbildningen som skickas till slutpunkten behöver förbearbetning för att uppfylla storleks-, typ- och formatkraven och efterbearbetningen för att visa den förutsagda etiketten. triton_densenet_scoring.py Använder tritonclient.http biblioteket för att kommunicera med Triton-slutsatsdragningsservern. Den här filen körs på klientsidan.

Använd följande kommando för att hämta slutpunktsbedömnings-uri:

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

Använd följande kommando för att hämta en autentiseringsnyckel:

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

Om du vill poängsätta data med slutpunkten använder du följande kommando. Den skickar bilden av en påfågel (https://aka.ms/peacock-pic) till slutpunkten:

python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg

Svaret från skriptet liknar följande text:

Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Använd följande kommando för att hämta slutpunktsbedömnings-uri:

endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri

Om du vill hämta en autentiseringsnyckel använder du följande kommando: nycklar = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

Följande bedömningskod använder Triton Inference Server Client för att skicka avbildningen av en påfågel till slutpunkten. Det här skriptet är tillgängligt i den tillhörande notebook-filen i det här exemplet – Distribuera en modell till onlineslutpunkter med Triton.

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

Svaret från skriptet liknar följande text:

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

Ta bort slutpunkten och modellen

GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)

När du är klar med slutpunkten använder du följande kommando för att ta bort den:
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```

Använd följande kommando för att arkivera din modell:

az ml model archive --name $MODEL_NAME --version $MODEL_VERSION

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Ta bort slutpunkten. Om du tar bort slutpunkten tas även eventuella underordnade distributioner bort, men de arkiverar inte associerade miljöer eller modeller.
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```

Arkivera modellen med följande kod.

ml_client.models.archive(name=model_name, version=model_version)

Nästa steg

Mer information finns i följande artiklar:

Dela via

Högpresterande server med Triton Inference Server

Förutsättningar

Definiera distributionskonfigurationen

Distribuera till Azure

Testa slutpunkten

Ta bort slutpunkten och modellen

Nästa steg

Feedback

Ytterligare resurser