Krachtige prestaties met Triton Inference Server

Artikel
11/16/2023

VAN TOEPASSING OP:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

Meer informatie over het gebruik van NVIDIA Triton Inference Server in Azure Machine Learning met online-eindpunten.

Triton is multi-framework, opensource-software die is geoptimaliseerd voor deductie. Het ondersteunt populaire machine learning-frameworks zoals TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT en meer. Deze kan worden gebruikt voor uw CPU- of GPU-workloads.

Er zijn voornamelijk twee benaderingen die u kunt gebruiken om Triton-modellen te gebruiken bij het implementeren ervan naar een online-eindpunt: implementatie zonder code of implementatie met volledige code (Bring Your Own Container).

Implementatie zonder code voor Triton-modellen is een eenvoudige manier om ze te implementeren, omdat u Triton-modellen alleen hoeft te implementeren.
Implementatie van volledige code (Bring Your Own Container) voor Triton-modellen is geavanceerder om ze te implementeren, omdat u volledige controle hebt over het aanpassen van de configuraties die beschikbaar zijn voor triton-deductieserver.

Voor beide opties voert de Triton-deductieserver deductie uit op basis van het Triton-model zoals gedefinieerd door NVIDIA. Ensemblemodellen kunnen bijvoorbeeld worden gebruikt voor geavanceerdere scenario's.

Triton wordt ondersteund in zowel beheerde online-eindpunten als Kubernetes Online-eindpunten.

In dit artikel leert u hoe u een model implementeert met behulp van implementatie zonder code voor Triton naar een beheerd online-eindpunt. Er wordt informatie gegeven over het gebruik van de CLI (opdrachtregel), Python SDK v2 en Azure Machine Learning-studio. Als u de configuratie van de Triton-deductieserver verder wilt aanpassen, raadpleegt u Een aangepaste container gebruiken om een model te implementeren en het BYOC-voorbeeld voor Triton (implementatiedefinitie en end-to-end script).

Notitie

Het gebruik van de NVIDIA Triton Inference Server-container is onderhevig aan de LICENTIEovereenkomst van NVIDIA AI Enterprise Software en kan gedurende 90 dagen worden gebruikt zonder een enterprise-productabonnement. Zie NVIDIA AI Enterprise op Azure Machine Learning voor meer informatie.

Vereisten

Voordat u de stappen in dit artikel volgt, moet u ervoor zorgen dat u over de volgende vereisten beschikt:

De Azure CLI en de ml extensie voor de Azure CLI. Zie De CLI (v2) installeren, instellen en gebruiken voor meer informatie.

Belangrijk

In de CLI-voorbeelden in dit artikel wordt ervan uitgegaan dat u de Bash-shell (of compatibele) shell gebruikt. Bijvoorbeeld vanuit een Linux-systeem of Windows-subsysteem voor Linux.
Een Azure Machine Learning-werkruimte. Als u er nog geen hebt, gebruikt u de stappen in de installatie, het instellen en gebruiken van de CLI (v2) om er een te maken.

Een werkende Python 3.8-omgeving (of hoger).
U moet extra Python-pakketten hebben geïnstalleerd voor scoren en deze mogelijk installeren met de onderstaande code. Deze omvatten:
- Numpy - Een bibliotheek voor matrix- en numerieke computing
- Triton Inference Server-client : vereenvoudigt aanvragen naar de Triton-deductieserver
- Pillow - Een bibliotheek voor afbeeldingsbewerkingen
- Gevent - Een netwerkbibliotheek die wordt gebruikt bij het maken van verbinding met de Triton-server

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Toegang tot VM's uit de NCv3-serie voor uw Azure-abonnement.

Belangrijk

Mogelijk moet u een quotumverhoging aanvragen voor uw abonnement voordat u deze reeks virtuele machines kunt gebruiken. Zie NCv3-serie voor meer informatie.

NVIDIA Triton Inference Server vereist een specifieke structuur van de modelopslagplaats, waarbij er een map is voor elk model en submappen voor de modelversie. De inhoud van elke submap van de modelversie wordt bepaald door het type model en de vereisten van de back-end die het model ondersteunt. Alle structuur van de modelopslagplaats weergeven https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

De informatie in dit document is gebaseerd op het gebruik van een model dat is opgeslagen in ONNX-indeling, dus de mapstructuur van de modelopslagplaats is <model-repository>/<model-name>/1/model.onnx. In het bijzonder voert dit model afbeeldingsidentificatie uit.

De informatie in dit artikel is gebaseerd op codevoorbeelden in de opslagplaats azureml-examples . Als u de opdrachten lokaal wilt uitvoeren zonder YAML en andere bestanden te hoeven kopiëren/plakken, kloont u de opslagplaats en wijzigt u vervolgens mappen in de cli map in de opslagplaats:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

Als u de standaardinstellingen voor de Azure CLI nog niet hebt ingesteld, slaat u de standaardinstellingen op. Gebruik de volgende opdrachten om te voorkomen dat de waarden voor uw abonnement, werkruimte en resourcegroep meerdere keren worden doorgegeven. Vervang de volgende parameters door waarden voor uw specifieke configuratie:

Vervang <subscription> door de id van uw Azure-abonnement.
Vervang door <workspace> de naam van uw Azure Machine Learning-werkruimte.
Vervang door <resource-group> de Azure-resourcegroep die uw werkruimte bevat.
Vervang door <location> de Azure-regio die uw werkruimte bevat.

Tip

U kunt zien wat de huidige standaardwaarden zijn met behulp van de az configure -l opdracht.

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

Voordat u de stappen in dit artikel volgt, moet u ervoor zorgen dat u over de volgende vereisten beschikt:

Een Azure Machine Learning-werkruimte. Als u er nog geen hebt, gebruikt u de stappen in de quickstart: artikel Werkruimtebronnen maken om er een te maken.
Gebruik de volgende opdracht om de Python SDK v2 te installeren:
```
pip install azure-ai-ml azure-identity
```
Gebruik de volgende opdracht om een bestaande installatie van de SDK bij te werken naar de nieuwste versie:
```
pip install --upgrade azure-ai-ml azure-identity
```
Zie De Python SDK v2 voor Azure Machine Learning installeren voor meer informatie.

Een werkende Python 3.8-omgeving (of hoger).
U moet extra Python-pakketten hebben geïnstalleerd voor scoren en deze mogelijk installeren met de onderstaande code. Deze omvatten:
- Numpy - Een bibliotheek voor matrix- en numerieke computing
- Triton Inference Server-client : vereenvoudigt aanvragen naar de Triton-deductieserver
- Pillow - Een bibliotheek voor afbeeldingsbewerkingen
- Gevent - Een netwerkbibliotheek die wordt gebruikt bij het maken van verbinding met de Triton-server
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Toegang tot VM's uit de NCv3-serie voor uw Azure-abonnement.

Belangrijk

Mogelijk moet u een quotumverhoging aanvragen voor uw abonnement voordat u deze reeks virtuele machines kunt gebruiken. Zie NCv3-serie voor meer informatie.

De informatie in dit artikel is gebaseerd op de online-endpoints-triton.ipynb notebook in de opslagplaats azureml-examples . Als u de opdrachten lokaal wilt uitvoeren zonder bestanden te hoeven kopiëren/plakken, kloont u de opslagplaats en wijzigt u vervolgens mappen in de sdk/endpoints/online/triton/single-model/ map in de opslagplaats:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

De implementatieconfiguratie definiëren

VAN TOEPASSING OP:Azure CLI ml-extensie v2 (huidige)

In deze sectie wordt beschreven hoe u kunt implementeren naar een beheerd online-eindpunt met behulp van de Azure CLI met de Machine Learning-extensie (v2).

Belangrijk

Testen via lokale eindpunten wordt momenteel niet ondersteund voor triton-implementatie zonder code.

Gebruik de volgende opdracht om een BASE_PATH omgevingsvariabele in te stellen om te voorkomen dat u typt in een pad voor meerdere opdrachten. Deze variabele verwijst naar de map waarin het model en de bijbehorende YAML-configuratiebestanden zich bevinden:
```
BASE_PATH=endpoints/online/triton/single-model
```
Gebruik de volgende opdracht om de naam in te stellen van het eindpunt dat wordt gemaakt. In dit voorbeeld wordt een willekeurige naam gemaakt voor het eindpunt:
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
Maak een YAML-configuratiebestand voor uw eindpunt. In het volgende voorbeeld worden de naam en verificatiemodus van het eindpunt geconfigureerd. De opslagplaats die u in de volgende opdrachten hebt gebruikt, bevindt zich in /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml de opslagplaats azureml-examples die u eerder hebt gekloond:

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
Maak een YAML-configuratiebestand voor de implementatie. In het volgende voorbeeld wordt een implementatie met de naam blauw geconfigureerd voor het eindpunt dat in de vorige stap is gedefinieerd. De opslagplaats die u in de volgende opdrachten hebt gebruikt, bevindt zich in /cli/endpoints/online/triton/single-model/create-managed-deployment.yml de opslagplaats azureml-examples die u eerder hebt gekloond:

Belangrijk

Voor een juiste werking van Triton no-code-deployment (NCD) is instelling typetriton_model vereist, type: triton_model. Zie HET YAML-schema van het CLI-model (v2) voor meer informatie.

Deze implementatie maakt gebruik van een Standard_NC6s_v3 VM. Mogelijk moet u een quotumverhoging aanvragen voor uw abonnement voordat u deze VIRTUELE machine kunt gebruiken. Zie NCv3-serie voor meer informatie.
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

In deze sectie wordt beschreven hoe u een Triton-implementatie kunt definiëren om te implementeren naar een beheerd online-eindpunt met behulp van de Azure Machine Learning Python SDK (v2).

Belangrijk

Testen via lokale eindpunten wordt momenteel niet ondersteund voor triton-implementatie zonder code.

Als u verbinding wilt maken met een werkruimte, hebben we id-parameters nodig: een abonnement, resourcegroep en werkruimtenaam.
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
Gebruik de volgende opdracht om de naam in te stellen van het eindpunt dat wordt gemaakt. In dit voorbeeld wordt een willekeurige naam gemaakt voor het eindpunt:
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
We gebruiken deze gegevens hierboven in de MLClient van azure.ai.ml om een ingang te krijgen voor de vereiste Azure Machine Learning-werkruimte. Raadpleeg het configuratienotitieblok voor meer informatie over het configureren van referenties en het maken van verbinding met een werkruimte.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
Maak een ManagedOnlineEndpoint object om het eindpunt te configureren. In het volgende voorbeeld worden de naam en verificatiemodus van het eindpunt geconfigureerd.
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

Maak een ManagedOnlineDeployment object om de implementatie te configureren. In het volgende voorbeeld wordt een implementatie met de naam blauw geconfigureerd voor het eindpunt dat in de vorige stap is gedefinieerd en wordt een lokaal model inline gedefinieerd.

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

In deze sectie wordt beschreven hoe u een Triton-implementatie op een beheerd online-eindpunt kunt definiëren met behulp van Azure Machine Learning-studio.

Registreer uw model in Triton-indeling met behulp van de volgende YAML- en CLI-opdracht. De YAML maakt gebruik van een densenet-onnx-model van https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
In de volgende schermopname ziet u hoe uw geregistreerde model eruitziet op de pagina Modellen van Azure Machine Learning-studio.
Selecteer in Studio uw werkruimte en gebruik vervolgens de pagina eindpunten of modellen om de eindpuntimplementatie te maken:
- Pagina Eindpunten
- Pagina Modellen
1. Selecteer Maken op de pagina Eindpunten.
2. Geef een naam en verificatietype op voor het eindpunt en selecteer vervolgens Volgende.
3. Wanneer u een model selecteert, selecteert u het Triton-model dat eerder is geregistreerd. Selecteer Volgende om door te gaan.
4. Wanneer u een model selecteert dat is geregistreerd in Triton-indeling, hebt u in de stap Omgeving van de wizard geen scorescript en omgeving nodig.
1. Selecteer het Triton-model en selecteer vervolgens Implementeren. Wanneer u hierom wordt gevraagd, selecteert u Implementeren naar realtime-eindpunt.

Implementeren op Azure

VAN TOEPASSING OP:Azure CLI ml-extensie v2 (huidige)

Gebruik de volgende opdracht om een nieuw eindpunt te maken met behulp van de YAML-configuratie:
```
az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml
```

Gebruik de volgende opdracht om de implementatie te maken met behulp van de YAML-configuratie:

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

Gebruik de volgende opdracht om een nieuw eindpunt te maken met behulp van het ManagedOnlineEndpoint object:
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
Gebruik de volgende opdracht om de implementatie te maken met behulp van het ManagedOnlineDeployment object:
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
Zodra de implementatie is voltooid, wordt de verkeerswaarde ingesteld op 0%. Werk het verkeer bij naar 100%.
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

Het eindpunt testen

VAN TOEPASSING OP:Azure CLI ml-extensie v2 (huidige)

Zodra de implementatie is voltooid, gebruikt u de volgende opdracht om een scoreaanvraag uit te voeren voor het geïmplementeerde eindpunt.

Tip

Het bestand /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py in de opslagplaats azureml-examples wordt gebruikt voor het scoren. De afbeelding die aan het eindpunt wordt doorgegeven, moet vooraf worden verwerkt om te voldoen aan de grootte, het type en de indelingsvereisten en na verwerking om het voorspelde label weer te geven. De triton_densenet_scoring.py bibliotheek gebruikt de tritonclient.http bibliotheek om te communiceren met de Triton-deductieserver. Dit bestand wordt uitgevoerd aan de clientzijde.

Gebruik de volgende opdracht om de score-URI voor eindpunten op te halen:

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

Gebruik de volgende opdracht om een verificatiesleutel op te halen:

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

Gebruik de volgende opdracht om gegevens te scoren met het eindpunt. De afbeelding van een peacock (https://aka.ms/peacock-pic) wordt verzonden naar het eindpunt:

python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg

Het antwoord van het script is vergelijkbaar met de volgende tekst:

Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

Gebruik de volgende opdracht om de score-URI voor eindpunten op te halen:

endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri

Gebruik de volgende opdracht om een verificatiesleutel op te halen: sleutels = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

De volgende scorecode maakt gebruik van de Triton Inference Server-client om de afbeelding van een peacock naar het eindpunt te verzenden. Dit script is beschikbaar in het bijbehorende notebook in dit voorbeeld: een model implementeren op online-eindpunten met behulp van Triton.

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

Het antwoord van het script is vergelijkbaar met de volgende tekst:

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

Het eindpunt en model verwijderen

VAN TOEPASSING OP:Azure CLI ml-extensie v2 (huidige)

Wanneer u klaar bent met het eindpunt, gebruikt u de volgende opdracht om het te verwijderen:
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```

Gebruik de volgende opdracht om uw model te archiveren:

az ml model archive --name $MODEL_NAME --version $MODEL_VERSION

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

Verwijder het eindpunt. Als u het eindpunt verwijdert, worden ook onderliggende implementaties verwijderd, maar worden gekoppelde omgevingen of modellen niet gearchiveerd.
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```

Archiveer het model met de volgende code.

ml_client.models.archive(name=model_name, version=model_version)

Volgende stappen

Lees voor meer informatie de volgende artikelen:

Krachtige prestaties met Triton Inference Server

Vereisten

De implementatieconfiguratie definiëren

Implementeren op Azure

Het eindpunt testen

Het eindpunt en model verwijderen

Volgende stappen

Aanvullende resources