Prestazioni elevate con Triton Inference Server

Articolo
10/16/2024

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Informazioni su come usare NVIDIA Triton Inference Server in Azure Machine Learning con endpoint online.

Triton è un software multi-framework open source ottimizzato per l'inferenza. Supporta framework di apprendimento automatico diffusi come TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT e altri. Può essere usato per i carichi di lavoro della CPU o della GPU.

Esistono principalmente due approcci che è possibile adottare per sfruttare i modelli quando vengono distribuiti nell'endpoint online: distribuzione senza codice o distribuzione full-code (Bring your own container).

La distribuzione senza codice per i modelli Triton è un modo semplice per distribuirli perché è sufficiente portare i modelli di Resource Manager per la distribuzione.
La distribuzione full-code (Bring your own container) per i modelli di Resource Manager è un modo più avanzato per distribuirle, poiché si ha il controllo completo sulla personalizzazione delle configurazioni disponibili per il server di inferenza di Explorer.

Per entrambe le opzioni, il server di inferenza Triton eseguirà l'inferenza in base al modello Triton come definito da NVIDIA. Ad esempio, è possibile usare modelli di ensemble per scenari più avanzati.

Triton è supportato sia negli endpoint online gestiti che negli endpoint online Kubernetes.

Questo articolo spiega come distribuire un modello utilizzando in una distribuzione senza codice per Triton in un endpoint online gestito. Le informazioni sono fornite usando l'interfaccia della riga di comando, l’SDK Python v2 e Azure Machine Learning Studio. Per personalizzare ulteriormente l'uso diretto della configurazione del server di inferenza Triton, vedere Usare un contenitore personalizzato per distribuire un modello e l'esempio BYOC per la distribuzione (definizione di distribuzione e script end-to-end).

Nota

L'uso del contenitore NVIDIA Triton Inference Server è disciplinato dall’accordo di licenza NVIDIA AI Enterprise Software e può essere usato per 90 giorni senza una sottoscrizione di prodotto aziendale. Per altre informazioni, vedere NVIDIA AI Enterprise su Azure Machine Learning.

Prerequisiti

Prima di seguire la procedura descritta in questo articolo, assicurarsi di disporre dei prerequisiti seguenti:

L'interfaccia della riga di comando di Azure e l'estensione ml per l'interfaccia della riga di comando di Azure. Per altre informazioni, vedere Installare, configurare e usare l'interfaccia della riga di comando (v2).

Importante

Gli esempi dell'interfaccia della riga di comando in questo articolo presuppongono che si usi la shell Bash (o compatibile). Ad esempio, un sistema Linux o un sottosistema Windows per Linux.
Un'area di lavoro di Azure Machine Learning. Se non è disponibile, usare la procedura descritta in Installare, configurare e usare l'interfaccia della riga di comando (v2) per crearne una.

Ambiente Python 3.8 (o versione successiva) funzionante.
È necessario aver installato altri pacchetti Python per l'assegnazione dei punteggi; l’installazione può essere effettuata con il codice seguente. che includono:
- Numpy: un array e una libreria di calcolo numerico
- Triton Inference Server Client: facilita le richieste a Triton Inference Server
- Pillow: una libreria per operazioni sulle immagini
- Gevent: una libreria di rete usata per la connessione a Triton Server

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Accesso alle macchine virtuali serie NCv3 per la sottoscrizione di Azure.

Importante

Potrebbe essere necessario richiedere un aumento della quota per la sottoscrizione prima di poter usare questa serie di macchine virtuali. Per altre informazioni, vedere Serie NCv3.

NVIDIA Triton Inference Server richiede una struttura di repository di modelli specifica che include una directory per ogni modello e sottodirectory per la versione del modello. Il contenuto di ogni sottodirectory della versione del modello è determinato dal tipo del modello e dai requisiti del back-end che supporta il modello. Per visualizzare tutta la struttura del repository dei modelli, vedere https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

Le informazioni contenute in questo documento si basano sull'uso di un modello archiviato in formato ONNX, pertanto la struttura di directory del repository dei modelli è <model-repository>/<model-name>/1/model.onnx. In particolare, questo modello esegue l'identificazione delle immagini.

Le informazioni contenute in questo articolo si basano sugli esempi di codice contenuti nel repository azureml-examples. Per eseguire i comandi in locale senza dover copiare/incollare il file YAML e altri file, clonare il repository e passare alla directory cli nel repository:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

Se le impostazioni predefinite per l'interfaccia della riga di comando di Azure non sono state ancora impostate, salvare le proprie impostazioni predefinite. Per evitare di passare più volte i valori per la propria sottoscrizione, area di lavoro e gruppo di risorse, usare i comandi seguenti. Sostituire i parametri seguenti con i valori della propria configurazione specifica:

Sostituire <subscription> con l'ID della sottoscrizione di Azure.
Sostituire <workspace> con il nome dell'area di lavoro di Azure Machine Learning.
Sostituire <resource-group> con il gruppo di risorse di Azure contenente la propria area di lavoro.
Sostituire <location> con l'area di Azure contenente la propria area di lavoro.

Suggerimento

È possibile visualizzare le impostazioni predefinite correnti usando il comando az configure -l.

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Prima di seguire la procedura descritta in questo articolo, assicurarsi di disporre dei prerequisiti seguenti:

Un'area di lavoro di Azure Machine Learning. Se non è disponibile, seguire la procedura descritta nell'articolo Avvio rapido: Creare risorse dell'area di lavoro per crearne una.
Per installare l’SDK Python v2, usare il comando seguente:
```
pip install azure-ai-ml azure-identity
```
Per aggiornare un'installazione esistente di SDK alla versione più recente, usare il comando seguente:
```
pip install --upgrade azure-ai-ml azure-identity
```
Per altre informazioni, vedere Installare l’SDK Python v2 per Azure Machine Learning.

Ambiente Python 3.8 (o versione successiva) funzionante.
È necessario aver installato altri pacchetti Python per l'assegnazione dei punteggi; l’installazione può essere effettuata con il codice seguente. che includono:
- Numpy: un array e una libreria di calcolo numerico
- Triton Inference Server Client: facilita le richieste a Triton Inference Server
- Pillow: una libreria per operazioni sulle immagini
- Gevent: una libreria di rete usata per la connessione a Triton Server
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Accesso alle macchine virtuali serie NCv3 per la sottoscrizione di Azure.

Importante

Potrebbe essere necessario richiedere un aumento della quota per la sottoscrizione prima di poter usare questa serie di macchine virtuali. Per altre informazioni, vedere Serie NCv3.

Le informazioni contenute in questo articolo si basano sul notebook online-endpoints-triton.ipynb incluso nel repository azureml-examples. Per eseguire i comandi in locale senza dover copiare/incollare file, clonare il repository e passare alla directory sdk/endpoints/online/triton/single-model/ nel repository:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

Definire la configurazione della distribuzione

SI APPLICA A:estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Questa sezione illustra come distribuire un endpoint online gestito usando l'interfaccia della riga di comando di Azure con l'estensione Machine Learning (v2).

Importante

Per la distribuzione senza codice di Triton, l’esecuzione di test tramite endpoint locali attualmente non è supportata.

Per evitare di digitare un percorso per più comandi, usare il comando seguente per impostare una variabile di ambiente BASE_PATH. Questa variabile punta alla directory contenente il modello e i file di configurazione YAML associati:
```
BASE_PATH=endpoints/online/triton/single-model
```
Usare il comando seguente per impostare il nome dell'endpoint che verrà creato. In questo esempio viene creato un nome casuale per l'endpoint:
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
Creare un file di configurazione YAML per l'endpoint. Nell'esempio seguente viene configurato il nome e la modalità di autenticazione dell'endpoint. Quello usato nei comandi seguenti si trova in /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml nel repository azureml-examples clonato in precedenza:

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
Creare un file di configurazione YAML per la distribuzione. Nell'esempio seguente viene configurata una distribuzione denominata blue nell'endpoint definito nel passaggio precedente. Quello usato nei comandi seguenti si trova in /cli/endpoints/online/triton/single-model/create-managed-deployment.yml nel repository azureml-examples clonato in precedenza:

Importante

Per il funzionamento della distribuzione senza codice di Triton, è necessario impostare type su triton_model, type: triton_model. Per altre informazioni, vedere Schema YAML del modello dell’interfaccia della riga di comando (v2).

Questa distribuzione usa una macchina virtuale Standard_NC6s_v3. Potrebbe essere necessario richiedere un aumento della quota per la sottoscrizione prima di poter usare questa macchina virtuale. Per altre informazioni, vedere Serie NCv3.
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Questa sezione illustra come definire una distribuzione di Triton per la distribuzione in un endpoint online gestito usando l'SDK Python (v2) di Azure Machine Learning.

Importante

Per la distribuzione senza codice di Triton, l’esecuzione di test tramite endpoint locali attualmente non è supportata.

Per connettersi a un'area di lavoro, sono necessari i parametri identificatore, ossia una sottoscrizione, un gruppo di risorse e un nome dell’area di lavoro.
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
Usare il comando seguente per impostare il nome dell'endpoint che verrà creato. In questo esempio viene creato un nome casuale per l'endpoint:
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
I dettagli sopra riportati verranno usati in MLClient da azure.ai.ml per ottenere un handle per l'area di lavoro di Azure Machine Learning necessaria. Per altre informazioni su come configurare le credenziali e connettersi a un'area di lavoro, controllare il notebook di configurazione.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
Creare un oggetto ManagedOnlineEndpoint per configurare l'endpoint. Nell'esempio seguente viene configurato il nome e la modalità di autenticazione dell'endpoint.
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

Creare un oggetto ManagedOnlineDeployment per configurare la distribuzione. Nell'esempio seguente viene configurata una distribuzione denominata blue nell'endpoint definito nel passaggio precedente e viene definito un modello locale inline.

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

Questa sezione illustra come definire una distribuzione di Triton in un endpoint online gestito usando Azure Machine Learning Studio.

Registrare il proprio modello in formato Triton usando il file YAML e il comando dell'interfaccia della riga di comando indicati di seguito. Il file YAML usa un modello densenet-onnx da https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
Lo screenshot seguente mostra l'aspetto del modello registrato nella pagina Modelli di Azure Machine Learning Studio.
Da Studio selezionare l'area di lavoro e usare la pagina Endpoint o la pagina Modelli per creare la distribuzione dell'endpoint:
- Pagina Endpoint
- Pagina Modelli
1. Nella pagina Endpoint selezionare Crea.
2. Specificare un nome e un tipo di autenticazione per l'endpoint e selezionare Avanti.
3. Quando si seleziona un modello, selezionare il modello di Triton registrato in precedenza. Selezionare Avanti per continuare.
4. Quando si seleziona un modello registrato in formato Triton, nel passaggio della procedura guidata relativo all’ambiente non è necessario lo script di assegnazione dei punteggi e l'ambiente.
1. Selezionare il modello di Triton, quindi selezionare Distribuisci. Quando viene chiesto, selezionare Distribuisci nell’endpoint in tempo reale.

Distribuisci in Azure

SI APPLICA A:estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Per creare un nuovo endpoint tramite la configurazione YAML, usare il comando seguente:

az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml

Per creare la distribuzione tramite la configurazione YAML, usare il comando seguente:

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Per creare un nuovo endpoint tramite l’oggetto ManagedOnlineEndpoint, usare il comando seguente:
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
Per creare la distribuzione tramite l’oggetto ManagedOnlineDeployment, usare il comando seguente:
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
Al termine della distribuzione, il valore del traffico verrà impostato su 0%. Aggiornare il traffico al 100%.
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

Testare l'endpoint

SI APPLICA A:estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Al termine della distribuzione, usare il comando seguente per effettuare una richiesta di assegnazione dei punteggi all'endpoint distribuito.

Suggerimento

Per l'assegnazione dei punteggi viene usato il file /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py nel repository azureml-examples. L'immagine passata all'endpoint richiede una pre-elaborazione per soddisfare i requisiti di dimensione, tipo e formato, e una post-elaborazione per mostrare l'etichetta stimata. Il file triton_densenet_scoring.py usa la libreria tritonclient.http per comunicare con Triton Inference Server. Questo file viene eseguito sul lato client.

Per ottenere l’URI di assegnazione dei punteggi dell'endpoint, usare il comando seguente:

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

Per ottenere una chiave di autenticazione, usare il comando seguente:

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

Per assegnare un punteggio ai dati con l'endpoint, usare il comando seguente. Invia l'immagine di un pavone (https://aka.ms/peacock-pic) all'endpoint:

python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg

La risposta dello script è simile al testo seguente:

Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Per ottenere l’URI di assegnazione dei punteggi dell'endpoint, usare il comando seguente:

endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri

Per ottenere una chiave di autenticazione, usare il comando seguente: keys = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

Il codice di assegnazione dei punteggi seguente usa il client Triton Inference Server per inviare l'immagine di un pavone all'endpoint. Questo script è disponibile nel notebook complementare per questo esempio: Distribuire un modello in endpoint online usando Triton.

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

La risposta dello script è simile al testo seguente:

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

Eliminare l'endpoint e il modello

SI APPLICA A:estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Dopo aver completato le operazioni con l'endpoint, usare il comando seguente per eliminarlo:
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```

Usare il comando seguente per archiviare il modello:

az ml model archive --name $MODEL_NAME --version $MODEL_VERSION

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Eliminare l'endpoint. Eliminando l'endpoint, vengono eliminate anche tutte le distribuzioni figlio, ma non verranno archiviati gli ambienti o i modelli associati.
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```

Archiviare il modello con il codice seguente.

ml_client.models.archive(name=model_name, version=model_version)

Passaggi successivi

Per altre informazioni, vedere questi articoli:

Condividi tramite

Prestazioni elevate con Triton Inference Server

Prerequisiti

Definire la configurazione della distribuzione

Distribuisci in Azure

Testare l'endpoint

Eliminare l'endpoint e il modello

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive