Penyajian berkinerja tinggi dengan Triton Inference Server

Artikel
04/07/2024

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)Python SDK azure-ai-ml v2 (saat ini)

Pelajari cara menggunakan NVIDIA Triton Inference Server di Azure Pembelajaran Mesin dengan titik akhir online.

Triton adalah perangkat lunak sumber terbuka multi-kerangka kerja yang dioptimalkan untuk inferensi. NVIDIA Triton Inference Server mendukung kerangka kerja pembelajaran mesin populer seperti TensorFlow, Runtime ONNX, PyTorch, NVIDIA TensorRT, dan banyak lagi. Ini dapat digunakan untuk beban kerja CPU atau GPU Anda.

Terutama ada dua pendekatan yang dapat Anda lakukan untuk memanfaatkan model Triton saat menyebarkannya ke titik akhir online: Penyebaran tanpa kode atau penyebaran kode lengkap (Bawa kontainer Anda sendiri).

Penyebaran tanpa kode untuk model Triton adalah cara sederhana untuk menyebarkannya karena Anda hanya perlu membawa model Triton untuk disebarkan.
Penyebaran kode penuh (Bawa kontainer Anda sendiri) untuk model Triton adalah cara yang lebih canggih untuk menyebarkannya karena Anda memiliki kontrol penuh pada penyesuaian konfigurasi yang tersedia untuk server inferensi Triton.

Untuk kedua opsi, server inferensi Triton akan melakukan inferensi berdasarkan model Triton seperti yang didefinisikan oleh NVIDIA. Misalnya, model ansambel dapat digunakan untuk skenario yang lebih canggih.

Triton didukung di titik akhir online terkelola dan titik akhir online Kubernetes.

Dalam artikel ini, Anda akan mempelajari cara menyebarkan model menggunakan penyebaran tanpa kode untuk Triton ke titik akhir online terkelola. Informasi disediakan tentang menggunakan CLI (baris perintah), Python SDK v2, dan studio Azure Pembelajaran Mesin. Jika Anda ingin menyesuaikan lebih lanjut secara langsung menggunakan konfigurasi server inferensi Triton, lihat Menggunakan kontainer kustom untuk menyebarkan model dan contoh BYOC untuk Triton (definisi penyebaran dan skrip end-to-end).

Catatan

Penggunaan kontainer NVIDIA Triton Inference Server diatur oleh perjanjian lisensi NVIDIA AI Enterprise Software dan dapat digunakan selama 90 hari tanpa langganan produk perusahaan. Untuk informasi selengkapnya, lihat NVIDIA AI Enterprise di Azure Pembelajaran Mesin.

Prasyarat

Sebelum mengikuti langkah-langkah dalam artikel ini, pastikan Anda memiliki prasyarat berikut:

Azure CLI dan ekstensi ml ke Azure CLI. Untuk informasi selengkapnya, lihat Menginstal, menyiapkan, dan menggunakan CLI (v2).

Penting

Contoh CLI dalam artikel ini mengasumsikan bahwa Anda menggunakan shell Bash (atau kompatibel). Misalnya, dari sistem Linux atau Subsistem Windows untuk Linux.
Ruang kerja Azure Machine Learning. Jika Anda tidak memilikinya, gunakan langkah-langkah di Pasang, siapkan, dan gunakan CLI (v2) untuk membuatnya.

Lingkungan Python 3.8 (atau lebih tinggi) yang berfungsi.
Anda harus memiliki paket Python tambahan yang diinstal untuk penilaian dan dapat menginstalnya dengan kode di bawah ini. Meliputi:
- Numpy - Array dan pustaka komputasi numerik
- Triton Inference Server Client - Memfasilitasi permintaan ke Triton Inference Server
- Bantal - Pustaka untuk operasi gambar
- Gevent - Pustaka jaringan yang digunakan saat menyambungkan ke Triton Server

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Akses ke mesin virtual seri NCv3 untuk langganan Azure Anda.

Penting

Anda mungkin perlu meminta peningkatan kuota untuk langganan Anda sebelum Anda dapat menggunakan seri mesin virtual ini. Untuk informasi selengkapnya, lihat Seri NCv3.

NVIDIA Triton Inference Server membutuhkan struktur repositori model tertentu, tempat tersedianya direktori untuk setiap model dan subdirektori untuk versi model. Isi dari setiap subdirektori versi model ditentukan oleh jenis model dan persyaratan backend yang mendukung model. Untuk melihat semua struktur repositori model https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

Informasi dalam dokumen ini didasarkan pada penggunaan model yang disimpan dalam format ONNX, sehingga struktur direktori repositori model adalah <model-repository>/<model-name>/1/model.onnx. Secara khusus, model ini melakukan identifikasi gambar.

Informasi dalam artikel ini didasarkan pada sampel kode yang terkandung dalam repositori azureml-examples. Untuk menjalankan perintah secara lokal tanpa harus menyalin/menempelkan YAML dan file lainnya, klon repositori dan kemudian ubah direktori ke direktori cli di repositori:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

Jika belum mengatur default untuk Azure CLI, simpan pengaturan default Anda. Untuk menghindari meneruskan nilai untuk langganan, ruang kerja, dan grup sumber daya Anda beberapa kali, gunakan perintah berikut ini. Ganti parameter berikut dengan nilai untuk konfigurasi spesifik Anda:

Ganti <subscription> dengan ID langganan Azure Anda.
Ganti <workspace> dengan nama ruang kerja Azure Machine Learning Anda.
Ganti <resource-group> dengan grup sumber daya Azure yang berisi ruang kerja Anda.
Ganti <location> dengan wilayah Azure yang berisi ruang kerja Anda.

Tip

Anda dapat melihat default saat ini dengan menggunakan perintah az configure -l.

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Sebelum mengikuti langkah-langkah dalam artikel ini, pastikan Anda memiliki prasyarat berikut:

Ruang kerja Azure Machine Learning. Jika Anda tidak memilikinya, gunakan langkah-langkah dalam artikel Mulai Cepat: Membuat sumber daya ruang kerja untuk membuatnya.
Untuk memasang SDK Python v2, gunakan perintah berikut:
```
pip install azure-ai-ml azure-identity
```
Untuk memperbarui penginstalan SDK yang ada ke versi terbaru, gunakan perintah berikut:
```
pip install --upgrade azure-ai-ml azure-identity
```
Untuk informasi selengkapnya, lihat Menginstal Python SDK v2 untuk Azure Pembelajaran Mesin.

Lingkungan Python 3.8 (atau lebih tinggi) yang berfungsi.
Anda harus memiliki paket Python tambahan yang diinstal untuk penilaian dan dapat menginstalnya dengan kode di bawah ini. Meliputi:
- Numpy - Array dan pustaka komputasi numerik
- Triton Inference Server Client - Memfasilitasi permintaan ke Triton Inference Server
- Bantal - Pustaka untuk operasi gambar
- Gevent - Pustaka jaringan yang digunakan saat menyambungkan ke Triton Server
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Akses ke mesin virtual seri NCv3 untuk langganan Azure Anda.

Penting

Anda mungkin perlu meminta peningkatan kuota untuk langganan Anda sebelum Anda dapat menggunakan seri mesin virtual ini. Untuk informasi selengkapnya, lihat Seri NCv3.

Informasi dalam artikel ini didasarkan pada notebook online-endpoints-triton.ipynb yang terkandung dalam repositori azureml-examples . Untuk menjalankan perintah secara lokal tanpa harus menyalin/menempelkan file, kloning repositori, lalu ubah direktori ke sdk/endpoints/online/triton/single-model/ direktori di repositori:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

Tentukan konfigurasi penyebaran

BERLAKU UNTUK:ekstensi ml Azure CLI v2 (saat ini)

Bagian ini memperlihatkan bagaimana Anda dapat menyebarkan ke titik akhir online terkelola menggunakan Azure CLI dengan ekstensi Pembelajaran Mesin (v2).

Penting

Untuk penyebaran tanpa kode Triton, pengujian melalui titik akhir lokal saat ini tidak didukung.

Untuk menghindari pengetikan jalur untuk beberapa perintah, gunakan perintah berikut untuk mengatur variabel lingkungan BASE_PATH. Variabel ini menunjuk ke direktori tempat model dan file konfigurasi YAML terkait berada:
```
BASE_PATH=endpoints/online/triton/single-model
```
Gunakan perintah berikut untuk mengatur nama titik akhir yang akan dibuat. Dalam contoh ini, nama acak dibuat untuk titik akhir:
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
Buat file konfigurasi YAML untuk titik akhir Anda. Contoh berikut mengonfigurasi nama dan mode autentikasi titik akhir. Yang digunakan dalam perintah berikut terletak di /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml di repositori azureml-examples yang Anda klon sebelumnya:

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
Buat file konfigurasi YAML untuk titik akhir Anda. Contoh berikut mengonfigurasi penyebaran bernama biru ke titik akhir yang ditentukan pada langkah sebelumnya. Yang digunakan dalam perintah berikut terletak di /cli/endpoints/online/triton/single-model/create-managed-deployment.yml di repositori azureml-examples yang Anda klon sebelumnya:

Penting

Agar penyebaran tanpa kode Triton (NCD) berfungsi, mengatur type ke triton_model wajib dilakukan, type: triton_model. Untuk informasi selengkapnya, lihat skema YAML model CLI (v2).

Penyebaran ini menggunakan mesin virtual Standard_NC6s_v3. Anda mungkin perlu meminta peningkatan kuota untuk langganan Anda sebelum Anda dapat menggunakan mesin virtual ini. Untuk informasi selengkapnya, lihat Seri NCv3.
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Bagian ini memperlihatkan bagaimana Anda dapat menentukan penyebaran Triton untuk disebarkan ke titik akhir online terkelola menggunakan Azure Pembelajaran Mesin Python SDK (v2).

Penting

Untuk penyebaran tanpa kode Triton, pengujian melalui titik akhir lokal saat ini tidak didukung.

Untuk terhubung ke ruang kerja, Anda memerlukan parameter pengidentifikasi - langganan, grup sumber daya, dan nama ruang kerja.
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
Gunakan perintah berikut untuk mengatur nama titik akhir yang akan dibuat. Dalam contoh ini, nama acak dibuat untuk titik akhir:
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
Kami menggunakan detail ini di atas dari MLClientazure.ai.ml untuk mendapatkan handel ke ruang kerja Azure Pembelajaran Mesin yang diperlukan. Periksa buku catatan konfigurasi untuk detail selengkapnya tentang cara mengonfigurasi kredensial dan menyambungkan ke ruang kerja.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
Buat ManagedOnlineEndpoint objek untuk mengonfigurasi titik akhir. Contoh berikut mengonfigurasi nama dan mode autentikasi titik akhir.
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

Buat ManagedOnlineDeployment objek untuk mengonfigurasi penyebaran. Contoh berikut mengonfigurasi penyebaran bernama biru ke titik akhir yang ditentukan dalam langkah sebelumnya dan menentukan model lokal sebaris.

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

Bagian ini memperlihatkan bagaimana Anda dapat menentukan penyebaran Triton pada titik akhir online terkelola menggunakan azure Pembelajaran Mesin studio.

Daftarkan model Anda dalam format Triton menggunakan perintah YAML dan CLI berikut. YAML menggunakan model densenet-onnx dari https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
Tangkapan layar berikut menunjukkan bagaimana model terdaftar Anda akan terlihat di halaman Model studio Azure Machine Learning.
Dari studio, pilih ruang kerja Anda, lalu gunakan halaman titik akhir atau model untuk membuat penyebaran titik akhir:
- Halaman titik akhir
- Halaman model
1. Dari halaman Titik akhir, Pilih Buat.
2. Berikan tipe nama dan autentikasi untuk titik akhir, lalu pilih Berikutnya.
3. Saat memilih model, pilih model Triton yang terdaftar sebelumnya. Untuk melanjutkan, klik Berikutnya.
4. Saat Anda memilih model yang terdaftar dalam format Triton, di langkah Lingkungan panduan, Anda tidak perlu mencetak skrip dan lingkungan.
1. Pilih model Triton, lalu pilih Sebarkan. Saat diminta, pilih Sebarkan ke titik akhir real-time.

Sebarkan ke Azure

BERLAKU UNTUK:ekstensi ml Azure CLI v2 (saat ini)

Untuk membuat titik akhir baru menggunakan konfigurasi YAML, gunakan perintah berikut:

az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml

Untuk membuat penyebaran menggunakan konfigurasi YAML, gunakan perintah berikut:

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Untuk membuat titik akhir baru menggunakan ManagedOnlineEndpoint objek , gunakan perintah berikut:
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
Untuk membuat penyebaran menggunakan ManagedOnlineDeployment objek , gunakan perintah berikut:
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
Setelah penyebaran selesai, nilai lalu lintasnya akan diatur ke 0%. Perbarui lalu lintas menjadi 100%.
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

Menguji titik akhir

BERLAKU UNTUK:ekstensi ml Azure CLI v2 (saat ini)

Setelah penyebaran selesai, gunakan perintah berikut untuk membuat permintaan penilaian ke titik akhir yang disebarkan.

Tip

File /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py dalam repositori azureml-examples digunakan untuk menilai. Gambar yang diteruskan ke titik akhir memerlukan pra-pemrosesan untuk memenuhi persyaratan ukuran, jenis, dan format, serta pasca-pemrosesan untuk menunjukkan label yang diprediksi. triton_densenet_scoring.py menggunakan perpustakaan tritonclient.http untuk berkomunikasi dengan server antarmuka Triton. File ini berjalan di sisi klien.

Untuk mendapatkan uri penilaian titik akhir, gunakan perintah berikut:

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

Untuk mendapatkan kunci autentikasi, gunakan perintah berikut:

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

Untuk menilai data dengan titik akhir, gunakan perintah berikut. Perintah akan mengirimkan gambar merak (https://aka.ms/peacock-pic) ke titik akhir:

python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg

Respons dari skrip mirip dengan teks berikut:

Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Untuk mendapatkan uri penilaian titik akhir, gunakan perintah berikut:

endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri

Untuk mendapatkan kunci autentikasi, gunakan perintah berikut: kunci = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

Kode penilaian berikut menggunakan Triton Inference Server Client untuk mengirimkan gambar merak ke titik akhir. Skrip ini tersedia di buku catatan pendamping untuk contoh ini - Menyebarkan model ke titik akhir online menggunakan Triton.

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

Respons dari skrip mirip dengan teks berikut:

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

Menghapus titik akhir dan model

BERLAKU UNTUK:ekstensi ml Azure CLI v2 (saat ini)

Setelah selesai dengan titik akhir, gunakan perintah berikut untuk menghapusnya:
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```

Gunakan perintah berikut untuk mengarsipkan model Anda:

az ml model archive --name $MODEL_NAME --version $MODEL_VERSION

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Hapus titik akhir. Menghapus titik akhir juga menghapus penyebaran turunan apa pun, namun tidak akan mengarsipkan Lingkungan atau Model terkait.
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```

Arsipkan model dengan kode berikut.

ml_client.models.archive(name=model_name, version=model_version)

Langkah berikutnya

Untuk mempelajari lebih lanjut, tinjau artikel ini:

Penyajian berkinerja tinggi dengan Triton Inference Server

Prasyarat

Tentukan konfigurasi penyebaran

Sebarkan ke Azure

Menguji titik akhir

Menghapus titik akhir dan model

Langkah berikutnya

Sumber Daya Tambahan: