Высокопроизводительное обслуживание с помощью сервера вывода Triton

Мақала
09/02/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

Узнайте, как использовать сервер вывода NVIDIA Triton в Машинное обучение Azure с сетевыми конечными точками.

Triton — это мультиплатформенное программное обеспечение с открытым исходным кодом, оптимизированное для вывода. Оно поддерживает такие популярные платформы машинного обучения, как TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT и другие. Его можно использовать для рабочих нагрузок центрального и графического процессоров.

Существует в основном два подхода, которые можно использовать для использования моделей Triton при развертывании их в онлайн-конечной точке: развертывание без кода или полное развертывание (перенос собственного контейнера).

Развертывание без кода для моделей Triton — это простой способ их развертывания, так как для развертывания необходимо использовать только модели Triton.
Развертывание с полным кодом (перенос собственного контейнера) для моделей Triton является более сложным способом их развертывания, так как у вас есть полный контроль над настройкой конфигураций, доступных для сервера вывода Triton.

Для обоих вариантов сервер вывода Triton выполнит вывод на основе модели Triton, определенной NVIDIA. Например, модели ансамбля можно использовать для более сложных сценариев.

Triton поддерживается как в управляемых сетевых конечных точках, так и в сетевых конечных точках Kubernetes.

В этой статье вы узнаете, как развернуть модель с помощью развертывания без кода для Triton в управляемой сетевой конечной точке. Сведения предоставляются с помощью интерфейса командной строки (командной строки), пакета SDK Для Python версии 2 и Студия машинного обучения Azure. Если вы хотите настроить еще больше с помощью конфигурации сервера вывода Triton, обратитесь к пользовательскому контейнеру для развертывания модели и примера BYOC для Triton (определение развертывания и сквозной скрипт).

Примечание.

Использование контейнера сервера вывода NVIDIA Triton регулируется лицензионным соглашением NVIDIA AI Enterprise Software и может использоваться в течение 90 дней без подписки на корпоративный продукт. Дополнительные сведения см. в разделе NVIDIA AI Enterprise на Машинное обучение Azure.

Необходимые компоненты

Перед выполнением действий, описанных в этой статье, убедитесь, что выполнены следующие необходимые условия:

Azure CLI и расширение ml для Azure CLI. Дополнительные сведения см. в разделе Установка, настройка и использование CLI (версия 2).

Внимание

В примерах CLI в этой статье предполагается, что вы используете оболочку Bash (или совместимый вариант). Например, из системы Linux или подсистемы Windows для Linux.
Рабочая область Машинного обучения Azure. Если у вас ее нет, выполните действия, описанные в разделе Установка, настройка и использование CLI (версия 2), чтобы создать ее.

Рабочая среда Python 3.8 (или более поздней версии).
Необходимо установить дополнительные пакеты Python для оценки и установить их с помощью приведенного ниже кода. К ним относятся:
- Numpy — массив и библиотека числовых вычислений
- Клиент сервера вывода Triton — упрощает запросы на сервер вывода Triton
- Подушка — библиотека для операций с изображением
- Gevent — сетевая библиотека, используемая при подключении к серверу Triton

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Доступ к виртуальным машинам серии NCv3 для подписки Azure.

Внимание

Возможно, потребуется запросить увеличение квоты для подписки, прежде чем использовать эту серию виртуальных машин. Подробные сведения см. в разделе о серии NCv3.

Для сервера вывода NVIDIA Triton требуется особая структура репозитория модели, где в версиях модели для каждой модели и подкаталогов используются отдельные каталоги. Содержимое подкаталога каждой версии модели определяется типом модели и требованиями серверной части, поддерживающей модель. Просмотр всей структуры репозитория модели https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

Сведения в этом документе основаны на использовании модели, хранящейся в формате ONNX, поэтому структура каталогов репозитория модели — <model-repository>/<model-name>/1/model.onnx. В частности, эта модель выполняет идентификацию изображений.

Сведения в этой статье основаны на примерах кода, имеющихся в репозитории azureml-examples. Чтобы выполнять команды локально без копирования и вставки YAML и других файлов, необходимо клонировать репозиторий, а затем заменить каталоги на каталог cli в репозитории:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

Если вы еще не задали параметры по умолчанию для Azure CLI, сохраните их. Чтобы не указывать значения для подписки, рабочей области и группы ресурсов несколько раз, используйте следующие команды. Замените следующие параметры значениями для конкретной конфигурации:

Замените <subscription> идентификатором своей подписки Azure.
Заменить <workspace> рабочей областью машинного обучения Azure.
Замените <resource-group> группой ресурсов Azure, содержащей вашу рабочую область.
Замените <location> регионом Azure, содержащим вашу рабочую область.

Совет

Для просмотра текущих значений по умолчанию используйте команду az configure -l.

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

Перед выполнением действий, описанных в этой статье, убедитесь, что выполнены следующие необходимые условия:

Рабочая область Машинного обучения Azure. Если у вас ее нет, создайте ее по инструкциям, приведенным в кратком руководстве по созданию ресурсов рабочей области.
Чтобы установить пакет SDK для Python версии 2, используйте следующую команду:
```
pip install azure-ai-ml azure-identity
```
Чтобы обновить существующую установку пакета SDK до последней версии, выполните следующую команду:
```
pip install --upgrade azure-ai-ml azure-identity
```
Дополнительные сведения см. в статье "Установка пакета SDK для Python версии 2 для Машинное обучение Azure".

Рабочая среда Python 3.8 (или более поздней версии).
Необходимо установить дополнительные пакеты Python для оценки и установить их с помощью приведенного ниже кода. К ним относятся:
- Numpy — массив и библиотека числовых вычислений
- Клиент сервера вывода Triton — упрощает запросы на сервер вывода Triton
- Подушка — библиотека для операций с изображением
- Gevent — сетевая библиотека, используемая при подключении к серверу Triton
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Доступ к виртуальным машинам серии NCv3 для подписки Azure.

Внимание

Возможно, потребуется запросить увеличение квоты для подписки, прежде чем использовать эту серию виртуальных машин. Подробные сведения см. в разделе о серии NCv3.

Сведения в этой статье основаны на записной книжке online-endpoints-triton.ipynb , содержащейся в репозитории azureml-examples . Чтобы выполнить команды локально, не копируя и вставляя файлы, клонируйте репозиторий, а затем измените каталоги sdk/endpoints/online/triton/single-model/ в каталог в репозитории:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

Определите конфигурацию развертывания

ОБЛАСТЬ ПРИМЕНЕНИЯ: расширение машинного обучения Azure CLI версии 2 (текущее)

В этом разделе показано, как развернуть управляемую конечную точку в Сети с помощью Azure CLI с расширением Машинное обучение (версия 2).

Внимание

В развертывании Triton без кода в настоящее время не поддерживается тестирование через локальные конечные точки.

Чтобы избежать ввода пути для нескольких команд, используйте следующую команду, чтобы задать переменную среды BASE_PATH. Эта переменная указывает каталог, в котором находятся модель и связанные файлы конфигурации YAML:
```
BASE_PATH=endpoints/online/triton/single-model
```
Используйте следующую команду, чтобы задать имя конечной точки, которая будет создана. В этом примере для конечной точки создано случайное имя:
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
Создайте файл конфигурации YAML для конечной точки. В следующем примере настраивается имя и режим проверки подлинности конечной точки. Файл, используемый в следующих командах, находится по пути /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml в репозитории azureml-examples, клонированном ранее:

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
Создайте файл конфигурации YAML для развертывания. В следующем примере выполняется настройка развертывания синим цветом для конечной точки, определенной на предыдущем шаге. Файл, используемый в следующих командах, находится по пути /cli/endpoints/online/triton/single-model/create-managed-deployment.yml в репозитории azureml-examples, клонированном ранее:

Внимание

Для развертывания без кода (NCD) с помощью Triton необходимо присвоить параметру type значение triton_model: type: triton_model. Дополнительные сведения см. в статье YAML-схема модели для CLI (версия 2).

В этом развертывании используется виртуальная машина Standard_NC6s_v3. Прежде чем использовать эту виртуальную машину, может потребоваться запросить увеличение квоты для подписки. Подробные сведения см. в разделе о серии NCv3.
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

В этом разделе показано, как определить развертывание Triton для развертывания в управляемой сетевой конечной точке с помощью пакета SDK для Python Машинное обучение Azure версии 2.

Внимание

Чтобы подключиться к рабочей области, потребуются параметры идентификатора — подписка, группа ресурсов и имя рабочей области.
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
Используйте следующую команду, чтобы задать имя конечной точки, которая будет создана. В этом примере для конечной точки создано случайное имя:
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
Эти сведения используются в MLClientazure.ai.ml приведенном выше примере, чтобы получить дескриптор в требуемую рабочую область Машинное обучение Azure. Дополнительные сведения о настройке учетных данных и подключении к рабочей области см. в записной книжке конфигурации.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
Создайте объект для настройки конечной ManagedOnlineEndpoint точки. В следующем примере настраивается имя и режим проверки подлинности конечной точки.
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```
ManagedOnlineDeployment Создайте объект для настройки развертывания. В следующем примере выполняется настройка развертывания синим цветом для конечной точки, определенной на предыдущем шаге, и определяет встроенную локальную модель.
```
from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)
```

В этом разделе показано, как определить развертывание Triton в управляемой сетевой конечной точке с помощью Студия машинного обучения Azure.

Зарегистрируйте модель в формате Triton, используя следующий файл YAML и команду CLI. YAML использует модель densenet-onnx из https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
На следующем снимке экрана показано, как будет выглядеть зарегистрированная модель на странице моделей в студии машинного обучения Azure.
В студии выберите рабочую область, а затем используйте страницу Конечные точки или Модели для создания развертывания конечной точки:
- Страница конечных точек
- Страница "Модели"
1. На странице Конечные точки выберите Создать.
2. Укажите имя и тип проверки подлинности для конечной точки, а затем нажмите кнопку Далее.
3. При выборе модели выберите ранее зарегистрированную модель Triton. Выберите Далее для продолжения.
4. При выборе модели, зарегистрированной в формате Triton, на шаге "Среда" мастера, сценарий оценки и среда не требуются.
1. Выберите модель Triton и нажмите кнопку Развернуть. При появлении подсказки выберите Развертывание в конечной точке для прогнозирования в реальном времени.

Развернуть в Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: расширение машинного обучения Azure CLI версии 2 (текущее)

Чтобы создать новую конечную точку с помощью конфигурации YAML, используйте следующую команду:
```
az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml
```
Чтобы создать развертывание с помощью конфигурации YAML, используйте следующую команду:
```
az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic
```

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

Чтобы создать новую конечную точку с помощью ManagedOnlineEndpoint объекта, используйте следующую команду:
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
Чтобы создать развертывание с помощью ManagedOnlineDeployment объекта, используйте следующую команду:
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
После завершения развертывания будет задано 0%значение трафика. Обновление трафика до 100 %.
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

Завершите работу мастера для развертывания в конечной точке.
После завершения развертывания будет задано 0%значение трафика. Обновите трафик до 100 % на странице конечной точки, щелкнув Update Traffic вторую строку меню.

Тестирование конечной точки

ОБЛАСТЬ ПРИМЕНЕНИЯ: расширение машинного обучения Azure CLI версии 2 (текущее)

После завершения развертывания используйте следующую команду, чтобы выполнить запрос оценки к развернутой конечной точке.

Совет

Файл /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py в репозитории azureml-examples используется для оценки. Изображение, переданное в конечную точку, должно пройти предварительную обработку, чтобы соответствовать требованиям к размеру, типу и формату, а также к последующую обработку для отображения прогнозируемой метки. Компонент triton_densenet_scoring.py использует библиотеку tritonclient.http для обмена данными с сервером вывода Triton. Этот файл выполняется на стороне клиента.

Чтобы получить URI оценки конечной точки, используйте следующую команду:
```
scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}
```
Чтобы получить ключ проверки подлинности, используйте следующую команду:
```
auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)
```
Чтобы оценить данные с помощью конечной точки, используйте следующую команду. Она отправляет изображение павлина (https://aka.ms/peacock-pic) в конечную точку:
```
python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg
```
В результате выполнения скрипта должен отобразиться примерно следующий текст:
```
Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK
```

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

Чтобы получить URI оценки конечной точки, используйте следующую команду:
```
endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri
```
Чтобы получить ключ проверки подлинности, используйте следующую команду: ключи = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

Следующий код оценки использует клиент сервера вывода Triton для отправки изображения павлина в конечную точку. Этот скрипт доступен в записной книжке-компаньона в этом примере. Развертывание модели в сетевых конечных точках с помощью Triton.

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

В результате выполнения скрипта должен отобразиться примерно следующий текст:
```
Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK
```

Удаление конечной точки и модели

ОБЛАСТЬ ПРИМЕНЕНИЯ: расширение машинного обучения Azure CLI версии 2 (текущее)

После завершения работы с конечной точкой используйте следующую команду, чтобы удалить ее:
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```
Чтобы архивировать модель, используйте следующую команду:
```
az ml model archive --name $MODEL_NAME --version $MODEL_VERSION
```

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

Удалите конечную точку. При удалении конечной точки также удаляются дочерние развертывания, однако они не архивируют связанные среды или модели.
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```
Архивируйте модель с помощью следующего кода.
```
ml_client.models.archive(name=model_name, version=model_version)
```

Следующие шаги

Дополнительные сведения см. в статьях ниже:

Бөлісу құралы:

Высокопроизводительное обслуживание с помощью сервера вывода Triton

Необходимые компоненты

Определите конфигурацию развертывания

Развернуть в Azure

Тестирование конечной точки

Удаление конечной точки и модели

Следующие шаги

Кері байланыс

Қосымша ресурстар