Menggunakan kontainer kustom untuk menyebarkan model ke titik akhir online

APPLIES TO:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

Di Azure Machine Learning, Anda dapat menggunakan kontainer kustom untuk menyebarkan model ke titik akhir online. Penyebaran kontainer kustom dapat menggunakan server web selain server Python Flask default yang digunakan Azure Machine Learning.

Saat menggunakan penyebaran kustom, Anda dapat:

Gunakan berbagai alat dan teknologi, seperti TensorFlow Serving (TF Serving), TorchServe, Triton Inference Server, paket Plumber R, dan gambar minimal inferensi Azure Machine Learning.
Masih memanfaatkan pemantauan, penskalaan, pemberitahuan, dan autentikasi bawaan yang ditawarkan Azure Machine Learning.

Artikel ini memperlihatkan kepada Anda cara menggunakan gambar TF Serving untuk menyajikan model TensorFlow.

Prerequisites

Ruang kerja Azure Machine Learning. Untuk instruksi membuat ruang kerja, lihat Buat ruang kerja.
Azure CLI dan ekstensi ml atau Azure Machine Learning Python SDK versi 2
- Azure CLI
- Python SDK
Untuk menginstal Azure CLI dan ekstensi ml, lihat Instal dan atur CLI (v2).

Contoh-contoh dalam artikel ini berasumsi bahwa Anda menggunakan shell Bash atau shell yang kompatibel. Misalnya, Anda dapat menggunakan shell pada sistem Linux atau Windows Subsystem for Linux.
Untuk memasang SDK Python v2, gunakan perintah berikut:
```
pip install azure-ai-ml azure-identity
```
Untuk memperbarui penginstalan SDK yang ada ke versi terbaru, gunakan perintah berikut:
```
pip install --upgrade azure-ai-ml azure-identity
```
Untuk informasi lebih lanjut, lihat Azure Machine Learning Package client library for Python.

Grup sumber daya Azure yang berisi ruang kerja Anda dan di mana Anda atau perwakilan layanan Anda memiliki akses sebagai Kontributor. Jika Anda menggunakan langkah-langkah dalam Membuat ruang kerja untuk mengonfigurasi ruang kerja, Anda memenuhi persyaratan ini.
Docker Engine, installed and running locally. This prerequisite is highly recommended. Anda memerlukannya untuk mengimplementasikan model secara lokal, dan sangat membantu untuk debugging.

Deployment examples

The following table lists deployment examples that use custom containers and take advantage of various tools and technologies.

Example	Skrip Azure CLI	Description
minimal/multimodel	deploy-custom-container-minimal-multimodel	Menyebarkan beberapa model ke satu penyebaran dengan memperluas gambar minimal inferensi Azure Machine Learning.
minimal/single-model	deploy-custom-container-minimal-single-model	Menyebarkan satu model dengan memperluas gambar minimal inferensi Azure Machine Learning.
mlflow/multideployment-scikit	deploy-custom-container-mlflow-multideployment-scikit	Menggunakan dua model MLFlow dengan persyaratan Python yang berbeda pada dua lokasi penyebaran terpisah di bawah satu titik akhir. Menggunakan gambar minimal inferensi Azure Machine Learning.
r/multimodel-plumber	deploy-custom-container-r-multimodel-plumber	Menyebarkan tiga model regresi ke satu titik akhir. Menggunakan paket Plumber R.
tfserving/half-plus-two	deploy-custom-container-tfserving-half-plus-two	Menyebarkan model Half Plus Two dengan menggunakan kontainer kustom TF Serving. Menggunakan proses pendaftaran model standar.
tfserving/half-plus-two-integrated	deploy-custom-container-tfserving-half-plus-two-integrated	Menyebarkan model Half Plus Two dengan menggunakan kontainer kustom TF Serving dengan model yang diintegrasikan ke dalam gambar.
torchserve/densenet	deploy-custom-container-torchserve-densenet	Menyebarkan satu model dengan menggunakan kontainer kustom TorchServe.
triton/single-model	deploy-custom-container-triton-single-model	Menyebarkan model Triton dengan menggunakan kontainer kustom.

Artikel ini memperlihatkan kepada Anda cara menggunakan contoh tfserving/half-plus-two.

Warning

Tim dukungan Microsoft mungkin tidak dapat membantu memecahkan masalah yang disebabkan oleh gambar kustom. Jika Mengalami masalah, Anda mungkin diminta untuk menggunakan gambar default atau salah satu gambar yang disediakan Microsoft untuk melihat apakah masalah tersebut khusus untuk gambar Anda.

Mengunduh kode sumber

The steps in this article use code samples from the azureml-examples repository. Gunakan perintah berikut untuk mengkloning repositori:

Azure CLI
Python SDK

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

Dalam repositori contoh, sebagian besar sampel Python berada di bawah folder sdk/python. Untuk artikel ini, buka folder cli sebagai gantinya. Struktur folder di bawah folder cli sedikit berbeda dari struktur sdk/python dalam hal ini. Sebagian besar langkah dalam artikel ini memerlukan struktur cli.

Untuk mengikuti langkah-langkah contoh, lihat buku catatan Jupyter di repositori contoh. Tetapi di bagian berikut dari notebook tersebut, langkah-langkah berjalan dari folder azureml-examples/sdk/python alih-alih folder cli:

1. Test locally
1. Menguji titik akhir dengan data sampel

Inisialisasi beberapa variabel lingkungan

Untuk menggunakan model TensorFlow, Anda memerlukan beberapa variabel lingkungan. Jalankan perintah berikut untuk menentukan variabel tersebut:

BASE_PATH=endpoints/online/custom-container/tfserving/half-plus-two
AML_MODEL_NAME=tfserving-mounted
MODEL_NAME=half_plus_two
MODEL_BASE_PATH=/var/azureml-app/azureml-models/$AML_MODEL_NAME/1

Unduh model TensorFlow

Unduh dan buka zip model yang membagi nilai input dengan dua dan menambahkan dua ke hasilnya:

wget https://aka.ms/half_plus_two-model -O $BASE_PATH/half_plus_two.tar.gz
tar -xvf $BASE_PATH/half_plus_two.tar.gz -C $BASE_PATH

Menguji gambar TF Serving secara lokal

Gunakan Docker untuk menjalankan gambar Anda secara lokal untuk pengujian:

docker run --rm -d -v $PWD/$BASE_PATH:$MODEL_BASE_PATH -p 8501:8501 \
 -e MODEL_BASE_PATH=$MODEL_BASE_PATH -e MODEL_NAME=$MODEL_NAME \
 --name="tfserving-test" docker.io/tensorflow/serving:latest
sleep 10

Mengirim permintaan keaktivitas dan penilaian ke gambar

Kirim permintaan liveness untuk memeriksa apakah proses di dalam kontainer sedang berjalan. Anda harus mendapatkan respons dengan kode status 200 OK.

curl -v http://localhost:8501/v1/models/$MODEL_NAME

Kirim permintaan penilaian untuk memeriksa apakah Anda bisa mendapatkan prediksi tentang data yang tidak berlabel:

curl --header "Content-Type: application/json" \
  --request POST \
  --data @$BASE_PATH/sample_request.json \
  http://localhost:8501/v1/models/$MODEL_NAME:predict

Hentikan gambar

Saat Anda selesai menguji secara lokal, hentikan gambar:

docker stop tfserving-test

Menyebarkan titik akhir online Anda ke Azure

Untuk menyebarkan titik akhir online Anda ke Azure, lakukan langkah-langkah di bagian berikut.

Azure CLI
Python SDK

Membuat file YAML untuk titik akhir dan penyebaran Anda

Anda dapat mengonfigurasi penyebaran cloud dengan menggunakan YAML. Misalnya, untuk mengonfigurasi titik akhir, Anda dapat membuat file YAML bernama tfserving-endpoint.yml yang berisi baris berikut:

$schema: https://azuremlsdk2.blob.core.windows.net/latest/managedOnlineEndpoint.schema.json
name: tfserving-endpoint
auth_mode: aml_token

Untuk mengonfigurasi penyebaran, Anda dapat membuat file YAML bernama tfserving-deployment.yml yang berisi baris berikut:

$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: tfserving-deployment
endpoint_name: tfserving-endpoint
model:
  name: tfserving-mounted
  version: <model-version>
  path: ./half_plus_two
environment_variables:
  MODEL_BASE_PATH: /var/azureml-app/azureml-models/tfserving-mounted/<model-version>
  MODEL_NAME: half_plus_two
environment:
  #name: tfserving
  #version: 1
  image: docker.io/tensorflow/serving:latest
  inference_config:
    liveness_route:
      port: 8501
      path: /v1/models/half_plus_two
    readiness_route:
      port: 8501
      path: /v1/models/half_plus_two
    scoring_route:
      port: 8501
      path: /v1/models/half_plus_two:predict
instance_type: Standard_DS3_v2
instance_count: 1

Menyambungkan ke ruang kerja Azure Machine Learning Anda

Untuk mengonfigurasi ruang kerja Azure Machine Learning Anda, lakukan langkah-langkah berikut:

Impor pustaka yang diperlukan:

# Import the required libraries.
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
   ManagedOnlineEndpoint,
   ManagedOnlineDeployment,
   Model,
   Environment,
   CodeConfiguration,
)
from azure.identity import DefaultAzureCredential

Konfigurasikan pengaturan ruang kerja dan dapatkan akses pada ruang kerja.

# Enter information about your Azure Machine Learning workspace.
subscription_id = "<subscription-ID>"
resource_group = "<resource-group-name>"
workspace = "<Azure-Machine-Learning-workspace-name>"

# Get a handle to the workspace.
ml_client = MLClient(
  DefaultAzureCredential(), subscription_id, resource_group, workspace
)

Untuk informasi selengkapnya, lihat Menyebarkan dan menilai model pembelajaran mesin dengan menggunakan titik akhir online.

Mengonfigurasi titik akhir online

Gunakan kode berikut untuk mengonfigurasi titik akhir online. Ingatlah poin-poin berikut:

Nama titik akhir harus unik di wilayah Azure-nya. Selain itu, nama titik akhir harus dimulai dengan huruf dan hanya terdiri dari karakter alfanumerik dan tanda hubung. Untuk informasi selengkapnya tentang aturan penamaan, lihat Titik akhir online Azure Machine Learning dan titik akhir batch.
Untuk nilai auth_mode, gunakan key untuk autentikasi berbasis kunci. Gunakan aml_token untuk autentikasi berbasis token Azure Machine Learning. Kunci tidak kedaluwarsa, tetapi token kedaluwarsa. Untuk informasi selengkapnya tentang autentikasi, lihat Mengautentikasi klien untuk titik akhir online.
Deskripsi dan tag bersifat opsional.

# To create a unique endpoint name, use a time stamp of the current date and time.
import datetime

online_endpoint_name = "endpoint-" + datetime.datetime.now().strftime("%m%d%H%M%f")

# Configure an online endpoint.
endpoint = ManagedOnlineEndpoint(
    name=online_endpoint_name,
    description="A sample online endpoint",
    auth_mode="key",
    tags={"env": "dev"},
)

Mengonfigurasi penyebaran online

Penyebaran adalah sekumpulan sumber daya yang diperlukan untuk menghosting model yang melakukan inferensi aktual. Anda dapat menggunakan ManagedOnlineDeployment kelas untuk mengonfigurasi penyebaran untuk titik akhir Anda. Konstruktor kelas tersebut menggunakan parameter berikut:

name: Nama penyebaran.
endpoint_name: Nama titik akhir untuk membuat penyebaran di bawah.
model: Model yang digunakan untuk penyebaran. Nilai ini dapat berupa referensi ke model berversi yang ada di ruang kerja atau spesifikasi model sebaris.
environment: Lingkungan yang digunakan untuk penyebaran. Nilai ini dapat berupa referensi ke lingkungan berversi yang ada di ruang kerja atau spesifikasi lingkungan sebaris.
environment_variables: Variabel lingkungan yang diatur selama penyebaran.
- MODEL_BASE_PATH: Jalur ke folder induk yang berisi folder untuk model Anda.
- MODEL_NAME: Nama dari model Anda.
instance_type: Ukuran komputer virtual yang akan dipilih untuk penyebaran. Untuk daftar ukuran yang didukung, lihat Managed Online Endpoints SKU List.
instance_count: Jumlah instans yang akan digunakan untuk penyebaran.

Gunakan kode berikut untuk mengonfigurasi penyebaran untuk titik akhir Anda:

# create a blue deployment
model = Model(name="tfserving-mounted", version="1", path="half_plus_two")

env = Environment(
    image="docker.io/tensorflow/serving:latest",
    inference_config={
        "liveness_route": {"port": 8501, "path": "/v1/models/half_plus_two"},
        "readiness_route": {"port": 8501, "path": "/v1/models/half_plus_two"},
        "scoring_route": {"port": 8501, "path": "/v1/models/half_plus_two:predict"},
    },
)

blue_deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=online_endpoint_name,
    model=model,
    environment=env,
    environment_variables={
        "MODEL_BASE_PATH": "/var/azureml-app/azureml-models/tfserving-mounted/1",
        "MODEL_NAME": "half_plus_two",
    },
    instance_type="Standard_DS2_v2",
    instance_count=1,
)

Bagian berikut membahas konsep penting tentang parameter YAML dan Python.

Base image

Di bagian environment di YAML, atau Environment konstruktor di Python, Anda menentukan gambar dasar sebagai parameter. Contoh ini menggunakan docker.io/tensorflow/serving:latest sebagai image nilai.

Jika Anda memeriksa kontainer, Anda dapat melihat bahwa server ini menggunakan ENTRYPOINT perintah untuk menjalankan skrip titik masuk. Skrip tersebut mengambil variabel lingkungan seperti MODEL_BASE_PATH dan MODEL_NAME, dan mengekspos port seperti 8501. Detail ini semua terkait dengan server ini, dan Anda dapat menggunakan informasi ini untuk menentukan bagaimana mendefinisikan pengembangan Anda. Misalnya, jika Anda mengatur MODEL_BASE_PATH variabel lingkungan dan MODEL_NAME dalam definisi penyebaran Anda, TF Serving menggunakan nilai-nilai tersebut untuk memulai server. Demikian juga, jika Anda mengatur port untuk setiap rute ke 8501 dalam definisi penyebaran, permintaan pengguna ke rute tersebut dirutekan dengan benar ke server TF Serving.

Contoh ini didasarkan pada kasus TF Serving. Tetapi Anda dapat menggunakan kontainer apa pun yang tetap aktif dan merespons permintaan yang sesuai dengan rute keaktifan, kesiapan, dan penilaian. Untuk melihat cara membentuk Dockerfile untuk membuat kontainer, Anda dapat merujuk ke contoh lain. Beberapa server menggunakan CMD instruksi alih-alih ENTRYPOINT instruksi.

Parameter inference_config

Di bagian environment atau Environment kelas , inference_config adalah parameter . Ini menentukan port dan jalur untuk tiga jenis rute: keaktifan, kesiapan, dan rute penilaian. Parameter inference_config diperlukan jika Anda ingin menjalankan kontainer Anda sendiri dengan titik akhir online terkelola.

Rute kesiapan vs. rute keaktifan

Beberapa server API menyediakan cara untuk memeriksa status server. Ada dua jenis rute yang dapat Anda tentukan untuk memeriksa status:

Liveness routes: To check whether a server is running, you use a liveness route.
Readiness routes: To check whether a server is ready to do work, you use a readiness route.

Dalam konteks inferensi pembelajaran mesin, server mungkin merespons dengan kode status 200 OK ke permintaan liveness sebelum memuat model. Server mungkin merespons dengan kode status 200 OK ke permintaan kesiapan hanya setelah memuat model ke dalam memori.

Untuk informasi selengkapnya tentang pemeriksaan keaktifan dan kesiapan, lihat Mengonfigurasi Pemeriksaan Keaktifan, Kesiapan, dan Startup.

Server API yang Anda pilih menentukan rute keaktifan dan kesiapan. Anda mengidentifikasi server tersebut di langkah sebelumnya saat menguji kontainer secara lokal. Dalam artikel ini, contoh penyebaran menggunakan jalur yang sama untuk rute keaktifan dan kesiapan, karena TF Serving hanya menentukan rute keaktifan. Untuk cara lain menentukan rute, lihat contoh lain.

Scoring routes

Server API yang Anda gunakan menyediakan cara untuk menerima payload untuk diproses. Dalam konteks inferensi pembelajaran mesin, server menerima data input melalui rute tertentu. Identifikasi rute tersebut untuk server API saat Anda menguji kontainer secara lokal di langkah sebelumnya. Tentukan rute tersebut sebagai rute penilaian saat Anda menentukan penyebaran yang akan dibuat.

Pembuatan penyebaran yang berhasil juga memperbarui scoring_uri parameter titik akhir. Anda dapat memverifikasi fakta ini dengan menjalankan perintah berikut: az ml online-endpoint show -n <endpoint-name> --query scoring_uri.

Temukan model yang dipasang

When you deploy a model as an online endpoint, Azure Machine Learning mounts your model to your endpoint. Saat model dipasang, Anda dapat menyebarkan versi baru model tanpa harus membuat gambar Docker baru. By default, a model registered with the name my-model and version 1 is located on the following path inside your deployed container: /var/azureml-app/azureml-models/my-model/1.

Misalnya, pertimbangkan penyiapan berikut:

Struktur direktori pada komputer lokal Anda dari /azureml-examples/cli/endpoints/online/custom-container
Nama model half_plus_two

Cuplikan layar yang memperlihatkan tampilan pohon struktur direktori lokal. Jalur /azureml-examples/cli/endpoints/online/custom-container terlihat.

Azure CLI
Python SDK

Misalkan file tfserving-deployment.yml Anda berisi baris berikut di bagiannya model . Di bagian ini, name nilai mengacu pada nama yang Anda gunakan untuk mendaftarkan model di Azure Machine Learning.

model:
    name: tfserving-mounted
    version: 1
    path: ./half_plus_two

Misalkan Anda menggunakan kode berikut untuk membuat Model kelas. Dalam kode ini, name nilai mengacu pada nama yang Anda gunakan untuk mendaftarkan model di Azure Machine Learning.

model = Model(name="tfserving-mounted", version="1", path="half_plus_two")

Dalam hal ini, saat Anda membuat penyebaran, model Anda berada di dalam folder berikut: /var/azureml-app/azureml-models/tfserving-mounted/1.

Cuplikan layar yang memperlihatkan tampilan pohon struktur direktori penyebaran. Jalur var/azureml-app/azureml-models/tfserving-mounted/1 terlihat.

Anda dapat secara opsional mengonfigurasi nilai Anda model_mount_path . Dengan menyesuaikan pengaturan ini, Anda dapat mengubah jalur tempat model dipasang.

Important

Nilai model_mount_path harus merupakan jalur absolut yang valid di Linux (dalam OS tamu gambar kontainer).

Important

model_mount_path hanya dapat digunakan dalam skenario BYOC (Bawa kontainer Anda sendiri). Dalam skenario BYOC, lingkungan yang digunakan penyebaran online harus memiliki parameter yang inference_config dikonfigurasi. Anda dapat menggunakan Azure ML CLI atau Python SDK untuk menentukan inference_config parameter saat membuat lingkungan. UI Studio saat ini tidak mendukung menentukan parameter ini.

Saat Anda mengubah nilai model_mount_path, Anda juga perlu memperbarui MODEL_BASE_PATH variabel lingkungan. Atur MODEL_BASE_PATH ke nilai model_mount_path yang sama untuk menghindari penyebaran yang gagal karena kesalahan tentang jalur dasar yang tidak ditemukan.

Azure CLI
Python SDK

Misalnya, Anda dapat menambahkan parameter ke model_mount_path file tfserving-deployment.yml Anda. Anda juga dapat memperbarui nilai dalam file tersebut MODEL_BASE_PATH :

name: tfserving-deployment
endpoint_name: tfserving-endpoint
model:
  name: tfserving-mounted
  version: 1
  path: ./half_plus_two
model_mount_path: /var/tfserving-model-mount
environment_variables:
  MODEL_BASE_PATH: /var/tfserving-model-mount
...

Misalnya, Anda dapat menambahkan parameter model_mount_path ke kelas ManagedOnlineDeployment Anda. Anda juga dapat memperbarui nilai dalam kode tersebut MODEL_BASE_PATH :

blue_deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=online_endpoint_name,
    model=model,
    environment=env,
    model_mount_path="/var/tfserving-model-mount",
    environment_variables={
        "MODEL_BASE_PATH": "/var/tfserving-model-mount",
    ...
)

Dalam implementasi Anda, model Anda kemudian berada di /var/tfserving-model-mount/tfserving-mounted/1. Ini tidak lagi berada di bawah azureml-app/azureml-models, tetapi di bawah jalur pemasangan yang Anda tentukan:

Cuplikan layar yang memperlihatkan tampilan pohon struktur direktori penyebaran. Jalur /var/tfserving-model-mount/tfserving-mounted/1 terlihat.

Setelah Anda membuat file YAML, gunakan perintah berikut untuk membuat titik akhir Anda:

az ml online-endpoint create --name tfserving-endpoint -f endpoints/online/custom-container/tfserving/half-plus-two/tfserving-endpoint.yml

Gunakan perintah berikut untuk buat deployment Anda. Langkah ini mungkin berjalan selama beberapa menit.

az ml online-deployment create --name tfserving-deployment -f endpoints/online/custom-container/tfserving/half-plus-two/tfserving-deployment.yml --all-traffic

Gunakan kode berikut untuk membuat titik akhir di ruang kerja. Kode ini menggunakan instans MLClient yang Anda buat sebelumnya. Metode begin_create_or_update memulai pembuatan titik akhir. Kemudian mengembalikan respons konfirmasi saat pembuatan titik akhir berlanjut.

ml_client.begin_create_or_update(endpoint)

Buat penyebaran dengan menjalankan kode berikut:

ml_client.begin_create_or_update(blue_deployment)

Memanggil titik akhir

Saat penyebaran Anda selesai, buat permintaan penilaian ke titik akhir yang telah disebarkan.

Azure CLI
Python SDK

RESPONSE=$(az ml online-endpoint invoke -n $ENDPOINT_NAME --request-file $BASE_PATH/sample_request.json)

Gunakan instans MLClient yang Anda buat sebelumnya untuk mendapatkan handle ke titik akhir. Kemudian gunakan invoke metode dan parameter berikut untuk memanggil titik akhir:

endpoint_name: Nama titik akhir
request_file: File yang berisi data permintaan
deployment_name: Nama penyebaran yang akan diuji pada endpoint

For the request data, you can use a sample JSON file from the example repository.

# Test the blue deployment by using some sample data.
response = ml_client.online_endpoints.invoke(
    endpoint_name=online_endpoint_name,
    deployment_name="blue",
    request_file="sample_request.json",
)

Menghapus titik akhir

Jika Anda tidak lagi memerlukan titik akhir, jalankan perintah berikut untuk menghapusnya:

Azure CLI
Python SDK

az ml online-endpoint delete --name tfserving-endpoint

ml_client.online_endpoints.begin_delete(name=online_endpoint_name)

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-07-24