Titik akhir dan penyebaran online untuk inferensi real-time

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)Python SDK azure-ai-ml v2 (saat ini)

Azure Pembelajaran Mesin memungkinkan Anda melakukan inferensi real time pada data dengan menggunakan model yang disebarkan ke titik akhir online. Inferensi adalah proses penerapan data input baru ke model pembelajaran mesin untuk menghasilkan output. Meskipun output ini biasanya disebut sebagai "prediksi," inferensi dapat digunakan untuk menghasilkan output untuk tugas pembelajaran mesin lainnya, seperti klasifikasi dan pengklusteran.

Titik akhir online

Titik akhir online menyebarkan model ke server web yang dapat mengembalikan prediksi di bawah protokol HTTP. Gunakan titik akhir online untuk mengoprasikan model untuk inferensi real time dalam permintaan latensi rendah sinkron. Sebaiknya gunakan saat:

  • Anda memiliki persyaratan latensi rendah
  • Model Anda dapat menjawab permintaan dalam waktu yang relatif singkat
  • Input model Anda sesuai dengan payload HTTP permintaan
  • Anda perlu meningkatkan skala dalam hal jumlah permintaan

Untuk menentukan titik akhir, Anda perlu menentukan:

  • Nama titik akhir: Nama ini harus unik di wilayah Azure. Untuk informasi selengkapnya tentang aturan penamaan, lihat batas titik akhir.
  • Mode autentikasi: Anda dapat memilih antara mode autentikasi berbasis kunci dan mode autentikasi berbasis token Azure Pembelajaran Mesin untuk titik akhir. Kunci tidak kedaluwarsa, tetapi token kedaluwarsa. Untuk informasi selengkapnya tentang mengautentikasi, lihat Mengautentikasi ke titik akhir online.

Azure Pembelajaran Mesin memberikan kenyamanan menggunakan titik akhir online terkelola untuk menyebarkan model ML Anda dengan cara turnkey. Ini adalah cara yang disarankan untuk menggunakan titik akhir online di Azure Pembelajaran Mesin. Titik akhir online terkelola bekerja dengan mesin CPU dan GPU yang kuat di Azure dengan cara yang dapat diskalakan dan dikelola sepenuhnya. Titik akhir ini juga mengurus penyajian, penskalaan, pengamanan, dan pemantauan model Anda, untuk membebaskan Anda dari overhead pengaturan dan pengelolaan infrastruktur yang mendasar. Untuk mempelajari cara menyebarkan ke titik akhir online terkelola, lihat Menyebarkan model ML dengan titik akhir online.

Mengapa memilih titik akhir online terkelola melalui ACI atau AKS(v1)?

Penggunaan titik akhir online terkelola adalah cara yang disarankan untuk menggunakan titik akhir online di Azure Pembelajaran Mesin. Tabel berikut menyoroti atribut utama titik akhir online terkelola dibandingkan dengan solusi Azure Pembelajaran Mesin SDK/CLI v1 (ACI dan AKS(v1)).

Atribut Titik akhir online terkelola (v2) ACI atau AKS(v1)
Keamanan/isolasi jaringan Kontrol masuk/keluar yang mudah dengan pengalih cepat Jaringan virtual tidak didukung atau memerlukan konfigurasi manual yang kompleks
Layanan terkelola - Provisi/penskalaan komputasi yang dikelola sepenuhnya
- Konfigurasi jaringan untuk pencegahan penyelundupan data
- Peningkatan OS host, peluncuran pembaruan di tempat yang dikontrol
- Penskalakan dibatasi dalam v1
- Konfigurasi atau peningkatan jaringan perlu dikelola oleh pengguna
Konsep titik akhir/penyebaran Perbedaan antara titik akhir dan penyebaran memungkinkan skenario kompleks seperti peluncuran model yang aman Tidak ada konsep titik akhir
Diagnostik dan Pemantauan - Penelusuran kesalahan titik akhir lokal dimungkinkan dengan Docker dan Visual Studio Code
- Analisis metrik dan log tingkat lanjut dengan bagan/kueri untuk membandingkan antara penyebaran
- Perincian biaya ke tingkat penyebaran
Tidak ada penelusuran kesalahan lokal yang mudah
Skalabilitas Penskalaan tanpa batas, elastis, dan otomatis - ACI tidak dapat diskalakan
- AKS (v1) hanya mendukung skala dalam kluster dan memerlukan konfigurasi skalabilitas
Kesiapan perusahaan Tautan privat, kunci yang dikelola pelanggan, ID Microsoft Entra, manajemen kuota, integrasi penagihan, SLA Tidak didukung
Fitur ML tingkat lanjut - Pengumpulan data model
- Pemantauan model
- Model penantang juara, peluncuran aman, pencerminan lalu lintas
- Ekstensibilitas AI yang bertanggung jawab
Tidak didukung

Atau, jika Anda lebih suka menggunakan Kubernetes untuk menyebarkan model dan melayani titik akhir, dan Anda nyaman dengan mengelola persyaratan infrastruktur, Anda dapat menggunakan titik akhir online Kubernetes. Titik akhir ini memungkinkan Anda untuk menyebarkan model dan melayani titik akhir online di kluster Kubernetes yang sepenuhnya dikonfigurasi dan dikelola di mana saja, dengan CPU atau GPU.

Mengapa memilih titik akhir online terkelola melalui AKS(v2)?

Titik akhir online terkelola dapat membantu menyederhanakan proses penyebaran Anda dan memberikan manfaat berikut atas titik akhir online Kubernetes:

  • Infrastruktur terkelola

    • Secara otomatis menyediakan komputasi dan menghosting model (Anda hanya perlu menentukan jenis VM dan pengaturan skala)
    • Secara otomatis memperbarui dan menambal gambar OS host yang mendasari
    • Secara otomatis melakukan pemulihan simpul jika ada kegagalan sistem
  • Pemantauan dan log

    Screenshot showing Azure Monitor graph of endpoint latency.

  • Lihat biaya

    Screenshot cost chart of an endpoint and deployment.

    Catatan

    Titik akhir online terkelola didasarkan pada komputasi Azure Machine Learning. Saat menggunakan titik akhir online terkelola, Anda membayar biaya komputasi dan jaringan. Tidak ada biaya tambahan. Untuk informasi selengkapnya tentang harga, lihat Kalkulator harga Azure.

    Jika Anda menggunakan jaringan virtual Azure Pembelajaran Mesin untuk mengamankan lalu lintas keluar dari titik akhir online terkelola, Anda dikenakan biaya untuk tautan privat Azure dan aturan keluar FQDN yang digunakan oleh jaringan virtual terkelola. Untuk informasi selengkapnya, lihat Harga untuk jaringan virtual terkelola.

Titik akhir online terkelola vs titik akhir online kube

Tabel berikut menyoroti perbedaan utama antara titik akhir online terkelola dan titik akhir online Kubernetes.

Titik akhir online terkelola Titik akhir online Kubernetes (AKS(v2))
Pengguna yang disarankan Pengguna yang menginginkan penyebaran model terkelola dan pengalaman MLOps yang disempurnakan Pengguna yang lebih menyukai Kube dan dapat mengelola persyaratan infrastruktur mandiri self service
Provisi node Penyediaan, pembaruan, penghapusan komputasi terkelola Tanggung jawab pengguna
Pemeliharaan node Pembaruan gambar OS host terkelola, dan pengerasan keamanan Tanggung jawab pengguna
Ukuran kluster (penskalaan) Manual terkelola dan skala otomatis, mendukung provisi simpul tambahan Manual dan skala otomatis, mendukung penskalaan jumlah replika dalam batas kluster tetap
Jenis komputasi Dikelola oleh layanan Kluster Kubernetes yang dikelola pelanggan (Kubernetes)
Identitas terkelola Didukung Didukung
Virtual Network (VNET) Didukung melalui isolasi jaringan terkelola Tanggung jawab pengguna
Pemantauan &pengelogan di luar kotak Azure Monitor dan Log Analytics didukung (termasuk metrik utama dan tabel log untuk titik akhir dan penyebaran) Tanggung jawab pengguna
Pengelogan dengan Application Insights (warisan) Didukung Didukung
Lihat biaya Terperinci ke tingkat titik akhir/ penyebaran Tingkat kluster
Biaya yang diterapkan ke VM yang ditetapkan untuk penyebaran VM yang ditetapkan ke kluster
Lalu lintas yang dicerminkan Didukung Tidak didukung
Penyebaran tanpa kode Didukung (model MLflow dan Triton ) Didukung (model MLflow dan Triton )

Penyebaran online

Penyebaran adalah sekumpulan sumber daya dan komputasi yang diperlukan untuk menghosting model yang melakukan inferensi aktual. Satu titik akhir dapat berisi beberapa penyebaran dengan konfigurasi yang berbeda. Penyiapan ini membantu memisahkan antarmuka yang disajikan oleh titik akhir dari detail implementasi yang ada dalam penyebaran. Titik akhir online memiliki mekanisme perutean yang dapat mengarahkan permintaan ke penyebaran tertentu di titik akhir.

Diagram berikut menunjukkan titik akhir online yang memiliki dua penyebaran, biru dan hijau. Penyebaran biru menggunakan VM dengan SKU CPU, dan menjalankan model versi 1. Penyebaran hijau menggunakan VM dengan SKU GPU, dan menjalankan model versi 2. Titik akhir dikonfigurasi untuk merutekan 90% lalu lintas masuk ke penyebaran biru, sementara penyebaran hijau menerima sisa 10%.

Diagram showing an endpoint splitting traffic to two deployments.

Tabel berikut menjelaskan atribut utama penyebaran:

Atribut KETERANGAN
Nama Nama penyebaran.
Nama titik akhir 2 Nama titik akhir untuk membuat penyebaran di bawah.
Model Model yang digunakan untuk penyebaran. Nilai ini dapat berupa referensi ke model berversi yang ada di ruang kerja atau spesifikasi model sebaris.
Jalur kode Jalur ke direktori pada lingkungan pengembangan lokal yang berisi semua kode sumber Python untuk menilai model. Anda dapat menggunakan direktori dan paket bertumpuk.
Skrip penskoran Jalur relatif ke file penilaian di direktori kode sumber. Kode Python ini harus memiliki fungsi init() dan fungsi run(). Fungsi init() akan dipanggil setelah model dibuat atau diperbarui (Anda dapat menggunakannya untuk menyimpan model dalam memori, misalnya). Fungsi run() ini disebut pada setiap pemanggilan titik akhir untuk melakukan penilaian/prediksi aktual.
Lingkungan Lingkungan untuk menghosting model dan kode. Nilai ini dapat berupa referensi ke lingkungan berversi yang ada di ruang kerja atau spesifikasi lingkungan sebaris. Catatan: Microsoft secara teratur menambal gambar dasar untuk kerentanan keamanan yang diketahui. Anda harus menyebarkan ulang titik akhir Anda untuk menggunakan gambar yang di-patch. Jika Anda memberikan gambar Anda sendiri, Anda bertanggung jawab untuk memperbaruinya. Untuk informasi selengkapnya, lihat Patching gambar.
Jenis instans Ukuran VM untuk digunakan untuk penyebaran. Untuk daftar ukuran yang didukung, lihat Daftar SKU titik akhir online terkelola.
Jumlah Instans Jumlah instans yang digunakan untuk penyebaran. Mendasarkan nilai pada beban kerja yang Anda harapkan. Untuk ketersediaan tinggi, kami sarankan Anda menetapkan nilai ke setidaknya 3. Kami mencadangkan kuota tambahan sebesar 20% untuk melakukan peningkatan. Untuk informasi selengkapnya, lihat alokasi kuota komputer virtual untuk penyebaran.

Untuk mempelajari cara menyebarkan titik akhir online menggunakan templat CLI, SDK, studio, dan ARM, lihat Menyebarkan model ML dengan titik akhir online.

Penyebaran untuk coder dan non-coder

Azure Pembelajaran Mesin mendukung penyebaran model ke titik akhir online untuk coder dan non-coder, dengan menyediakan opsi untuk penyebaran tanpa kode, penyebaran kode rendah, dan penyebaran Bring Your Own Container (BYOC).

  • Penyebaran tanpa kode menyediakan inferensi di luar kotak untuk kerangka kerja umum (misalnya, scikit-learn, TensorFlow, PyTorch, dan ONNX) melalui MLflow dan Triton.
  • Penyebaran kode rendah memungkinkan Anda untuk memberikan kode minimal bersama dengan model ML Anda untuk penyebaran.
  • Penyebaran BYOC memungkinkan Anda membawa kontainer apa pun secara virtual untuk menjalankan titik akhir online Anda. Anda dapat menggunakan semua fitur platform Azure Pembelajaran Mesin seperti penskalaan otomatis, GitOps, penelusuran kesalahan, dan peluncuran yang aman untuk mengelola alur MLOps Anda.

Tabel berikut menyoroti aspek utama tentang opsi penyebaran online:

Tanpa kode Kode rendah BYOC
Ringkasan Menggunakan inferensi di luar kotak untuk kerangka kerja populer seperti scikit-learn, TensorFlow, PyTorch, dan ONNX, melalui MLflow dan Triton. Untuk informasi selengkapnya, lihat Menyebarkan model MLflow ke titik akhir online. Menggunakan gambar yang aman dan diterbitkan secara publik untuk kerangka kerja populer, dengan pembaruan setiap dua minggu untuk mengatasi kerentanan. Anda menyediakan skrip penilaian dan/atau dependensi Python. Untuk informasi selengkapnya, lihat Lingkungan Yang Dikumpulkan Azure Pembelajaran Mesin. Anda menyediakan tumpukan lengkap Anda melalui dukungan Azure Pembelajaran Mesin untuk gambar kustom. Untuk informasi selengkapnya, lihat Menggunakan kontainer kustom untuk menyebarkan model ke titik akhir online.
Gambar dasar kustom Tidak, lingkungan yang dikumpulkan akan menyediakan ini untuk penyebaran yang mudah. Ya dan Tidak, Anda dapat menggunakan gambar yang dikumpulkan atau gambar yang disesuaikan. Ya, bawa lokasi gambar kontainer yang dapat diakses (misalnya, docker.io, Azure Container Registry (ACR), atau Microsoft Container Registry (MCR)) atau Dockerfile yang dapat Anda bangun/dorong dengan ACR untuk kontainer Anda.
Dependensi kustom Tidak, lingkungan yang dikumpulkan akan menyediakan ini untuk penyebaran yang mudah. Ya, bawa lingkungan Azure Pembelajaran Mesin tempat model berjalan; gambar Docker dengan dependensi Conda, atau dockerfile. Ya, ini akan disertakan dalam gambar kontainer.
Kode kustom Tidak, skrip penilaian akan dibuat secara otomatis untuk memudahkan penyebaran. Ya, bawa skrip penilaian Anda. Ya, ini akan disertakan dalam gambar kontainer.

Catatan

AutoML menjalankan pembuatan skrip penilaian dan dependensi secara otomatis untuk pengguna, sehingga Anda dapat menyebarkan model AutoML apa pun tanpa menulis kode tambahan (untuk penyebaran tanpa kode) atau Anda dapat memodifikasi skrip yang dihasilkan secara otomatis ke kebutuhan bisnis Anda (untuk penyebaran kode rendah). Untuk mempelajari cara menyebarkan dengan model AutoML, lihat Menyebarkan model AutoML dengan titik akhir online.

Penelusuran kesalahan titik akhir online

Azure Pembelajaran Mesin menyediakan berbagai cara untuk men-debug titik akhir online secara lokal dan dengan menggunakan log kontainer.

Penelusuran kesalahan lokal dengan server HTTP inferensi Azure Pembelajaran Mesin

Anda dapat men-debug skrip penilaian Anda secara lokal dengan menggunakan server HTTP inferensi Azure Pembelajaran Mesin. Server HTTP adalah paket Python yang mengekspos fungsi penilaian Anda sebagai titik akhir HTTP dan membungkus kode server Flask dan dependensi ke dalam paket tunggal. Ini termasuk dalam gambar Docker bawaan untuk inferensi yang digunakan saat menyebarkan model dengan Azure Pembelajaran Mesin. Dengan menggunakan paket saja, Anda dapat menyebarkan model secara lokal untuk produksi, dan Anda juga dapat dengan mudah memvalidasi skrip penilaian (entri) Anda di lingkungan pengembangan lokal. Jika ada masalah dengan skrip penilaian, server akan mengembalikan kesalahan dan lokasi di mana kesalahan terjadi. Anda juga dapat menggunakan Visual Studio Code untuk men-debug dengan server HTTP inferensi Azure Pembelajaran Mesin.

Untuk mempelajari selengkapnya tentang penelusuran kesalahan dengan server HTTP, lihat Men-debug skrip penilaian dengan server HTTP inferensi Azure Pembelajaran Mesin.

Penelusuran kesalahan lokal

Untuk penelusuran kesalahan lokal, Anda memerlukan penyebaran lokal; yaitu, model yang disebarkan ke lingkungan Docker lokal. Anda dapat menggunakan penyebaran lokal ini untuk pengujian dan penelusuran kesalahan sebelum penyebaran ke cloud. Untuk menyebarkan secara lokal, Anda harus menginstal dan menjalankan Docker Engine . Azure Pembelajaran Mesin kemudian membuat gambar Docker lokal yang meniru gambar Azure Pembelajaran Mesin. Azure Pembelajaran Mesin akan membangun dan menjalankan penyebaran untuk Anda secara lokal dan menyimpan gambar untuk iterasi yang cepat.

Langkah-langkah untuk penelusuran kesalahan lokal biasanya meliputi:

  • Memeriksa apakah penyebaran lokal berhasil
  • Memanggil titik akhir lokal untuk inferensi
  • Meninjau log untuk output operasi pemanggilan

Untuk mempelajari selengkapnya tentang penelusuran kesalahan lokal, lihat Menyebarkan dan men-debug secara lokal dengan menggunakan titik akhir lokal.

Penelusuran kesalahan lokal dengan Visual Studio Code (pratinjau)

Penting

Fitur ini masih dalam pratinjau umum. Versi pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas.

Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Seperti halnya penelusuran kesalahan lokal, Anda harus menginstal dan menjalankan Docker Engine terlebih dahulu lalu menyebarkan model ke lingkungan Docker lokal. Setelah Anda memiliki penyebaran lokal, titik akhir lokal Azure Pembelajaran Mesin menggunakan kontainer pengembangan Docker dan Visual Studio Code (kontainer pengembangan) untuk membangun dan mengonfigurasi lingkungan debugging lokal. Dengan kontainer pengembangan, Anda dapat memanfaatkan fitur Visual Studio Code, seperti penelusuran kesalahan interaktif, dari dalam kontainer Docker.

Untuk mempelajari selengkapnya tentang penelusuran kesalahan titik akhir online secara interaktif di Visual Studio Code, lihat Men-debug titik akhir online secara lokal di Visual Studio Code.

Penelusuran kesalahan dengan log kontainer

Untuk penyebaran, Anda tidak bisa mendapatkan akses langsung ke VM tempat model disebarkan. Namun, Anda bisa mendapatkan log dari beberapa kontainer yang berjalan di VM. Ada dua jenis kontainer yang bisa Anda dapatkan lognya:

  • Server inferensi: Log menyertakan log konsol (dari server inferensi) yang berisi output fungsi cetak/pengelogan dari skrip penilaian Anda (score.py kode).
  • Penginisialisasi penyimpanan: Log berisi informasi tentang apakah data kode dan model berhasil diunduh ke kontainer. Kontainer berjalan sebelum kontainer server inferensi mulai berjalan.

Untuk mempelajari selengkapnya tentang penelusuran kesalahan dengan log kontainer, lihat Mendapatkan log kontainer.

Perutean dan pencerminan lalu lintas ke penyebaran online

Ingat bahwa satu titik akhir online dapat memiliki beberapa penyebaran. Karena titik akhir menerima lalu lintas masuk (atau permintaan), titik akhir dapat merutekan persentase lalu lintas ke setiap penyebaran, seperti yang digunakan dalam strategi penyebaran biru/hijau asli. Ini juga dapat mencerminkan (atau menyalin) lalu lintas dari satu penyebaran ke penyebaran lain, juga disebut pencerminan lalu lintas atau bayangan.

Perutean lalu lintas untuk penyebaran biru/hijau

Penyebaran biru/hijau adalah strategi penyebaran yang memungkinkan Anda meluncurkan penyebaran baru (penyebaran hijau) ke subset kecil pengguna atau permintaan sebelum meluncurkannya sepenuhnya. Titik akhir dapat menerapkan penyeimbangan beban untuk mengalokasikan persentase lalu lintas tertentu ke setiap penyebaran, dengan total alokasi di semua penyebaran yang menambahkan hingga 100%.

Tip

Permintaan dapat mengabaikan penyeimbangan beban lalu lintas yang dikonfigurasi dengan menyertakan header HTTP azureml-model-deployment. Atur nilai header ke nama penyebaran yang Anda inginkan untuk dirutekan permintaan.

Gambar berikut menunjukkan pengaturan di studio Azure Pembelajaran Mesin untuk mengalokasikan lalu lintas antara penyebaran biru dan hijau.

Screenshot showing slider interface to set traffic allocation between deployments.

Alokasi lalu lintas ini merutekan lalu lintas seperti yang ditunjukkan pada gambar berikut, dengan 10% lalu lintas masuk ke penyebaran hijau, dan 90% lalu lintas masuk ke penyebaran biru.

Diagram showing an endpoint splitting traffic to two deployments.

Pencerminan lalu lintas ke penyebaran online

Titik akhir juga dapat mencerminkan (atau menyalin) lalu lintas dari satu penyebaran ke penyebaran lain. Pencerminan lalu lintas (juga disebut pengujian bayangan) berguna ketika Anda ingin menguji penyebaran baru dengan lalu lintas produksi tanpa memengaruhi hasil yang diterima pelanggan dari penyebaran yang ada. Misalnya, saat menerapkan penyebaran biru/hijau di mana 100% lalu lintas dirutekan ke biru dan 10% dicerminkan ke penyebaran hijau, hasil lalu lintas cermin ke penyebaran hijau tidak dikembalikan ke klien, tetapi metrik dan log direkam.

Diagram showing an endpoint mirroring traffic to a deployment.

Untuk mempelajari cara menggunakan pencerminan lalu lintas, lihat peluncuran Brankas untuk titik akhir online.

Lebih banyak kemampuan titik akhir online di Azure Pembelajaran Mesin

Autentikasi dan Enkripsi

  • Autentikasi: Kunci dan Token Pembelajaran Mesin Azure
  • Identitas terkelola: Ditetapkan pengguna dan ditetapkan sistem
  • SSL secara default untuk pemanggilan titik akhir

Penskalaan otomatis

Skala otomatis secara otomatis menjalankan jumlah sumber daya yang tepat untuk menangani beban pada aplikasi Anda. Titik akhir terkelola mendukung penskalaan otomatis melalui integrasi dengan fitur penskalaan otomatis Azure monitor. Anda dapat mengonfigurasi penskalaan berbasis metrik (misalnya, pemanfaatan CPU >70%), penskalaan berbasis jadwal (misalnya, aturan penskalaan untuk jam kerja puncak), atau kombinasi.

Screenshot showing that autoscale flexibly provides between min and max instances, depending on rules.

Untuk mempelajari cara mengonfigurasi autoscaling, lihat Cara menskalakan titik akhir online skala otomatis.

Isolasi jaringan terkelola

Saat menyebarkan model ML ke titik akhir online terkelola, Anda dapat mengamankan komunikasi dengan titik akhir online dengan menggunakan titik akhir privat.

Anda dapat mengonfigurasikan keamanan untuk permintaan penilaian masuk dan komunikasi keluar dengan ruang kerja dan layanan lainnya secara terpisah. Komunikasi masuk menggunakan titik akhir privat ruang kerja Azure Machine Learning. Komunikasi keluar menggunakan titik akhir privat yang dibuat untuk jaringan virtual terkelola ruang kerja.

Untuk informasi selengkapnya, lihat Isolasi jaringan dengan titik akhir online terkelola.

Memantau titik akhir dan penyebaran online

Pemantauan untuk titik akhir Azure Pembelajaran Mesin dimungkinkan melalui integrasi dengan Azure Monitor. Integrasi ini memungkinkan Anda melihat metrik dalam bagan, mengonfigurasi pemberitahuan, mengkueri dari tabel log, menggunakan Application Insights untuk menganalisis peristiwa dari kontainer pengguna, dan sebagainya.

  • Metrik: Gunakan Azure Monitor untuk melacak berbagai metrik titik akhir, seperti latensi permintaan, dan menelusuri tingkat penyebaran atau status. Anda juga dapat melacak metrik tingkat penyebaran, seperti pemanfaatan CPU/GPU dan menelusuri paling detail ke tingkat instans. Azure Monitor memungkinkan Anda melacak metrik ini dalam bagan dan menyiapkan dasbor dan pemberitahuan untuk analisis lebih lanjut.

  • Log: Kirim metrik ke Ruang Kerja Analitik Log tempat Anda dapat mengkueri log menggunakan sintaks kueri Kusto. Anda juga dapat mengirim metrik ke Akun Penyimpanan dan/atau Azure Event Hubs untuk diproses lebih lanjut. Selain itu, Anda dapat menggunakan tabel Log khusus untuk peristiwa terkait titik akhir online, lalu lintas, dan log kontainer. Kueri Kusto memungkinkan analisis kompleks menggabungkan beberapa tabel.

  • Wawasan aplikasi: Lingkungan yang dikumpulkan mencakup integrasi dengan Application Insights, dan Anda dapat mengaktifkan/menonaktifkannya saat membuat penyebaran online. Metrik dan log bawaan dikirim ke Application insights, dan Anda dapat menggunakan fitur bawaannya seperti metrik Langsung, Pencarian transaksi, Kegagalan, dan Performa untuk analisis lebih lanjut.

Untuk informasi selengkapnya tentang pemantauan, lihat Memantau titik akhir online.

Injeksi rahasia dalam penyebaran online (pratinjau)

Injeksi rahasia dalam konteks penyebaran online adalah proses pengambilan rahasia (seperti kunci API) dari penyimpanan rahasia, dan menyuntikkannya ke dalam kontainer pengguna Anda yang berjalan di dalam penyebaran online. Rahasia pada akhirnya akan dapat diakses melalui variabel lingkungan, sehingga menyediakan cara yang aman bagi mereka untuk dikonsumsi oleh server inferensi yang menjalankan skrip penilaian Anda atau dengan tumpukan inferensi yang Anda bawa dengan pendekatan penyebaran BYOC (bawa kontainer Anda sendiri).

Ada dua cara untuk menyuntikkan rahasia. Anda dapat menyuntikkan rahasia sendiri, menggunakan identitas terkelola, atau Anda dapat menggunakan fitur injeksi rahasia. Untuk mempelajari selengkapnya tentang cara menyuntikkan rahasia, lihat Injeksi rahasia di titik akhir online (pratinjau).

Langkah berikutnya