Menyebarkan model yang telah dioptimalkan untuk inferensi

Setelah model Anda disempurnakan, Anda dapat menyebarkan model dan menggunakannya di aplikasi Anda sendiri.

Saat Anda menyebarkan model, Anda membuat model tersedia untuk inferensi, dan itu dikenakan biaya hosting per jam. Namun, model yang disempurnakan dapat disimpan di Microsoft Foundry tanpa biaya sampai Anda siap untuk menggunakannya.

Azure OpenAI menyediakan pilihan jenis penyebaran untuk model yang disempurnakan pada struktur hosting yang sesuai dengan pola bisnis dan penggunaan yang berbeda: Standard, Global Standard (pratinjau) dan Provisioned Throughput (pratinjau). Pelajari selengkapnya tentang jenis penyebaran untuk model yang disempurnakan dan konsep semua jenis penyebaran.

Menyebarkan model yang dioptimalkan

Penting

Untuk menyebarkan model, Anda perlu diberi peran Azure AI Owner atau peran apa pun dengan tindakan Microsoft.CognitiveServices/accounts/deployments/write.

Untuk menyebarkan model kustom Anda, pilih model kustom yang akan disebarkan, lalu pilih Sebarkan.

Kotak dialog Sebarkan model terbuka. Dalam kotak dialog, masukkan Nama penyebaran Anda lalu pilih Buat untuk memulai penyebaran model kustom Anda.

Cuplikan layar yang memperlihatkan cara menyebarkan model kustom di portal Foundry.

Anda dapat memantau kemajuan penyebaran Anda di panel Penyebaran di portal Foundry.

Portal tidak mendukung penyebaran lintas wilayah. Gunakan SDK Python atau REST API sebagai gantinya.

Penting

Setelah Anda menyebarkan model yang disesuaikan, jika kapan saja penyebaran tetap tidak aktif selama lebih dari 15 hari, penyebaran akan dihapus. Penyebaran model yang disesuaikan tidak aktif jika model disebarkan lebih dari 15 hari yang lalu dan tidak ada penyelesaian obrolan atau panggilan API respons yang dilakukan padanya selama periode 15 hari berkelanjutan.

Penghapusan deploymen yang tidak aktif tidak menghapus atau memengaruhi model yang dikustomisasi dasar. Model yang disesuaikan dapat disebarkan ulang kapan saja.

Seperti yang dijelaskan dalam Azure OpenAI dalam penetapan harga Model Foundry Microsoft, setiap model yang telah dioptimalkan yang disebarkan akan dikenakan biaya hosting per jam terlepas dari apakah penyelesaian chat atau panggilan API untuk respons dilakukan ke model tersebut. Untuk mempelajari selengkapnya tentang merencanakan dan mengelola biaya dengan Azure OpenAI, lihat Plan dan kelola biaya untuk Azure OpenAI.

Gunakan model yang sudah di-deploy dan dioptimalkan

Setelah model kustom Anda disebarkan, Anda dapat menggunakannya seperti model lain yang disebarkan. Anda dapat menggunakan Playgrounds di dalam portal Foundry untuk bereksperimen dengan penyebaran baru Anda. Anda dapat terus menggunakan parameter yang sama dengan model kustom Anda, seperti temperature dan max_tokens, sebagaimana Anda bisa dengan model lain yang telah disebarkan.

Cuplikan layar panel Playground di portal Foundry, dengan bagian disorot.

Penyimpanan cache prompt

Penyempurnaan Azure OpenAI mendukung penyimpanan sementara perintah dengan model tertentu. Penyimpanan sementara perintah memungkinkan Anda mengurangi latensi permintaan keseluruhan dan biaya untuk perintah yang lebih panjang yang memiliki konten identik di awal perintah. Untuk mempelajari selengkapnya tentang penembolokan perintah, lihat mulai menggunakan penembolokan perintah.

Jenis Penyebaran

Azure Pengoptimalan OpenAI mendukung tipe penyebaran berikut.

Standar

Penyebaran standar menyediakan model penagihan bayar per token dengan residensi data terbatas pada wilayah yang disebarkan.

Model US Timur2 US Tengah Utara Swedia Tengah
o4-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4o
GPT-4o-mini

Standar Global

Standar global penyempurnaan penyebaran yang disesuaikan menawarkan penghematan biaya, tetapi bobot model kustom dapat disimpan sementara di luar wilayah sumber daya OpenAI Azure Anda.

Penyebaran standar global tersedia dari semua wilayah OpenAI Azure untuk model berikut:

  • o4-mini
  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • GPT-4o
  • GPT-4o-mini

Cuplikan layar pengalaman pengguna penyebaran standar global dengan model yang disempurnakan.

Tingkat Pengembang

Penyebaran yang telah dioptimalkan oleh pengembang menawarkan pengalaman serupa seperti Standar Global tanpa biaya hosting per jam, tetapi tidak menawarkan jaminan tingkat layanan untuk ketersediaan. Penyebaran pengembang dirancang untuk evaluasi kandidat model dan bukan untuk penggunaan operasional.

Penyebaran oleh pengembang tersedia dari semua wilayah Azure untuk OpenAI untuk model berikut:

Model Ketersediaan
o4-mini Semua wilayah
GPT-4.1 Semua wilayah
GPT-4.1-mini Semua wilayah
GPT-4.1-nano Semua wilayah

Throughput yang Disediakan

Model US Tengah Utara Swedia Tengah
GPT-4.1
GPT-4o
GPT-4o-mini

Penyebaran throughput yang diprovisikan yang disempurnakan menawarkan performa yang dapat diprediksi untuk agen dan aplikasi yang sensitif terhadap latensi. Mereka menggunakan kapasitas throughput regional (PTU) yang sama dengan model dasar, jadi jika Anda sudah memiliki kuota PTU regional, Anda dapat menyebarkan model yang disempurnakan di wilayah dukungan.

Bersihkan deployment Anda

Untuk menghapus penyebaran, gunakan Deployments - Delete REST API dan kirim HTTP DELETE ke sumber daya penyebaran. Seperti halnya membuat penyebaran, Anda harus menyertakan parameter berikut:

  • ID langganan Azure
  • nama grup sumber daya Azure
  • Nama sumber daya Azure OpenAI
  • Nama penyebaran yang akan dihapus

Di bawah ini adalah contoh REST API untuk menghapus penyebaran:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

Anda juga dapat menghapus penyebaran di portal Foundry, atau menggunakan Azure CLI.

Langkah berikutnya