Apa itu throughput yang teralokasi untuk Model Foundry?

Sedang melihat:Versi baru portal Foundry - Beralih ke versi portal Foundry klasik

Provisioned throughput adalah jenis deployment di Microsoft Foundry yang menyediakan throughput pemrosesan model khusus untuk deployment Anda. Tidak seperti penyebaran standar, di mana kapasitas inferensi dibagikan di seluruh pelanggan dan throughput dapat bervariasi menurut permintaan, penyebaran yang disediakan menyimpan jumlah kapasitas pemrosesan tetap secara eksklusif untuk penggunaan penyebaran Anda, apakah permintaan dibuat atau tidak.

Artikel ini membahas konsep inti di balik throughput yang diprovisikan: apa itu, kapan menggunakannya, bagaimana kapasitas diukur dan dikenakan biaya, serta apa yang perlu diketahui tentang kuota dan kapasitas sebelum Anda menerapkannya.

Perbandingan kategori penerapan

Penyebaran standar, penyebaran batch, pemrosesan prioritas, dan throughput yang disediakan adalah cara untuk menyebarkan model di Microsoft Foundry. Pilihan yang tepat tergantung pada persyaratan latensi, pola lalu lintas, dan toleransi biaya Anda.

Jenis penyebaran Billing Perjanjian Tingkat Layanan Latensi (SLA) Jenis dan kebutuhan beban kerja
Standar Membayar per token None Beban kerja yang seimbang: pengembangan, pengujian, dan produksi dengan lalu lintas variabel atau tidak dapat diprediksi
Pemrosesan prioritas Bayar per token (tarif tingkat prioritas) Target latensi yang ditentukan per model Beban kerja produksi yang sensitif terhadap latensi membutuhkan latensi rendah yang konsisten tanpa komitmen jangka panjang
Tersedia Per PTU per jam (atau menggunakan reservasi Azure) Target latensi yang ditentukan per model Beban kerja produksi yang sangat penting dan berskala tinggi membutuhkan throughput yang dijamin dan latensi yang konsisten
Batch Bayar per token (tarif batch yang didiskon) None Memproses beban kerja secara massal tanpa persyaratan latensi. Hasil dikembalikan secara asinkron.

Kapan menggunakan throughput yang disediakan

Throughput yang disediakan adalah pilihan yang tepat saat aplikasi Anda memiliki:

  • Pola lalu lintas yang dapat diprediksi: Anda memiliki perkiraan permintaan per menit dan volume token yang wajar.
  • Persyaratan sensitif latensi: Pengguna atau sistem hilir Anda memerlukan respons latensi rendah yang konsisten.
  • Volume tingkat produksi: Kasus penggunaan dengan throughput tinggi yang membuat penagihan per token menjadi mahal.
  • Skenario real-time atau interaktif: Aplikasi obrolan, copilot, atau agen yang waktu responsnya berubah-ubah sehingga memperburuk pengalaman pengguna.

Penyebaran standar tetap lebih cocok untuk pengembangan, pengujian, penggunaan volume rendah, atau lalu lintas yang sangat bervariasi yang membuatnya sulit untuk mengukur penyebaran terlebih dahulu.

Unit throughput yang telah dialokasikan

Unit throughput yang diprovisikan (PTUs) adalah satuan ukuran untuk throughput yang diprovisikan. PTU mewakili jumlah kapasitas pemrosesan model tetap. Saat Anda membuat deployment yang diprovisikan, Anda menentukan berapa banyak PTU yang akan dialokasikan. Foundry mengalokasikan sejumlah kapasitas komputasi tersebut dan menahannya untuk deployment Anda.

Karakteristik utama PTUs:

  • Independen terhadap model: Kuota PTU yang sama dapat digunakan untuk menerapkan model yang didukung. Anda tidak membeli PTUs untuk model tertentu.
  • Khusus wilayah: Kuota PTU diberikan per langganan, per wilayah, dan per jenis penyebaran. Kuota di Amerika Serikat Bagian Timur tidak berlaku untuk Eropa Barat.
  • Laju pemrosesan berbeda-beda menurut model: Token per menit (TPM) yang dihasilkan oleh sejumlah PTU tertentu bergantung pada model. Model yang lebih berat memerlukan lebih banyak PTUs untuk melayani TPM yang sama dengan yang lebih ringan. Untuk rasio PTU-ke-TPM untuk tiap model, lihat parameter throughput tiap model.
  • Ukuran penyebaran minimum berlaku: Setiap model memiliki jumlah PTU minimum yang diperlukan untuk membuat penyebaran. Minimum bervariasi menurut model dan tercantum dalam Parameter penyebaran dan nilai throughput berdasarkan model.

Kuota dan kapasitas

Kuota dan kapasitas PTU saling terkait, namun merupakan dua konsep yang berbeda yang keduanya memengaruhi apakah Anda dapat membuat penyebaran. Bagian ini menjelaskan apa masing-masing, cara meminta kuota tambahan, dan cara memeriksa apakah kapasitas tersedia di wilayah Anda.

Apa itu kuota PTU?

Kuota PTU adalah jumlah maksimum PTUs yang dapat Anda sebarkan per langganan, per wilayah, dan per jenis penyebaran. Kuota adalah batas kebijakan yang diberlakukan oleh Azure, dan tidak memiliki biaya terkait. Kuota dilingkup pada tingkat penawaran (Global Provisioned, Data Zone Provisioned, dan Regional Provisioned adalah kumpulan kuota terpisah) dan di tingkat wilayah (misalnya, kuota di AS Timur tidak berlaku untuk Eropa Barat).

Sejumlah kuota secara default dialokasikan ke langganan yang memenuhi syarat di beberapa wilayah.

Apa itu kapasitas?

Kapasitas adalah jumlah sebenarnya PTU untuk setiap versi model yang tersedia untuk diterapkan. Kapasitas dialokasikan pada saat penerapan dan dipertahankan selama masa berlaku penerapan.

Penting

Memiliki kuota PTU tidak menjamin bahwa kapasitas tersedia. Jika kapasitas di wilayah tidak memadai untuk jumlah PTU yang diminta, penyebaran gagal. Selalu verifikasi ketersediaan kapasitas sebelum merencanakan penyebaran atau membeli reservasi.

Karena kapasitas adalah sumber daya yang terbatas dan berubah secara dinamis:

  • Ketersediaan kapasitas berubah sepanjang hari berdasarkan permintaan pelanggan di semua wilayah dan model.
  • Menghapus atau menurunkan skala penyebaran akan merilis kapasitasnya kembali ke kumpulan wilayah. Tidak ada jaminan kapasitas yang sama tersedia jika Anda membuat ulang atau meningkatkan penyebaran nanti.

Cara mendapatkan kuota

Jumlah default kuota global, zona data, dan regional yang disediakan ditetapkan kepada langganan yang memenuhi syarat di berbagai wilayah. Anda dapat meminta lebih banyak kuota atau kapasitas dengan mengirimkan formulir permintaan kuota. Formulir ini juga tersedia di portal Foundry di halaman Kuota .

Persetujuan mungkin memakan waktu beberapa hari berdasarkan ketersediaan kuota, dan Anda menerima pemberitahuan email saat permintaan disetujui.

Cara memeriksa kapasitas yang tersedia

Untuk memeriksa ketersediaan kapasitas secara real-time:

  • Gunakan pengalaman penyebaran portal Foundry, yang memberi tahu Anda apakah kapasitas tersedia saat Anda mencoba membuat penyebaran dan mencantumkan wilayah alternatif dengan kapasitas yang tersedia jika wilayah target Anda tidak memiliki cukup.
  • Gunakan API kapasitas model untuk mengkueri jumlah PTU maksimum yang dapat disebarkan secara terprogram untuk model dan wilayah tertentu.

Jika wilayah target Anda tidak memiliki kapasitas yang tersedia:

  • Kirimkan formulir permintaan kuota untuk meminta lebih banyak kuota atau kapasitas.
  • Coba terapkan dengan PTU yang lebih sedikit.
  • Coba lagi nanti, karena ketersediaan kapasitas berubah secara dinamis sepanjang hari.

Untuk panduan langkah demi langkah tentang membuat penyebaran yang disediakan dan menangani batasan kapasitas, lihat Mulai menggunakan penyebaran yang disediakan.

Ukuran PTU

Sebelum membuat deployment yang diprovisikan, perkirakan berapa banyak PTU yang diperlukan oleh beban kerja Anda. Tiga faktor mendorong perhitungan:

  • Bentuk permintaan: Permintaan yang Diharapkan per menit (RPM), ukuran prompt rata-rata (token input), dan ukuran respons rata-rata (token output).
  • Rasio output-ke-input: Token output memerlukan kapasitas pemrosesan yang lebih banyak daripada token input. Setiap model memiliki rasio yang menunjukkan berapa banyak token input yang setara dengan satu token output untuk keperluan kapasitas. Untuk model GPT-4.1 dan yang lebih baru Azure OpenAI, rasio ini cocok dengan rasio harga standar global model antara token output dan input. Untuk informasi selengkapnya tentang rasio ini, lihat Parameter penyebaran dan nilai throughput berdasarkan model.
  • Tingkat cache: Fraksi token input yang dilayani dari cache perintah. Token cache tidak menggunakan kapasitas PTU, sehingga tingkat cache yang lebih tinggi mengurangi PTUs yang diperlukan.

Perhitungan ukuran menggunakan faktor-faktor ini untuk mengonversi volume token yang diharapkan menjadi satu angka TPM yang dinormalisasi , lalu dibagi dengan nilai Input TPM per PTU model untuk tiba pada jumlah PTU yang diperlukan.

Anda dapat mengukur secara manual, menggunakan rumus dan nilai per model, atau menggunakan kalkulator kapasitas di portal Foundry (klasik) untuk perkiraan terpandu.

Untuk metodologi ukuran lengkap, termasuk rumus, contoh yang dikerjakan, dan referensi kalkulator kapasitas, lihat Menentukan ukuran PTU untuk beban kerja.

Jenis penyebaran throughput yang disediakan

Throughput yang diprovisikan tersedia dalam tiga jenis penerapan. Semuanya menyediakan kapasitas khusus dan latensi yang dapat diprediksi setelah disebarkan. Perbedaannya adalah tempat lalu lintas inferensi Anda diproses:

Jenis penyebaran sku-name dalam CLI Pengarutan Data Paling cocok untuk
Tersedia Secara Global GlobalProvisionedManaged Dirutekan di seluruh wilayah Azure secara global Ketersediaan tertinggi; saat wilayah perutean tidak dibatasi
Zona Data Disediakan DataZoneProvisionedManaged Tetap berada dalam zona geografis (AS atau UE) Residensi data pada tingkat zona dengan ketersediaan lebih tinggi dibandingkan tingkat regional
Dikonfigurasi Regional ProvisionedManaged Tetap berada di wilayah Azure spesifik milik deployment Persyaratan residensi data yang ketat untuk satu wilayah

Untuk perbandingan lengkap semua jenis deployment Foundry, termasuk standar, batch, dan terprovisi, lihat Jenis deployment untuk Microsoft Foundry Models.

Model yang didukung

Untuk daftar lengkap Model Foundry yang mendukung throughput yang diprovisikan, termasuk jenis deployment yang didukung oleh setiap model dan ketersediaan wilayah, lihat Ketersediaan wilayah untuk Model Foundry yang dijual langsung oleh Azure.

Spillover

Spillover adalah konfigurasi opsional untuk mengelola fluktuasi lalu lintas pada deployment yang diprovisikan dengan secara otomatis mengarahkan permintaan berlebih ke deployment standar terkait dalam sumber daya Foundry yang sama. Ketika deployment yang diprovisikan terpakai sepenuhnya dan mengembalikan respons non-200 (seperti 429 saat PTU habis), mekanisme spillover mengalihkan permintaan tersebut ke deployment standar, sehingga membantu mengurangi gangguan selama lonjakan lalu lintas.

Semua model Azure OpenAI di Foundry yang mendukung throughput yang diprovisikan juga mendukung spillover. Model Foundry dari penyedia lain (Azure DeepSeek, Meta Llama) saat ini tidak mendukung spillover.

Spillover dapat dikonfigurasi untuk semua permintaan dalam deployment atau dikendalikan per permintaan menggunakan header permintaan x-ms-spillover-deployment. Untuk langkah-langkah konfigurasi, lihat Mengelola lalu lintas dengan spillover untuk penyebaran yang disediakan.

Penagihan per jam dan reservasi Azure

Deployment yang diprovisikan mendukung dua mode penagihan: penagihan per jam untuk penggunaan fleksibel jangka pendek, dan Azure Reservations untuk beban kerja produksi jangka panjang dengan tarif diskon.

Penagihan per jam

Semua jenis penyebaran yang disediakan ditagih dengan tarif per jam ($/PTU/jam) berdasarkan jumlah PTUs yang disebarkan, terlepas dari jumlah token yang digunakan. Meter mulai berjalan saat deployment dibuat dan berhenti saat deployment dihapus.

Penagihan per jam praktis untuk skenario jangka pendek seperti tolok ukur model baru atau peningkatan skala sementara untuk peristiwa seperti hackathon. Namun, jangan berencana untuk menaikkan dan menurunkan skala deployment yang diprovisikan mengikuti lalu lintas agar tetap menggunakan penagihan per jam karena alasan berikut:

  • Kapasitas mungkin tidak tersedia saat Anda perlu meningkatkan skala kembali.

  • Penagihan per jam berkelanjutan dengan pemanfaatan tinggi biasanya melebihi harga reservasi.

Untuk panduan lengkap tentang penagihan per jam dan penskalaan penyebaran yang disediakan, lihat Penagihan per jam.

pemesanan Azure

Reservasi Azure adalah diskon finansial yang diterapkan pada meter penagihan PTU (penghitung penggunaan per jam yang menjadi dasar penagihan Azure), bukan pada setiap deployment. Dengan imbalan komitmen 1 bulan atau 1 tahun, Anda menerima diskon tarif $/PTU/jam efektif. Beberapa hal penting yang perlu diperhatikan tentang reservasi meliputi:

  • Reservasi dibeli per jenis penyebaran (Global, Zona Data, atau Regional) dan dapat dicakup untuk mencakup satu atau beberapa langganan atau grup sumber daya.

  • Reservasi dan penyebaran digabungkan secara longgar, yang berarti Anda membuat penyebaran dan reservasi secara independen.

  • Reservasi tidak menjamin kapasitas. Pertama, buat deployment untuk memastikan bahwa kapasitas tersedia, lalu beli reservasi untuk mengamankan tarif diskon.

Untuk panduan lengkap tentang penentuan ukuran, pembelian, dan pengelolaan reservasi, lihat Reservasi Azure untuk throughput yang diprovisikan.

Cara melacak biaya dan penagihan PTU

Gunakan Microsoft Cost Management untuk melacak dan menganalisis biaya penggunaan dan reservasi PTU Anda:

Apa yang ingin Anda lakukan Artikel
Lihat berapa persen PTU yang dicadangkan Anda sedang aktif digunakan di seluruh deployment Anda Menampilkan pemanfaatan reservasi Azure
Meninjau riwayat pembelian dan aktivitas pengembalian dana apa pun Melihat transaksi pembelian dan pengembalian dana Reservasi Azure
Pahami dampak biaya amortisasi dari reservasi Anda agar penagihan per deployment lebih jelas Melihat biaya manfaat yang diamortisasi
Mendistribusikan biaya reservasi di seluruh tim atau proyek untuk atribusi biaya internal Menagih kembali biaya Reservasi Azure
Menyiapkan perpanjangan otomatis untuk mencegah kedaluwarsa reservasi dan mempertahankan tarif diskon Perbarui reservasi Azure secara otomatis