Memahami biaya yang terkait dengan unit throughput yang dialokasikan (PTU)

2025-07-02

Gunakan artikel ini untuk mempelajari tentang menghitung dan memahami biaya yang terkait dengan PTU. Untuk gambaran umum penawaran throughput yang disediakan, lihat Apa itu throughput yang disediakan?. Saat Anda siap untuk mendaftar untuk penawaran throughput yang disediakan, lihat panduan memulai.

Nota

Dalam kasus panggilan fungsi dan penggunaan agen, penggunaan token dapat bervariasi. Anda harus memahami penggunaan Token Per Menit (TPM) yang diharapkan secara rinci sebelum memigrasikan beban kerja ke PTU.

Unit throughput yang telah dialokasikan

Unit throughput yang disediakan (PTUs) adalah unit generik dari kapasitas pemrosesan model yang dapat Anda gunakan untuk mengukur penyebaran yang disediakan untuk mencapai throughput yang diperlukan untuk memproses permintaan dan menghasilkan penyelesaian. Unit throughput yang dialokasikan diberikan kepada langganan sebagai kuota. Setiap kuota khusus untuk wilayah tertentu dan menentukan jumlah maksimum PTUs yang dapat ditetapkan untuk penyebaran dalam langganan dan wilayah tersebut.

Memahami penagihan throughput yang dialokasikan

Throughput Yang Disediakan Regional Azure AI Foundry, Throughput yang Disediakan Zona Data, dan Throughput yang Disediakan Global dibeli sesuai permintaan per jam berdasarkan jumlah PTUs yang disebarkan, dengan diskon jangka besar yang tersedia melalui pembelian Reservasi Azure.

Model per jam berguna untuk kebutuhan penyebaran jangka pendek, seperti memvalidasi model baru atau memperoleh kapasitas untuk hackathon.  Namun, diskon yang disediakan oleh Azure Reservation untuk Azure AI Foundry Regional Provisioned, Data Zone Provisioned, dan Global Provisioned cukup besar, dan sebagian besar pelanggan dengan penggunaan jangka panjang yang konsisten akan menemukan bahwa model reservasi menawarkan proposisi nilai yang lebih baik.

Nota

Pelanggan Yang Disediakan Azure AI Foundry yang di-onboarding sebelum pembaruan layanan mandiri Agustus menggunakan model pembelian yang disebut model Komitmen. Pelanggan ini dapat terus menggunakan model pembelian yang lebih lama ini bersama model pembelian Per Jam/reservasi. Model Komitmen tidak tersedia untuk pelanggan baru atau model baru tertentu yang diperkenalkan setelah Agustus 2024. Untuk detail tentang model pembelian komitmen dan opsi untuk koeksistensi dan migrasi, lihat Azure AI Foundry Pembaruan yang Disediakan Agustus.

Independen kuota model

Tidak seperti kuota Token Per Menit (TPM) yang digunakan oleh penawaran Azure AI Foundry lainnya, PTUs bersifat independen model. PTUs mungkin digunakan untuk menyebarkan model yang didukung yang dihosting dan dijual langsung oleh Microsoft di wilayah tersebut.

Kuota untuk penyebaran yang disediakan muncul di Azure AI Foundry sebagai jenis penyebaran berikut: diprovisikan secara global, zona data yang disediakan , dan diprovisikan regional.

jenis penyebaran	Nama kuota
Disediakan Regional	Satuan Kapasitas Terjamin Wilayah
Tersedia Secara Global	Unit Throughput yang Dialokasikan Secara Global
Zona data Disediakan	Unit Throughput yang Disediakan Zona Data

Penggunaan per jam

Penyebaran Regional Provisioned, Data Zone Provisioned, dan Global Provisioned dikenakan tarif per jam ($/PTU/jam) berdasarkan jumlah PTU yang telah disediakan.  Misalnya, penyebaran 300 PTU akan dikenakan biaya sebesar tarif per jam dikali 300.  Semua harga model Azure AI Foundry tersedia di Kalkulator Harga Azure.

Jika penyebaran ada selama satu jam parsial, penyebaran akan menerima biaya prorata berdasarkan jumlah menit penyebarannya selama satu jam.  Misalnya, penyebaran yang ada selama 15 menit selama satu jam akan menerima biaya per jam ke-1/4. 

Jika ukuran penyebaran diubah, biaya penyebaran akan menyesuaikan agar sesuai dengan jumlah PTUs baru.

Membayar penyebaran yang disediakan secara regional, zona data yang disediakan, dan yang disediakan secara global setiap jam sangat ideal untuk skenario penyebaran jangka pendek.  Misalnya: Kualitas dan tolok ukur performa model baru, atau untuk sementara meningkatkan kapasitas PTU untuk mencakup peristiwa seperti hackathon. 

Pelanggan yang memerlukan penggunaan jangka panjang untuk penyebaran yang disediakan secara regional, zona data yang disediakan, dan penyebaran global yang disediakan mungkin akan membayar lebih sedikit per bulan dengan membeli diskon jangka waktu melalui Reservasi Azure, seperti yang dibahas nanti di artikel ini.

Penting

Tidak disarankan untuk menskalakan penyebaran produksi sesuai dengan lalu lintas masuk dan membayarnya murni setiap jam. Ada dua alasan untuk ini:

Penghematan biaya yang dicapai dengan membeli Azure Reservations untuk Azure AI Foundry Provisioned Throughput, Data Zone Provisioned, dan Global Provisioned sangat signifikan. Dalam banyak kasus, akan lebih murah untuk mempertahankan ukuran penyebaran yang disiapkan untuk volume produksi penuh dan dibayarkan melalui reservasi, daripada harus menskalakan penyebaran sesuai dengan lalu lintas masuk.
Memiliki kuota yang disediakan (PTUs) yang tidak digunakan tidak menjamin bahwa kapasitas akan tersedia untuk mendukung peningkatan ukuran penyebaran jika diperlukan. Kuota membatasi jumlah maksimum PTUs yang dapat dipasang, namun tidak menjamin kapasitas. Kapasitas yang disediakan untuk setiap wilayah dan model berubah secara dinamis sepanjang hari dan mungkin tidak tersedia jika diperlukan. Akibatnya, disarankan untuk mempertahankan penyebaran permanen untuk memenuhi kebutuhan trafik Anda (dibayar melalui reservasi). Biaya untuk penyebaran pada sumber daya yang dihapus akan berlanjut hingga sumber daya dihapus menyeluruh. Untuk mencegah hal ini, hapus penyebaran sumber daya sebelum menghapus sumber daya. Untuk informasi selengkapnya, lihat Memulihkan atau menghapus sumber daya Azure OpenAI terhapus.

Berapa banyak throughput per PTU yang Anda dapatkan untuk setiap model

Jumlah throughput (diukur dalam token per menit atau TPM) yang didapat penyebaran per PTU adalah fungsi token input dan output dalam menit tertentu. Menghasilkan token output memerlukan lebih banyak pemrosesan daripada token input. Dimulai dengan model GPT 4.1 dan yang lebih baru, sistem cocok dengan rasio harga standar global antara token input dan output. ** Token yang di-cache dikurangi 100% dari penggunaan.

Misalnya, untuk gpt-4.1:2025-04-14, 1 token output dihitung sebagai 4 token input terhadap batas pemanfaatan Anda yang cocok dengan harga. Model lama menggunakan rasio yang berbeda dan untuk pemahaman yang lebih mendalam tentang bagaimana rasio token input dan output yang berbeda memengaruhi throughput yang dibutuhkan beban kerja Anda, lihat kalkulator kuota Azure AI Foundry PTU.

Topik	o4-mini	gpt-4.1	gpt-4.1-mini	gpt-4.1-nano	o3	o3-mini	o1	gpt-4o	gpt-4o-mini	DeepSeek-R1	DeepSeek-V3-0324	DeepSeek-R1-0528
Penyebaran minimum yang ditentukan untuk global dan zona data	15	15	15	15	15	15	15	15	15	100	100	100
Kenaikan skala global & zona data yang disediakan	5	5	5	5	5	5	5	5	5	100	100	100
Penyebaran minimum yang ditetapkan untuk regional	Dua puluh lima	50	Dua puluh lima	Dua puluh lima	50	Dua puluh lima	Dua puluh lima	50	Dua puluh lima	NA	NA	NA
Kenaikan skala regional yang teralokasikan	Dua puluh lima	50	Dua puluh lima	Dua puluh lima	50	Dua puluh lima	50	50	Dua puluh lima	NA	NA	NA
Masukkan TPM per PTU	5,400	3.000	14,900	59.400	3.000	2,500	230	2,500	37.000	4.000	4.000	4.000
Nilai Target Latensi	99% > 66 Token Per Detik*	99% > 40 Token Per Detik*	99% > 50 Token Per Detik*	99% > 60 Token Per Detik*	99% > 40 Token Per Detik*	99% > 66 Token Per Detik*	99% > 25 Token Per Detik*	99% > 25 Token Per Detik*	99% > 33 Token Per Detik*	99% > 50 Token Per Detik*	99% > 50 Token Per Detik*	99% > 50 Token Per Detik*

* Dihitung sebagai latensi permintaan rata-rata per menit sepanjang bulan.

Untuk daftar lengkapnya, lihat kalkulator Azure AI Foundry.

Menentukan jumlah PTUs yang diperlukan untuk beban kerja

Menentukan jumlah throughput yang disediakan, atau PTUs yang tepat, yang Anda butuhkan untuk beban kerja Anda adalah langkah penting untuk mengoptimalkan performa dan biaya.

PTUs mewakili jumlah kapasitas pemrosesan model. Mirip dengan komputer atau database Anda, beban kerja atau permintaan yang berbeda ke model akan menggunakan jumlah kapasitas pemrosesan yang mendasar yang berbeda. Konversi dari kebutuhan throughput ke PTUs dapat diperkirakan menggunakan data penggunaan token historis atau estimasi bentuk panggilan (token input, token output, dan permintaan per menit) seperti yang diuraikan dalam dokumentasi performa dan latensi kami. Untuk menyederhanakan proses ini, Anda dapat menggunakan kalkulator kuota Azure AI Foundry PTU untuk mengukur bentuk beban kerja tertentu.

Beberapa pertimbangan tingkat tinggi:

Generasi membutuhkan kapasitas lebih besar daripada prompt.
Untuk model GPT-4o dan yang lebih baru, TPM per PTU diatur untuk token input dan output secara terpisah. Untuk model yang lebih lama, panggilan yang lebih besar secara progresif lebih mahal untuk dihitung. Misalnya, 100 panggilan dengan ukuran prompt 1000 token memerlukan kapasitas lebih sedikit daripada satu panggilan dengan 100.000 token dalam prompt. Tingkatan ini berarti bahwa distribusi pola panggilan ini penting dalam kinerja throughput keseluruhan. Pola lalu lintas dengan distribusi yang luas dan mencakup beberapa panggilan besar mungkin mengalami throughput yang lebih rendah per PTU dibandingkan dengan distribusi yang lebih sempit dengan ukuran rata-rata token prompt dan penyelesaian yang sama.

Mendapatkan kuota PTU

Pelanggan perlu meminta kuota melalui Tautan Kuota Permintaan. Jika diperlukan lebih banyak kuota, Anda juga perlu meminta kuota melalui tautan ini. Tautan ini dapat ditemukan di hub kuota di pusat manajemen Azure AI Foundry. Formulir ini memungkinkan pelanggan untuk meminta peningkatan kuota PTU yang ditentukan untuk wilayah tertentu. Pelanggan menerima email di alamat yang disertakan setelah permintaan disetujui, biasanya dalam dua hari kerja.

Per-Model PTU minimum

Kapasitas penyebaran, kenaikan, dan pemrosesan PTU minimum yang terkait dengan setiap unit bervariasi menurut jenis & versi model. Lihat tabel di atas untuk informasi selengkapnya.

Memperkirakan unit throughput dan biaya yang disediakan

Untuk mendapatkan perkiraan cepat untuk beban kerja Anda menggunakan TPM input dan output, manfaatkan perencana kapasitas bawaan di bagian detail penyebaran layar dialog penyebaran. Perencana kapasitas bawaan adalah bagian dari alur kerja penyebaran untuk membantu menyederhanakan ukuran dan alokasi kuota ke penyebaran PTU untuk beban kerja tertentu. Untuk informasi selengkapnya tentang cara mengidentifikasi dan memperkirakan data TPM, tinjau rekomendasi dalam dokumentasi performa dan latensi kami.

Untuk menggunakan perencana kapasitas, buka Portal Azure AI Foundry dan pilih tombol Penyebaran . Lalu pilih Sebarkan model.

Pilih model, dan klik Konfirmasi. Pilih tipe penerapan kapasitas per provision. Setelah mengisi data TPM input dan output di kalkulator kapasitas bawaan, pilih tombol Hitung untuk melihat rekomendasi alokasi PTU Anda.

Untuk memperkirakan kapasitas yang disediakan menggunakan data tingkat permintaan, buka perencana kapasitas di Azure AI Foundry. Kalkulator kapasitas berada di bawah Pusat Manajemen>Kuota>Throughput yang Disediakan.

Opsi Throughput yang Disediakan dan kalkulator hanya tersedia di wilayah tertentu dalam panel Kuota, jika Anda tidak melihat opsi ini mengatur wilayah kuota ke Swedia Central akan membuat opsi ini tersedia. Masukkan parameter berikut berdasarkan beban kerja Anda.

Masukan	Deskripsi
Modél	model yang Anda rencanakan untuk digunakan. Misalnya: GPT-4
Versi	Versi model yang Anda rencanakan untuk digunakan, misalnya 0614
Panggilan puncak per menit	Jumlah panggilan per menit yang diharapkan dikirim ke model
Token dalam panggilan perintah	Jumlah token dalam permintaan untuk setiap panggilan ke model. Panggilan dengan perintah yang lebih besar menggunakan lebih banyak penyebaran PTU. Saat ini kalkulator ini mengasumsikan satu nilai prompt sehingga untuk beban kerja dengan varians yang luas. Sebaiknya tolok ukur penyebaran Anda pada lalu lintas Anda untuk menentukan perkiraan PTU yang paling akurat yang diperlukan untuk penyebaran Anda.
Token dalam respons model	Jumlah token yang dihasilkan dari setiap panggilan ke model. Panggilan dengan ukuran generasi yang lebih besar menggunakan lebih banyak penyebaran PTU. Saat ini kalkulator ini mengasumsikan satu nilai prompt sehingga untuk beban kerja dengan varians yang luas. Sebaiknya tolok ukur penyebaran Anda pada lalu lintas Anda untuk menentukan perkiraan PTU yang paling akurat yang diperlukan untuk penyebaran Anda.

Setelah Anda mengisi detail yang diperlukan, pilih tombol Hitung di kolom output.

Nilai dalam kolom output adalah perkiraan nilai unit PTU yang diperlukan untuk input beban kerja yang disediakan. Nilai output pertama mewakili perkiraan unit PTU yang diperlukan untuk beban kerja, dibulatkan ke kenaikan skala PTU terdekat. Nilai output kedua mewakili perkiraan mentah unit PTU yang diperlukan untuk beban kerja. Total token dihitung menggunakan persamaan berikut: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Nota

Kalkulator kapasitas memberikan perkiraan berdasarkan kriteria input sederhana. Cara paling akurat untuk menentukan kapasitas Anda adalah dengan tolok ukur penyebaran dengan beban kerja representasi untuk kasus penggunaan Anda.

Reservasi Azure untuk Throughput yang Disediakan Azure AI Foundry

Diskon di atas harga penggunaan per jam dapat diperoleh dengan membeli Reservasi Azure untuk Azure AI Foundry Regional Provisioned, Data Zone Provisioned, dan Global Provisioned. Reservasi Azure adalah mekanisme diskon jangka waktu yang dibagikan oleh banyak produk Azure. Misalnya, Compute dan Cosmos DB. Untuk Azure AI Foundry Regional Provisioned, Data Zone Provisioned, dan Global Provisioned, reservasi memberikan diskon sebagai imbalan atas komitmen membayar jumlah PTU tetap untuk periode satu bulan atau satu tahun. 

Reservasi Azure dibeli melalui portal Microsoft Azure, bukan Tautan portal Azure AI Foundry ke portal reservasi Azure.
Reservasi dibeli secara regional dan dapat dicakup secara fleksibel untuk mencakup penggunaan dari sekelompok penyebaran. Cakupan reservasi meliputi:
- Grup sumber daya individual atau langganan
- Sekumpulan langganan dalam sebuah Grup Manajemen
- Semua langganan di akun penagihan
Reservasi baru dapat dibeli untuk mencakup cakupan yang sama dengan reservasi yang ada, untuk memungkinkan diskon penyebaran baru yang disediakan. Cakupan reservasi yang ada juga dapat diperbarui kapan saja tanpa penalti, misalnya untuk mencakup langganan baru.
Reservasi untuk penyebaran Global, Zona Data, dan Regional tidak dapat dipertukarkan. Anda perlu memesan reservasi terpisah untuk setiap tipe penyebaran.
Reservasi dapat dibatalkan setelah pembelian, tetapi kredit dibatasi.
Jika ukuran penyebaran yang disediakan dalam cakupan reservasi melebihi jumlah reservasi, kelebihannya akan dikenakan tarif per jam. Misalnya, jika penyebaran berjumlah 250 PTUs ada dalam cakupan reservasi 200 PTU, 50 PTUs akan dikenakan biaya per jam sampai ukuran penyebaran dikurangi menjadi 200 PTUs, atau reservasi baru dibuat untuk mencakup 50 sisanya.
Reservasi menjamin harga diskon untuk jangka waktu yang dipilih.  Mereka tidak memesan kapasitas pada layanan atau menjamin bahwa kapasitas tersebut akan tersedia saat penyebaran dibuat. Sangat disarankan agar pelanggan membuat penyebaran sebelum membeli reservasi untuk mencegah pembelian reservasi yang berlebihan.

Penting

Ketersediaan kapasitas untuk penyebaran model bersifat dinamis dan sering berubah di seluruh wilayah dan model. Untuk mencegah Anda membeli reservasi untuk lebih banyak PTUs daripada yang dapat Anda gunakan, buat penyebaran terlebih dahulu, lalu beli Reservasi Azure untuk mencakup PTUs yang telah Anda sebarkan. Praktik terbaik ini akan memastikan bahwa Anda dapat memanfaatkan sepenuhnya diskon reservasi dan mencegah Anda membeli komitmen jangka waktu yang tidak dapat Anda gunakan.
Peran Azure dan persyaratan kebijakan penyewa untuk membeli reservasi berbeda dari yang diperlukan untuk membuat penyebaran atau sumber daya Azure AI Foundry. Verifikasi otorisasi untuk membeli reservasi sebelum perlu melakukannya. Lihat Reservasi Throughput yang Disediakan Azure AI Foundry untuk detail selengkapnya.

Penting: mengubah ukuran Reservasi Throughput yang Disediakan Azure AI Foundry

Jumlah PTU dalam pembelian reservasi tidak bergantung pada PTUs yang dialokasikan dalam kuota atau digunakan dalam penyebaran. Anda dapat membeli reservasi untuk lebih banyak PTUs daripada yang Anda miliki dalam kuota, atau dapat menyebarkan untuk wilayah, model, atau versi yang diinginkan. Kredit untuk pembelian reservasi yang berlebihan terbatas, dan pelanggan harus mengambil langkah-langkah untuk memastikan mereka mempertahankan ukuran reservasi sesuai dengan PTUs yang disebarkan.

Praktik terbaiknya adalah selalu membeli reservasi setelah penyebaran dibuat. Ini mencegah pembelian reservasi dan kemudian mengetahui bahwa kapasitas yang diperlukan tidak tersedia untuk wilayah atau model yang diinginkan.

Reservasi untuk penyebaran Global, Zona Data, dan Regional tidak dapat dipertukarkan. Anda perlu memesan reservasi terpisah untuk setiap tipe penyebaran.

Untuk membantu pelanggan membeli jumlah reservasi yang benar. Jumlah total PTUs dalam langganan dan wilayah yang dapat dicakup oleh reservasi tercantum di halaman Kuota Azure AI Foundry. Lihat pesan "PTUs Tersedia untuk reservasi."

Mengelola Reservasi Azure

Setelah reservasi dibuat, ini adalah praktik terbaik untuk memantaunya untuk memastikan reservasi menerima penggunaan yang Anda harapkan. Ini dapat dilakukan melalui Portal Reservasi Azure atau Azure Monitor. Detail tentang artikel ini dan lainnya dapat ditemukan di sini:

Bagikan melalui

Memahami biaya yang terkait dengan unit throughput yang dialokasikan (PTU)

Unit throughput yang telah dialokasikan

Memahami penagihan throughput yang dialokasikan

Independen kuota model

Penggunaan per jam

Berapa banyak throughput per PTU yang Anda dapatkan untuk setiap model

Menentukan jumlah PTUs yang diperlukan untuk beban kerja

Mendapatkan kuota PTU

Per-Model PTU minimum

Memperkirakan unit throughput dan biaya yang disediakan

Reservasi Azure untuk Throughput yang Disediakan Azure AI Foundry

Penting: mengubah ukuran Reservasi Throughput yang Disediakan Azure AI Foundry

Langkah selanjutnya

Saran dan Komentar

Sumber Daya Tambahan: