Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Saat menyebarkan model di Microsoft Foundry, Anda memilih jenis penyebaran yang menentukan:
- Tempat data Anda diproses (global, zona data, atau wilayah tunggal)
- Cara Anda membayar (bayar per token atau kapasitas yang dipesan)
- Karakteristik performa (variansi latensi, batas throughput)
Layanan ini menawarkan dua kategori utama: standar (bayar per token) dan dipesan (kapasitas yang sudah dipesan). Dalam setiap kategori, Anda dapat memilih pemrosesan global, zona data, atau regional berdasarkan persyaratan kepatuhan Anda.
Penting
residensi Data untuk semua jenis penyebaran: Data yang disimpan saat tidak aktif tetap berada dalam geografi Azure yang ditunjuk. Namun, data inferensi diproses sebagai berikut:
- jenis Global: Dapat diproses di wilayah Azure mana pun
- Jenis DataZone : Diproses hanya dalam zona data yang ditentukan Microsoft (AS atau UE)
- Jenis Standar/Regional : Diproses di wilayah penyebaran
Perbandingan jenis penyebaran
| Jenis penyebaran | Kode SKU | Pemrosesan data | Billing | Paling cocok untuk |
|---|---|---|---|---|
| Standar Global | GlobalStandard |
Wilayah Azure apa pun | Pembayaran per token | Beban kerja umum, kuota tertinggi |
| Tersedia Secara Global | GlobalProvisionedManaged |
Wilayah Azure apa pun | PTU Yang Dipesan | Throughput yang tinggi dan dapat diprediksi |
| Global Batch | GlobalBatch |
Wilayah Azure apa pun | Diskon 50%, 24 jam | Pekerjaan asinkron besar |
| Standar Data Zona | DataZoneStandard |
Dalam zona data | Pembayaran per token | Kepatuhan zona data Eropa/AS |
| Zona Data Disediakan | DataZoneProvisionedManaged |
Dalam zona data | PTU Yang Dipesan | Zona data dengan throughput yang dapat diprediksi |
| Pengelolaan Kumpulan Data | DataZoneBatch |
Dalam zona data | Diskon 50% | Pekerjaan asinkron skala besar dengan zona data |
| Standar | Standard |
Wilayah tunggal | Pembayaran per token | Kepatuhan regional, volume rendah |
| Disediakan Regional | ProvisionedManaged |
Wilayah tunggal | PTU Yang Dipesan | Kepatuhan regional + laju |
| Pengembang | DeveloperTier |
Wilayah Azure apa pun | Pembayaran per token | Evaluasi model yang disempurnakan saja |
Nota
Tidak semua model mendukung semua jenis penyebaran. Periksa Model Foundry yang dijual langsung oleh Azure untuk ketersediaan model berdasarkan tipe penyebaran dan wilayah.
Nota
Jaminan SLA bervariasi menurut jenis penyebaran. Jenis yang disediakan memberikan throughput terjamin dan variansi latensi yang lebih rendah. Jenis standar menawarkan layanan upaya terbaik. Penyebaran oleh pengembang tidak menyertakan perjanjian tingkat layanan (SLA). Untuk detailnya, lihat SLA Azure untuk Azure OpenAI Service.
Petunjuk / Saran
Untuk harga terperinci, lihat harga Azure OpenAI Service.
Pilih jenis penyebaran yang tepat
Gunakan kriteria berikut untuk memilih jenis penyebaran:
Berdasarkan persyaratan residensi data
- Tidak ada batasan: Gunakan Standar Global atau Diprovisikan Global
- Zona data UE: Menggunakan DataZone Standard atau DataZone Yang Disediakan di wilayah UE
- Zona data AS: Menggunakan DataZone Standard atau DataZone Yang Disediakan di wilayah AS
- Wilayah tunggal saja: Gunakan Standar atau Regional Tersedia
Berdasarkan pola beban kerja
- Lalu lintas variabel, bursty: Gunakan Standar atau Global Standard (bayar per token)
- Volume tinggi yang konsisten: Gunakan jenis provisioning (kapasitas yang telah dipesan)
- Pekerjaan batch besar (tidak sensitif terhadap waktu): Gunakan Batch Global atau DataZone Batch (50% penghematan biaya)
- Evaluasi model yang disempurnakan: Gunakan Pengembang (tanpa SLA, biaya terendah)
Berdasarkan persyaratan latensi
- Variansi latensi rendah diperlukan: Gunakan Jenis yang disediakan
- Variansi latensi dapat diterima: Gunakan jenis Standar
Lokasi pemrosesan data
Untuk penyebaran standar, ada tiga opsi: geografi global, zona data, dan Azure. Untuk penyebaran yang disediakan, ada dua opsi: geografi global dan Azure. Standar Global adalah titik awal umum untuk sebagian besar beban kerja.
Penyebaran global
Penyebaran global menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data yang tersedia. Penyebaran global menawarkan batas throughput awal tertinggi dan ketersediaan model terluas.
Untuk beban kerja volume tinggi, Anda mungkin mengalami peningkatan variasi latensi. Jika Anda memerlukan variansi latensi yang lebih rendah dalam skala besar, gunakan jenis penyebaran yang disediakan.
Penyebaran global menerima model dan fitur baru terlebih dahulu.
Penyebaran Zona Data
Untuk jenis penyebaran Global , perintah dan respons mungkin diproses dalam geografi apa pun tempat model disebarkan. Untuk jenis penyebaran DataZone , perintah dan respons hanya diproses dalam zona data yang ditentukan:
- United States: Data diproses di mana saja dalam AS
- Uni Eropa: Data yang diproses dalam negara anggota Uni Eropa mana pun
Untuk informasi lebih lanjut, lihat bagian "Ketersediaan wilayah model berdasarkan jenis penyebaran" dari Model Foundry yang dijual langsung oleh Azure.
Nota
Dengan jenis penyebaran Standar Global dan Zona Data Standar, jika wilayah utama mengalami gangguan dalam layanan, semua lalu lintas yang awalnya dirutekan ke wilayah ini terpengaruh. Untuk mempelajari lebih lanjut, lihat panduan kelangsungan bisnis dan pemulihan bencana.
Standar Global
- Nama SKU dalam kode:
GlobalStandard
Penyebaran Standar Global menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data yang tersedia. Jenis penyebaran ini menyediakan kuota default tertinggi dan menghilangkan kebutuhan untuk menyeimbangkan beban di beberapa sumber daya.
Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar. Ambang diatur per model. Untuk mempelajari selengkapnya, lihat halaman Kuota. Untuk aplikasi yang memerlukan variansi latensi yang lebih rendah pada penggunaan beban kerja besar, pertimbangkan throughput yang disediakan.
Global Standard mendukung pemrosesan prioritas (pratinjau) untuk waktu respons yang lebih cepat dengan skema bayar sesuai penggunaan. Untuk mempelajari selengkapnya, lihat Pemrosesan prioritas untuk model Foundry (pratinjau).
Disiapkan Secara Global
- Nama SKU dalam kode:
GlobalProvisionedManaged
Penyebaran Global yang Disediakan menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data yang tersedia. Jenis penyebaran ini menyediakan kapasitas pemrosesan model yang dialokasikan untuk throughput yang dapat diprediksi, menggabungkan perutean global dengan kapasitas yang terjamin.
Dengan throughput yang telah dialokasikan, Anda membeli sejumlah unit throughput yang dialokasikan secara tetap (PTUs) yang menjamin tingkat kapasitas pemrosesan yang spesifik. Jenis penyebaran ini memberikan latensi yang lebih rendah dan lebih konsisten daripada Standar Global. Untuk mempelajari lebih lanjut, lihat Konsep throughput yang disediakan.
Global Batch
- Nama SKU dalam kode:
GlobalBatch
Global Batch menangani tugas pemrosesan skala besar dan volume tinggi. Anda dapat memproses grup permintaan asinkron dengan kuota terpisah dan penyelesaian target 24 jam, pada 50% lebih murah daripada Standar Global. Dengan pemrosesan batch, daripada mengirim satu permintaan pada satu waktu, Anda mengirim sejumlah besar permintaan dalam satu file. Permintaan Global Batch memiliki kuota token antrian terpisah, yang mencegah gangguan beban kerja online Anda.
Kasus penggunaan umum:
- Pemrosesan data skala besar: Menganalisis himpunan data secara paralel.
- Pembuatan konten: Buat teks dalam volume besar, seperti deskripsi produk atau artikel.
- Tinjauan dan ringkasan dokumen: Memproses dan meringkas dokumen panjang.
- Otomatisasi dukungan pelanggan: Tangani banyak kueri secara bersamaan.
- Ekstraksi dan analisis data: Mengekstrak dan menganalisis informasi dari sejumlah besar data yang tidak terstruktur.
- Tugas pemrosesan bahasa alami (NLP): Lakukan analisis sentimen atau terjemahan pada himpunan data besar.
Nota
Penyebaran batch mengorbankan respons real-time untuk penghematan biaya. Permintaan batch tidak memiliki SLA real-time — permintaan tersebut menargetkan penyelesaian dalam waktu 24 jam tetapi mungkin memakan waktu lebih lama.
Standar Zona Data
- Nama SKU dalam kode:
DataZoneStandard
Penyebaran Standar Zona Data secara dinamis merutekan lalu lintas ke pusat data dalam zona data yang ditentukan Microsoft (AS atau UE). Jenis penyebaran ini menyediakan kuota default yang lebih tinggi daripada jenis penyebaran berbasis geografi sambil menyimpan data dalam zona yang ditentukan.
Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar. Ambang diatur per model. Untuk mempelajari selengkapnya, lihat halaman kuota dan batasan. Untuk beban kerja yang memerlukan variansi latensi rendah pada volume besar, pertimbangkan jenis penyebaran yang disediakan.
Standar Zona Data mendukung pemrosesan prioritas (versi pratinjau) untuk waktu respons yang lebih cepat berdasarkan bayar sesuai penggunaan. Untuk mempelajari selengkapnya, lihat Pemrosesan prioritas untuk model Foundry (pratinjau).
Zona Data Telah Disiapkan
- Nama SKU dalam kode:
DataZoneProvisionedManaged
Penyebaran di Zona Data yang Disediakan merutekan lalu lintas secara dinamis dalam zona data yang ditentukan Microsoft (AS atau UE) sambil menyediakan kapasitas pemrosesan model yang telah dicadangkan. Jenis penyebaran ini menggabungkan kepatuhan zona data dengan throughput tinggi dan dapat diprediksi.
Zona Data Batch
- Nama SKU dalam kode:
DataZoneBatch
Penyebaran Data Zone Batch menyediakan fungsionalitas yang sama dengan Global Batch, termasuk penghematan biaya 50% dan penyelesaian 24 jam. Lalu lintas hanya dirutekan ke pusat data dalam zona data yang ditentukan Microsoft (AS atau UE).
Standar
- Nama SKU dalam kode:
Standard
Dalam penerapan standar, digunakan sistem penagihan berbayar per token. Anda hanya membayar untuk apa yang Anda konsumsi. Model yang tersedia di setiap wilayah dan kapasitas pemrosesan mungkin terbatas.
Penyebaran standar cocok untuk beban kerja dengan volume rendah sampai menengah yang memiliki lonjakan tinggi. Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar.
Diprovisikan Regional
- Nama SKU dalam kode:
ProvisionedManaged
Penyebaran regional yang disediakan memungkinkan Anda menentukan jumlah throughput yang diperlukan dalam penyebaran. Layanan kemudian mengalokasikan kapasitas pemrosesan model yang diperlukan dan memastikannya siap untuk Anda. Throughput didefinisikan dalam unit throughput yang dialokasikan (PTUs), yang merupakan cara standar untuk mewakili throughput dalam penyebaran. Setiap pasangan versi model memerlukan jumlah PTU yang berbeda untuk diimplementasikan, dan menyediakan jumlah throughput yang berbeda per PTU. Persyaratan PTU minimum bervariasi menurut model. Untuk ambang batas minimum saat ini dan kapasitas yang tersedia, lihat Konsep throughput terprovisi.
Pengembang (untuk model yang disempurnakan)
- Nama SKU dalam kode:
DeveloperTier
Jenis penyebaran Pengembang dirancang hanya untuk evaluasi model yang disempurnakan. Ini menyediakan pengujian model kustom yang hemat biaya tetapi tidak menyertakan jaminan residensi data atau SLA. Penerapan pengembang memiliki durasi tetap 24 jam dan dihapus secara otomatis setelah waktu habis. Untuk mempelajari lebih lanjut tentang penggunaan tipe penerapan Pengembang, lihat panduan penyempurnaan.
Memecahkan masalah penyebaran
Masalah umum saat membuat atau menggunakan deployment:
| Masalah | Penyebab | Resolusi |
|---|---|---|
| Jenis penyebaran tidak tersedia | Model tidak mendukung tipe yang dipilih | Periksa ketersediaan model berdasarkan jenis penyebaran |
| Kuota terlampaui | Batas langganan tercapai untuk token per menit | Meminta peningkatan kuota Azure portal atau menggunakan wilayah yang berbeda |
| Wilayah tidak tersedia | Model tidak disebarkan di wilayah yang dipilih | Pilih wilayah dari daftar ketersediaan model |
| Kapasitas yang disediakan tidak tersedia | Tidak ada kapasitas PTU di wilayah | Coba wilayah lain atau gunakan Global Provisioned untuk ketersediaan yang lebih luas |
Untuk batas kuota berdasarkan jenis penyebaran, lihat Kuota dan batas Model Foundry.
Membatasi jenis penyebaran dengan Azure Policy
Azure Policy membantu menegakkan standar organisasi dan menilai kepatuhan dalam skala besar. Melalui dasbor kepatuhannya, Anda dapat mengevaluasi status keseluruhan lingkungan dan menelusuri detail granularitas per sumber daya per kebijakan. Azure Policy juga mendukung remediasi massal untuk sumber daya yang ada dan remediasi otomatis untuk sumber daya baru. Pelajari selengkapnya tentang Azure Policy dan kontrol bawaan khusus untuk Foundry Tools.
Gunakan kebijakan berikut untuk menonaktifkan akses ke jenis penyebaran Foundry tertentu. Ganti GlobalStandard dengan nama SKU untuk jenis penyebaran yang ingin Anda batasi.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Konten terkait
- Menyebarkan Model Microsoft Foundry di portal Foundry
- Buat dan sebarkan Azure OpenAI di sumber daya Microsoft Foundry Models
- Model-model Foundry yang dijual langsung oleh Azure
- Ketersediaan wilayah model berdasarkan jenis penyebaran
- Kuota dan batasan Microsoft Foundry Models
- Konsep throughput yang disediakan
- Pemrosesan Batch Global
- Harga Layanan Azure OpenAI
- Privasi dan keamanan data untuk Model Foundry
- Kelangsungan bisnis dan pemulihan bencana