Jenis penyebaran Azure OpenAI
Azure OpenAI memberi pelanggan pilihan pada struktur hosting yang sesuai dengan pola bisnis dan penggunaan mereka. Layanan ini menawarkan dua jenis penyebaran utama: standar dan disediakan. Untuk jenis penyebaran tertentu, pelanggan dapat menyelaraskan beban kerja mereka dengan persyaratan pemrosesan data mereka dengan memilih geografi Azure (Standard
atau Provisioned
), opsi pemrosesan zona data yang ditentukan Microsoft (DataZone-Standard
), atau Global (Global-Standard
atau Global Provisioned-Managed
).
Semua penyebaran dapat melakukan operasi inferensi yang sama persis, namun penagihan, skala, dan performanya sangat berbeda. Sebagai bagian dari desain solusi Anda, Anda harus membuat dua keputusan utama:
- Lokasi pemrosesan data
- Volume panggilan
Lokasi Pemrosesan Data Penyebaran Azure OpenAI
Untuk penyebaran standar, ada tiga opsi jenis penyebaran yang dapat dipilih - global, zona data, dan geografi Azure. Untuk penyebaran yang disediakan, ada dua opsi jenis penyebaran untuk dipilih - geografi global dan Azure. Standar global adalah titik awal yang direkomendasikan.
Penyebaran global memanfaatkan infrastruktur global Azure untuk merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Ini berarti Anda akan mendapatkan batas throughput awal tertinggi dan ketersediaan model terbaik dengan Global sambil tetap menyediakan SLA waktu aktif dan latensi rendah kami. Untuk beban kerja volume tinggi di atas tingkat penggunaan yang ditentukan pada standar standar dan global, Anda mungkin mengalami peningkatan variasi latensi. Untuk pelanggan yang memerlukan variansi latensi yang lebih rendah pada penggunaan beban kerja yang besar, sebaiknya manfaatkan jenis penyebaran yang disediakan.
Penyebaran global kami akan menjadi lokasi pertama untuk semua model dan fitur baru. Bergantung pada volume panggilan, pelanggan dengan volume besar dan persyaratan variansi latensi rendah harus mempertimbangkan jenis penyebaran yang disediakan.
Penyebaran zona data memanfaatkan infrastruktur global Azure untuk merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan dalam zona data yang ditentukan oleh Microsoft. Diposisikan antara geografi Azure dan penawaran penyebaran Global kami, penyebaran zona data menyediakan batas kuota yang ditinggikan sambil menjaga pemrosesan data dalam zona data yang ditentukan Microsoft. Data yang disimpan saat tidak aktif akan terus berada di geografi sumber daya Azure OpenAI (misalnya, untuk sumber daya Azure OpenAI yang dibuat di wilayah Azure Swedia Tengah, geografi Azure adalah Swedia).
Jika sumber daya Azure OpenAI yang digunakan dalam penyebaran Zona Data Anda terletak di Amerika Serikat, data akan diproses dalam Amerika Serikat. Jika sumber daya Azure OpenAI yang digunakan dalam penyebaran Zona Data Anda terletak di Negara Anggota Uni Eropa, data akan diproses dalam geografi Negara Anggota Uni Eropa. Untuk semua jenis penyebaran layanan Azure OpenAI, data apa pun yang disimpan saat tidak aktif akan terus berada dalam geografi sumber daya Azure OpenAI. Pemrosesan data Azure dan komitmen kepatuhan tetap berlaku.
Jenis Penyebaran
Azure OpenAI menawarkan tiga jenis penyebaran. Ini memberikan berbagai tingkat kemampuan yang menyediakan trade-off pada: throughput, SLA, dan harga. Di bawah ini adalah ringkasan opsi diikuti oleh deskripsi masing-masing yang lebih dalam.
Persembahan | Global-Batch | Standar Global | Diprovisikan Secara Global | Standard | Tersedia |
---|---|---|---|---|---|
Paling cocok untuk | Penilaian offline Beban kerja yang tidak sensitif latensi dan dapat diselesaikan dalam hitungan jam. |
Tempat awal yang direkomendasikan untuk pelanggan. Global-Standard akan memiliki kuota default yang lebih tinggi dan jumlah model yang lebih besar yang tersedia daripada Standar. |
Penilaian real time untuk volume konsisten besar. Termasuk komitmen dan batasan tertinggi. | Untuk pelanggan dengan persyaratan residensi data. Dioptimalkan untuk volume rendah hingga menengah. | Penilaian real time untuk volume konsisten besar. Termasuk komitmen dan batasan tertinggi. Untuk kasus penggunaan dengan persyaratan residensi data |
Cara kerjanya | Pemrosesan offline melalui file | Lalu lintas dapat dirutekan di mana saja di dunia | Lalu lintas dapat dirutekan di mana saja di dunia | ||
Memulai | Global-Batch | Penyebaran model | Onboarding yang disediakan | Penyebaran model | Onboarding yang disediakan |
Biaya | Opsi paling murah 50% lebih murah dibandingkan dengan harga Standar Global. Akses ke semua model baru dengan alokasi kuota yang lebih besar. |
Harga penyebaran global | Mungkin mengalami penghematan biaya untuk penggunaan yang konsisten | Harga regional | Mungkin mengalami penghematan biaya untuk penggunaan yang konsisten |
Hal yang Anda dapatkan | Diskon signifikan dibandingkan dengan Global Standard | Akses mudah ke semua model baru dengan batas bayar per panggilan default tertinggi. Pelanggan dengan penggunaan volume tinggi mungkin melihat varianbilitas latensi yang lebih tinggi |
Akses ke throughput tinggi & dapat diprediksi di seluruh infrastruktur global Azure. Tentukan throughput per PTU menggunakan kalkulator kapasitas yang disediakan. | Akses mudah dengan SLA pada ketersediaan. Dioptimalkan untuk beban kerja volume rendah hingga menengah dengan burstiness tinggi. Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar. |
Akses regional dengan throughput yang sangat tinggi & dapat diprediksi. Menentukan throughput per PTU menggunakan kalkulator kapasitas yang disediakan |
Apa yang tidak Anda dapatkan | ❌Performa panggilan real time ❌Jaminan pemrosesan data Data yang disimpan saat tidak aktif tetap berada di geografi Azure yang ditunjuk, sementara data dapat diproses untuk inferensi di lokasi Azure OpenAI mana pun. Pelajari selengkapnya tentang residensi data |
❌Jaminan pemrosesan data Data yang disimpan saat tidak aktif tetap berada di geografi Azure yang ditunjuk, sementara data dapat diproses untuk inferensi di lokasi Azure OpenAI mana pun. Pelajari selengkapnya tentang residensi data |
❌Fleksibilitas bayar per panggilan ❌Jaminan pemrosesan data Data yang disimpan saat tidak aktif tetap berada di geografi Azure yang ditunjuk, sementara data dapat diproses untuk inferensi di lokasi Azure OpenAI mana pun. Pelajari selengkapnya tentang residensi data |
❌Latensi rendah volume tinggi dengan latensi rendah yang konsisten | ❌Fleksibilitas bayar per panggilan |
Latensi per panggilan | Tidak Berlaku (proses asinkron berbasis file) | Dioptimalkan untuk panggilan real time & penggunaan volume rendah hingga menengah. Pelanggan dengan penggunaan volume tinggi mungkin melihat varianbilitas latensi yang lebih tinggi. Ambang yang ditetapkan per model | Dioptimalkan untuk panggilan real time & penggunaan volume tinggi. | Dioptimalkan untuk panggilan real time & penggunaan volume rendah hingga menengah. Pelanggan dengan penggunaan volume tinggi mungkin melihat varianbilitas latensi yang lebih tinggi. Ambang yang ditetapkan per model | Dioptimalkan untuk panggilan real time & penggunaan volume tinggi. |
Nama Sku dalam kode | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
Model penagihan | Bayar per token | Bayar per token | Penagihan per jam dengan pembelian opsional reservasi bulanan atau tahunan | Bayar per token | Penagihan per jam dengan pembelian opsional reservasi bulanan atau tahunan |
Standar global
Penting
Data yang disimpan saat tidak aktif tetap berada di geografi Azure yang ditunjuk, sementara data dapat diproses untuk inferensi di lokasi Azure OpenAI mana pun. Pelajari selengkapnya tentang residensi data.
Penyebaran global tersedia di sumber daya Azure OpenAI yang sama dengan jenis penyebaran non-global tetapi memungkinkan Anda memanfaatkan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dengan ketersediaan terbaik untuk setiap permintaan. Standar global menyediakan kuota default tertinggi dan menghilangkan kebutuhan untuk memuat keseimbangan di beberapa sumber daya.
Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar. Ambang diatur per model. Lihat halaman kuota untuk mempelajari selengkapnya. Untuk aplikasi yang memerlukan variansi latensi yang lebih rendah pada penggunaan beban kerja besar, sebaiknya beli throughput yang disediakan.
Penyediaan global
Penting
Data yang disimpan saat tidak aktif tetap berada di geografi Azure yang ditunjuk, sementara data dapat diproses untuk inferensi di lokasi Azure OpenAI mana pun. Pelajari selengkapnya tentang residensi data.
Penyebaran global tersedia di sumber daya Azure OpenAI yang sama dengan jenis penyebaran non-global tetapi memungkinkan Anda memanfaatkan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dengan ketersediaan terbaik untuk setiap permintaan. Penyebaran global yang disediakan menyediakan kapasitas pemrosesan model yang dipesan untuk throughput tinggi dan dapat diprediksi menggunakan infrastruktur global Azure.
Batch global
Penting
Data yang disimpan saat tidak aktif tetap berada di geografi Azure yang ditunjuk, sementara data dapat diproses untuk inferensi di lokasi Azure OpenAI mana pun. Pelajari selengkapnya tentang residensi data.
Batch global dirancang untuk menangani tugas pemrosesan skala besar dan volume tinggi secara efisien. Proses grup permintaan asinkron dengan kuota terpisah, dengan penyelesaian target 24 jam, dengan biaya 50% lebih murah daripada standar global. Dengan pemrosesan batch, daripada mengirim satu permintaan pada satu waktu Anda mengirim sejumlah besar permintaan dalam satu file. Permintaan batch global memiliki kuota token antrean terpisah yang menghindari gangguan beban kerja online Anda.
Kasus penggunaan utama meliputi:
Pemrosesan Data Skala Besar: Menganalisis himpunan data yang luas secara paralel dengan cepat.
Pembuatan Konten: Membuat teks dalam volume besar, seperti deskripsi produk atau artikel.
Tinjauan dan Ringkasan Dokumen: Mengotomatiskan tinjauan dan ringkasan dokumen yang panjang.
Automasi Dukungan Pelanggan: Tangani banyak kueri secara bersamaan untuk respons yang lebih cepat.
Ekstraksi dan Analisis Data: Mengekstrak dan menganalisis informasi dari sejumlah besar data yang tidak terstruktur.
Tugas Pemrosesan Bahasa Alami (NLP): Lakukan tugas seperti analisis sentimen atau terjemahan pada himpunan data besar.
Pemasaran dan Personalisasi: Hasilkan konten dan rekomendasi yang dipersonalisasi dalam skala besar.
Standar zona data
Penting
Data yang disimpan saat tidak aktif tetap berada di geografi Azure yang ditunjuk, sementara data dapat diproses untuk inferensi di lokasi Azure OpenAI mana pun dalam zona data yang ditentukan Microsoft. Pelajari selengkapnya tentang residensi data.
Penyebaran standar zona data tersedia di sumber daya Azure OpenAI yang sama dengan semua jenis penyebaran Azure OpenAI lainnya tetapi memungkinkan Anda memanfaatkan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dalam zona data yang ditentukan Microsoft dengan ketersediaan terbaik untuk setiap permintaan. Standar zona data menyediakan kuota default yang lebih tinggi daripada jenis penyebaran berbasis geografi Azure kami.
Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar. Ambang diatur per model. Lihat halaman Kuota dan batasan untuk mempelajari selengkapnya. Untuk beban kerja yang memerlukan variansi latensi rendah pada volume besar, sebaiknya manfaatkan penawaran penyebaran yang disediakan.
Standard
Penyebaran standar menyediakan model penagihan bayar per panggilan pada model yang dipilih. Menyediakan cara tercepat untuk memulai karena Anda hanya membayar apa yang Anda konsumsi. Model yang tersedia di setiap wilayah serta throughput mungkin terbatas.
Penyebaran standar dioptimalkan untuk beban kerja volume rendah hingga menengah dengan burstiness tinggi. Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar.
Tersedia
Penyebaran yang disediakan memungkinkan Anda menentukan jumlah throughput yang Anda butuhkan dalam penyebaran. Layanan kemudian mengalokasikan kapasitas pemrosesan model yang diperlukan dan memastikannya siap untuk Anda. Throughput didefinisikan dalam hal unit throughput yang disediakan (PTU) yang merupakan cara yang dinormalisasi untuk mewakili throughput untuk penyebaran Anda. Setiap pasangan versi model memerlukan jumlah PTU yang berbeda untuk menyebarkan dan menyediakan jumlah throughput yang berbeda per PTU. Pelajari lebih lanjut dari artikel Konsep throughput yang disediakan.
Cara menonaktifkan akses ke penyebaran global di langganan Anda
Azure Policy membantu memberlakukan standar organisasi dan menilai kepatuhan dalam skala besar. Melalui dasbor kepatuhannya, ia menyediakan tampilan agregat untuk mengevaluasi keadaan lingkungan secara menyeluruh, dengan kemampuan untuk menelusuri ke granularitas per sumber daya, per kebijakan dengan mendetail. Ini juga membantu untuk membawa sumber daya Anda ke kepatuhan melalui remediasi massal untuk sumber daya yang sudah ada dan remediasi otomatis untuk sumber daya baru. Pelajari selengkapnya tentang Azure Policy dan kontrol bawaan tertentu untuk layanan AI.
Anda dapat menggunakan kebijakan berikut untuk menonaktifkan akses ke penyebaran standar global Azure OpenAI. Untuk menonaktifkan akses ke penyebaran batch global atau yang disediakan secara global Azure, ganti GlobalStandard
dengan GlobalProvisionedManaged
atau GlobalBatch
untuk nama sku yang dimaksudkan.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Terapkan model
Untuk mempelajari tentang membuat sumber daya dan menyebarkan model, lihat panduan pembuatan sumber daya.