Bagikan melalui


Jenis penyebaran untuk Model Microsoft Foundry

Saat menyebarkan model di Microsoft Foundry, Anda memilih jenis penyebaran yang menentukan:

  • Tempat data Anda diproses (global, zona data, atau wilayah tunggal)
  • Cara Anda membayar (bayar per token atau kapasitas yang dipesan)
  • Karakteristik performa (variansi latensi, batas throughput)

Layanan ini menawarkan dua kategori utama: standar (bayar per token) dan dipesan (kapasitas yang sudah dipesan). Dalam setiap kategori, Anda dapat memilih pemrosesan global, zona data, atau regional berdasarkan persyaratan kepatuhan Anda.

Cuplikan layar dialog penyebaran portal Foundry memperlihatkan kotak pilihan jenis penyebaran dengan Standar Global dipilih.

Penting

residensi Data untuk semua jenis penyebaran: Data yang disimpan saat tidak aktif tetap berada dalam geografi Azure yang ditunjuk. Namun, data inferensi diproses sebagai berikut:

  • jenis Global: Dapat diproses di wilayah Azure mana pun
  • Jenis DataZone : Diproses hanya dalam zona data yang ditentukan Microsoft (AS atau UE)
  • Jenis Standar/Regional : Diproses di wilayah penyebaran

Pelajari lebih lanjut tentang residensi data.

Perbandingan jenis penyebaran

Jenis penyebaran Kode SKU Pemrosesan data Billing Paling cocok untuk
Standar Global GlobalStandard Wilayah Azure apa pun Pembayaran per token Beban kerja umum, kuota tertinggi
Tersedia Secara Global GlobalProvisionedManaged Wilayah Azure apa pun PTU Yang Dipesan Throughput yang tinggi dan dapat diprediksi
Global Batch GlobalBatch Wilayah Azure apa pun Diskon 50%, 24 jam Pekerjaan asinkron besar
Standar Data Zona DataZoneStandard Dalam zona data Pembayaran per token Kepatuhan zona data Eropa/AS
Zona Data Disediakan DataZoneProvisionedManaged Dalam zona data PTU Yang Dipesan Zona data dengan throughput yang dapat diprediksi
Pengelolaan Kumpulan Data DataZoneBatch Dalam zona data Diskon 50% Pekerjaan asinkron skala besar dengan zona data
Standar Standard Wilayah tunggal Pembayaran per token Kepatuhan regional, volume rendah
Disediakan Regional ProvisionedManaged Wilayah tunggal PTU Yang Dipesan Kepatuhan regional + laju
Pengembang DeveloperTier Wilayah Azure apa pun Pembayaran per token Evaluasi model yang disempurnakan saja

Nota

Tidak semua model mendukung semua jenis penyebaran. Periksa Model Foundry yang dijual langsung oleh Azure untuk ketersediaan model berdasarkan tipe penyebaran dan wilayah.

Nota

Jaminan SLA bervariasi menurut jenis penyebaran. Jenis yang disediakan memberikan throughput terjamin dan variansi latensi yang lebih rendah. Jenis standar menawarkan layanan upaya terbaik. Penyebaran oleh pengembang tidak menyertakan perjanjian tingkat layanan (SLA). Untuk detailnya, lihat SLA Azure untuk Azure OpenAI Service.

Petunjuk / Saran

Untuk harga terperinci, lihat harga Azure OpenAI Service.

Pilih jenis penyebaran yang tepat

Gunakan kriteria berikut untuk memilih jenis penyebaran:

Berdasarkan persyaratan residensi data

  • Tidak ada batasan: Gunakan Standar Global atau Diprovisikan Global
  • Zona data UE: Menggunakan DataZone Standard atau DataZone Yang Disediakan di wilayah UE
  • Zona data AS: Menggunakan DataZone Standard atau DataZone Yang Disediakan di wilayah AS
  • Wilayah tunggal saja: Gunakan Standar atau Regional Tersedia

Berdasarkan pola beban kerja

  • Lalu lintas variabel, bursty: Gunakan Standar atau Global Standard (bayar per token)
  • Volume tinggi yang konsisten: Gunakan jenis provisioning (kapasitas yang telah dipesan)
  • Pekerjaan batch besar (tidak sensitif terhadap waktu): Gunakan Batch Global atau DataZone Batch (50% penghematan biaya)
  • Evaluasi model yang disempurnakan: Gunakan Pengembang (tanpa SLA, biaya terendah)

Berdasarkan persyaratan latensi

  • Variansi latensi rendah diperlukan: Gunakan Jenis yang disediakan
  • Variansi latensi dapat diterima: Gunakan jenis Standar

Lokasi pemrosesan data

Untuk penyebaran standar, ada tiga opsi: geografi global, zona data, dan Azure. Untuk penyebaran yang disediakan, ada dua opsi: geografi global dan Azure. Standar Global adalah titik awal umum untuk sebagian besar beban kerja.

Penyebaran global

Penyebaran global menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data yang tersedia. Penyebaran global menawarkan batas throughput awal tertinggi dan ketersediaan model terluas.

Untuk beban kerja volume tinggi, Anda mungkin mengalami peningkatan variasi latensi. Jika Anda memerlukan variansi latensi yang lebih rendah dalam skala besar, gunakan jenis penyebaran yang disediakan.

Penyebaran global menerima model dan fitur baru terlebih dahulu.

Penyebaran Zona Data

Untuk jenis penyebaran Global , perintah dan respons mungkin diproses dalam geografi apa pun tempat model disebarkan. Untuk jenis penyebaran DataZone , perintah dan respons hanya diproses dalam zona data yang ditentukan:

  • United States: Data diproses di mana saja dalam AS
  • Uni Eropa: Data yang diproses dalam negara anggota Uni Eropa mana pun

Untuk informasi lebih lanjut, lihat bagian "Ketersediaan wilayah model berdasarkan jenis penyebaran" dari Model Foundry yang dijual langsung oleh Azure.

Nota

Dengan jenis penyebaran Standar Global dan Zona Data Standar, jika wilayah utama mengalami gangguan dalam layanan, semua lalu lintas yang awalnya dirutekan ke wilayah ini terpengaruh. Untuk mempelajari lebih lanjut, lihat panduan kelangsungan bisnis dan pemulihan bencana.

Standar Global

  • Nama SKU dalam kode: GlobalStandard

Penyebaran Standar Global menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data yang tersedia. Jenis penyebaran ini menyediakan kuota default tertinggi dan menghilangkan kebutuhan untuk menyeimbangkan beban di beberapa sumber daya.

Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar. Ambang diatur per model. Untuk mempelajari selengkapnya, lihat halaman Kuota. Untuk aplikasi yang memerlukan variansi latensi yang lebih rendah pada penggunaan beban kerja besar, pertimbangkan throughput yang disediakan.

Global Standard mendukung pemrosesan prioritas (pratinjau) untuk waktu respons yang lebih cepat dengan skema bayar sesuai penggunaan. Untuk mempelajari selengkapnya, lihat Pemrosesan prioritas untuk model Foundry (pratinjau).

Disiapkan Secara Global

  • Nama SKU dalam kode: GlobalProvisionedManaged

Penyebaran Global yang Disediakan menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data yang tersedia. Jenis penyebaran ini menyediakan kapasitas pemrosesan model yang dialokasikan untuk throughput yang dapat diprediksi, menggabungkan perutean global dengan kapasitas yang terjamin.

Dengan throughput yang telah dialokasikan, Anda membeli sejumlah unit throughput yang dialokasikan secara tetap (PTUs) yang menjamin tingkat kapasitas pemrosesan yang spesifik. Jenis penyebaran ini memberikan latensi yang lebih rendah dan lebih konsisten daripada Standar Global. Untuk mempelajari lebih lanjut, lihat Konsep throughput yang disediakan.

Global Batch

  • Nama SKU dalam kode: GlobalBatch

Global Batch menangani tugas pemrosesan skala besar dan volume tinggi. Anda dapat memproses grup permintaan asinkron dengan kuota terpisah dan penyelesaian target 24 jam, pada 50% lebih murah daripada Standar Global. Dengan pemrosesan batch, daripada mengirim satu permintaan pada satu waktu, Anda mengirim sejumlah besar permintaan dalam satu file. Permintaan Global Batch memiliki kuota token antrian terpisah, yang mencegah gangguan beban kerja online Anda.

Kasus penggunaan umum:

  • Pemrosesan data skala besar: Menganalisis himpunan data secara paralel.
  • Pembuatan konten: Buat teks dalam volume besar, seperti deskripsi produk atau artikel.
  • Tinjauan dan ringkasan dokumen: Memproses dan meringkas dokumen panjang.
  • Otomatisasi dukungan pelanggan: Tangani banyak kueri secara bersamaan.
  • Ekstraksi dan analisis data: Mengekstrak dan menganalisis informasi dari sejumlah besar data yang tidak terstruktur.
  • Tugas pemrosesan bahasa alami (NLP): Lakukan analisis sentimen atau terjemahan pada himpunan data besar.

Nota

Penyebaran batch mengorbankan respons real-time untuk penghematan biaya. Permintaan batch tidak memiliki SLA real-time — permintaan tersebut menargetkan penyelesaian dalam waktu 24 jam tetapi mungkin memakan waktu lebih lama.

Standar Zona Data

  • Nama SKU dalam kode: DataZoneStandard

Penyebaran Standar Zona Data secara dinamis merutekan lalu lintas ke pusat data dalam zona data yang ditentukan Microsoft (AS atau UE). Jenis penyebaran ini menyediakan kuota default yang lebih tinggi daripada jenis penyebaran berbasis geografi sambil menyimpan data dalam zona yang ditentukan.

Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar. Ambang diatur per model. Untuk mempelajari selengkapnya, lihat halaman kuota dan batasan. Untuk beban kerja yang memerlukan variansi latensi rendah pada volume besar, pertimbangkan jenis penyebaran yang disediakan.

Standar Zona Data mendukung pemrosesan prioritas (versi pratinjau) untuk waktu respons yang lebih cepat berdasarkan bayar sesuai penggunaan. Untuk mempelajari selengkapnya, lihat Pemrosesan prioritas untuk model Foundry (pratinjau).

Zona Data Telah Disiapkan

  • Nama SKU dalam kode: DataZoneProvisionedManaged

Penyebaran di Zona Data yang Disediakan merutekan lalu lintas secara dinamis dalam zona data yang ditentukan Microsoft (AS atau UE) sambil menyediakan kapasitas pemrosesan model yang telah dicadangkan. Jenis penyebaran ini menggabungkan kepatuhan zona data dengan throughput tinggi dan dapat diprediksi.

Zona Data Batch

  • Nama SKU dalam kode: DataZoneBatch

Penyebaran Data Zone Batch menyediakan fungsionalitas yang sama dengan Global Batch, termasuk penghematan biaya 50% dan penyelesaian 24 jam. Lalu lintas hanya dirutekan ke pusat data dalam zona data yang ditentukan Microsoft (AS atau UE).

Standar

  • Nama SKU dalam kode: Standard

Dalam penerapan standar, digunakan sistem penagihan berbayar per token. Anda hanya membayar untuk apa yang Anda konsumsi. Model yang tersedia di setiap wilayah dan kapasitas pemrosesan mungkin terbatas.

Penyebaran standar cocok untuk beban kerja dengan volume rendah sampai menengah yang memiliki lonjakan tinggi. Pelanggan dengan volume konsisten tinggi mungkin mengalami varianbilitas latensi yang lebih besar.

Diprovisikan Regional

  • Nama SKU dalam kode: ProvisionedManaged

Penyebaran regional yang disediakan memungkinkan Anda menentukan jumlah throughput yang diperlukan dalam penyebaran. Layanan kemudian mengalokasikan kapasitas pemrosesan model yang diperlukan dan memastikannya siap untuk Anda. Throughput didefinisikan dalam unit throughput yang dialokasikan (PTUs), yang merupakan cara standar untuk mewakili throughput dalam penyebaran. Setiap pasangan versi model memerlukan jumlah PTU yang berbeda untuk diimplementasikan, dan menyediakan jumlah throughput yang berbeda per PTU. Persyaratan PTU minimum bervariasi menurut model. Untuk ambang batas minimum saat ini dan kapasitas yang tersedia, lihat Konsep throughput terprovisi.

Pengembang (untuk model yang disempurnakan)

  • Nama SKU dalam kode: DeveloperTier

Jenis penyebaran Pengembang dirancang hanya untuk evaluasi model yang disempurnakan. Ini menyediakan pengujian model kustom yang hemat biaya tetapi tidak menyertakan jaminan residensi data atau SLA. Penerapan pengembang memiliki durasi tetap 24 jam dan dihapus secara otomatis setelah waktu habis. Untuk mempelajari lebih lanjut tentang penggunaan tipe penerapan Pengembang, lihat panduan penyempurnaan.

Memecahkan masalah penyebaran

Masalah umum saat membuat atau menggunakan deployment:

Masalah Penyebab Resolusi
Jenis penyebaran tidak tersedia Model tidak mendukung tipe yang dipilih Periksa ketersediaan model berdasarkan jenis penyebaran
Kuota terlampaui Batas langganan tercapai untuk token per menit Meminta peningkatan kuota Azure portal atau menggunakan wilayah yang berbeda
Wilayah tidak tersedia Model tidak disebarkan di wilayah yang dipilih Pilih wilayah dari daftar ketersediaan model
Kapasitas yang disediakan tidak tersedia Tidak ada kapasitas PTU di wilayah Coba wilayah lain atau gunakan Global Provisioned untuk ketersediaan yang lebih luas

Untuk batas kuota berdasarkan jenis penyebaran, lihat Kuota dan batas Model Foundry.

Membatasi jenis penyebaran dengan Azure Policy

Azure Policy membantu menegakkan standar organisasi dan menilai kepatuhan dalam skala besar. Melalui dasbor kepatuhannya, Anda dapat mengevaluasi status keseluruhan lingkungan dan menelusuri detail granularitas per sumber daya per kebijakan. Azure Policy juga mendukung remediasi massal untuk sumber daya yang ada dan remediasi otomatis untuk sumber daya baru. Pelajari selengkapnya tentang Azure Policy dan kontrol bawaan khusus untuk Foundry Tools.

Gunakan kebijakan berikut untuk menonaktifkan akses ke jenis penyebaran Foundry tertentu. Ganti GlobalStandard dengan nama SKU untuk jenis penyebaran yang ingin Anda batasi.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}