Batas dan wilayah Layanan Model
Artikel ini merangkum batasan dan ketersediaan wilayah untuk Mosaic AI Model Serving dan jenis titik akhir yang didukung.
Batasan
Mosaic AI Model Serving memberlakukan batas default untuk memastikan performa yang andal. Jika Anda memiliki umpan balik tentang batas ini, silakan hubungi tim akun Databricks Anda.
Tabel berikut ini meringkas batasan sumber daya dan payload untuk model yang melayani titik akhir.
Fitur | Granularitas | Batas |
---|---|---|
Besar payload | Per permintaan | 16 MB |
Kueri per detik (QPS) | Per ruang kerja | 200, tetapi dapat ditingkatkan menjadi 3000 atau lebih dengan menjangkau akun Databricks Anda |
Durasi eksekusi model | Per permintaan | 120 detik |
Penggunaan memori model titik akhir CPU | Per titik akhir | 4GB |
Penggunaan memori model titik akhir GPU | Per titik akhir | Lebih besar dari atau sama dengan memori GPU yang ditetapkan, tergantung pada ukuran beban kerja GPU |
Konkurensi yang disediakan | Per ruang kerja | 200 konkurensi. Dapat ditingkatkan dengan menjangkau akun Databricks Anda. |
Latensi overhead | Per permintaan | Kurang dari 50 milidetik |
Batas tarif FOUNDATION Model API (bayar per token) | Per ruang kerja | Hubungi tim akun Databricks Anda untuk meningkatkan batas berikut. * Model Instruksi DBRX memiliki batas 1 kueri per detik. * Model obrolan dan penyelesaian lainnya memiliki batas tarif default 2 kueri per detik. * Model penyematan memiliki 300 input penyematan default per detik. |
Batas laju API Model Foundation (throughput yang disediakan) | Per ruang kerja | Sama seperti batas QPS Layanan Model yang tercantum di atas. |
Titik akhir Model Melayani dilindungi oleh kontrol akses dan mematuhi aturan masuk terkait jaringan yang dikonfigurasi di ruang kerja, seperti daftar izin IP dan Private Link.
Batasan tambahan juga ada:
- Dimungkinkan bagi ruang kerja untuk disebarkan di wilayah yang didukung, tetapi dilayani oleh sarana kontrol di wilayah yang berbeda. Ruang kerja ini tidak mendukung Model Melayani dan mengakibatkan pesan kesalahan yang mengatakan bahwa ruang kerja Anda tidak didukung. Hubungi tim akun Azure Databricks Anda untuk informasi selengkapnya.
- Model Melayani tidak mendukung skrip init.
- Secara default, Model Serving tidak mendukung Private Link ke titik akhir eksternal (seperti, Azure OpenAI). Dukungan untuk fungsionalitas ini dievaluasi dan diimplementasikan per wilayah. Hubungi tim akun Azure Databricks Anda untuk informasi selengkapnya.
Batas API Model Fondasi
Catatan
Sebagai bagian dari penyediaan API Model Foundation, Databricks dapat memproses data Anda di luar wilayah asal data Anda, tetapi tidak di luar lokasi geografis yang relevan.
Berikut ini adalah batasan yang relevan dengan beban kerja API Model Foundation:
- Throughput yang disediakan mendukung profil kepatuhan HIPAA dan harus digunakan untuk beban kerja yang memerlukan sertifikasi kepatuhan. Beban kerja bayar per token tidak sesuai dengan HIPAA atau profil keamanan kepatuhan.
- Untuk titik akhir API Model Foundation, hanya admin ruang kerja yang dapat mengubah pengaturan tata kelola, seperti batas tarif. Untuk mengubah batas laju, gunakan langkah-langkah berikut:
- Buka Antarmuka pengguna Penyajian di ruang kerja Anda untuk melihat titik akhir penyajian Anda.
- Dari menu kebab pada titik akhir API Model Foundation yang ingin Anda edit, pilih Tampilkan detail.
- Dari menu kebab di sisi kanan atas halaman detail titik akhir, pilih Ubah batas laju.
- Untuk menggunakan arsitektur model DBRX untuk beban kerja throughput yang disediakan, titik akhir penyajian Anda harus berada di salah satu wilayah berikut:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Ketersediaan wilayah
Catatan
Jika Anda memerlukan titik akhir di wilayah yang tidak didukung, hubungi tim akun Azure Databricks Anda.
Untuk beban kerja throughput yang disediakan yang menggunakan model DBRX, lihat Batas API Model Foundation untuk ketersediaan wilayah.
Wilayah | Lokasi | Kemampuan Penyajian Model Inti * | API Model Fondasi (disediakan di seluruh) ** | API Model Fondasi (bayar per token) | Model eksternal |
---|---|---|---|---|---|
australiacentral |
Australia Tengah | ||||
australiacentral2 |
Australia Tengah 2 | ||||
australiaeast |
Australia Timur | X | X | X | |
australiasoutheast |
Australia Tenggara | ||||
brazilsouth |
Brasil Selatan | X | X | X | |
canadacentral |
Kanada Tengah | X | X | X | |
canadaeast |
Kanada Timur | ||||
centralindia |
India Tengah | X | X | X | |
centralus |
AS Tengah | X | X | X | X |
chinaeast2 |
Tiongkok Timur 2 | ||||
chinaeast3 |
Tiongkok Timur 3 | ||||
chinanorth2 |
Tiongkok Utara 2 | ||||
chinanorth3 |
Tiongkok Utara 3 | ||||
eastasia |
Asia Timur | ||||
eastus |
AS Timur | X | X | X | X |
eastus2 |
AS Timur 2 | X | X | X | X |
eastus2euap |
US Timur 2 EUAP | ||||
francecentral |
Prancis Tengah | ||||
germanywestcentral |
Jerman Barat Tengah | ||||
japaneast |
Jepang Timur | ||||
japanwest |
Jepang Barat | ||||
koreacentral |
Korea Tengah | ||||
northcentralus |
US Tengah Utara | X | X | X | |
northeurope |
Eropa Utara | X | X | X | |
norwayeast |
Norwegia Timur | ||||
qatarcentral |
Qatar Tengah | ||||
southafricanorth |
Afrika Selatan Utara | ||||
southcentralus |
US Tengah Selatan | ||||
southeastasia |
Asia Tenggara | X | X | ||
southindia |
India Selatan | ||||
swedencentral |
Swedia Tengah | ||||
switzerlandnorth |
Swiss Utara | ||||
switzerlandwest |
Swiss Barat | ||||
uaenorth |
Arab Saudi Utara | ||||
uksouth |
UK Selatan | ||||
ukwest |
UK Barat | ||||
westcentralus |
AS Tengah Bagian Barat | ||||
westeurope |
Eropa Barat | X | X | X | |
westindia |
India Barat | ||||
westus |
US Barat | X | X | X | X |
westus2 |
US Barat 2 | X | X | ||
westus3 |
AS Barat 3 | X | X |
- hanya komputasi cpu
** termasuk dukungan gpu
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk