Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Foundry Agent Service memberlakukan kuota dan batasan pada artefak agen, unggahan file, pesan, dan pendaftaran alat. Memahami batas ini membantu Anda merancang aplikasi yang menskalakan tanpa mencapai batas layanan. Artikel ini mencantumkan batas default, wilayah yang didukung, model yang kompatibel, dan panduan untuk menangani kesalahan batas.
Nota
Foundry Agent Service umumnya tersedia (GA). Beberapa sub-fitur, seperti agen yang dihosting, berada dalam pratinjau publik dan mungkin memiliki batasan yang berbeda.
Prasyarat
- Langganan Azure.
- Proyek Microsoft Foundry.
- Model yang diterapkan kompatibel dengan Layanan Agen. Ketersediaan model dan wilayah dapat bervariasi.
Wilayah yang didukung
Layanan agen Foundry hanya tersedia untuk proyek Foundry yang dibuat di wilayah yang mendukung API Respons Azure OpenAI. Proyek Foundry Anda harus berada di salah satu wilayah ini untuk menggunakan Layanan Agen. Beberapa model Azure OpenAI mungkin tidak tersedia di wilayah yang sama. Lihat Model Foundry yang dijual langsung oleh Azure untuk detailnya.
Penting
Tidak semua alat tersedia di setiap wilayah. Misalnya, pencarian file tidak tersedia di Italia Utara dan Brasil Selatan. Untuk matriks alat demi wilayah lengkap, lihat Dukungan alat menurut wilayah dan model.
Selain Azure model OpenAI, Agent Service mendukung model dari katalog model Foundry. Model-model ini disebarkan dan dikelola melalui Foundry dan mengikuti kuota terpisah. Model berikut tersedia untuk digunakan agen Anda.
Model dijual langsung oleh Azure:
- MAI-DS-R1: Penalaran deterministik dan berfokus pada presisi.
- grok-4: Penalaran skala frontier untuk pemecahan masalah yang kompleks dalam beberapa langkah.
- grok-4-fast-reasoning: Penalaran agenik dipercepat yang dioptimalkan untuk otomatisasi alur kerja.
- grok-4-fast-non-reasoning: Pemrosesan data tinggi, pengembangan berlatensi rendah, dan perutean sistem.
- grok-3: Penalaran yang kuat untuk alur kerja tingkat sistem yang kompleks.
- grok-3-mini: Model ringan yang dioptimalkan untuk kasus penggunaan interaktif volume tinggi.
- Llama-3.3-70B-Instruct: Model serbaguna untuk tanya jawab perusahaan, dukungan keputusan, dan orkestrasi sistem.
- Llama-4-Maverick-17B-128E-Instruct-FP8: Model yang dioptimalkan FP8 yang memberikan inferensi yang cepat dan hemat biaya.
- DeepSeek-V3-0324: Pemahaman multimodal di seluruh teks dan gambar.
- DeepSeek-V3.1: Peningkatan penalaran multimodal dan pengambilan data berbasis konteks.
- DeepSeek-R1-0528: Penalaran bentuk panjang dan beberapa langkah tingkat lanjut.
- gpt-oss-120b: Model ekosistem terbuka yang mendukung transparansi dan reproduksi.
Petunjuk / Saran
Ketersediaan model dapat berubah dari waktu ke waktu. Untuk memverifikasi apa yang dapat Anda sebarkan untuk proyek dan wilayah Anda, gunakan pengalaman model portal Foundry.
Troubleshooting
Model atau versi tidak tersedia di wilayah Anda
- Konfirmasikan bahwa Anda memilih tab yang tepat untuk jenis penyebaran Anda (standar global vs. disediakan).
- Coba wilayah lain yang mendukung model dan Respon API.
- Jika Anda menggunakan model gpt-5, pendaftaran diperlukan. Akses diberikan sesuai dengan kriteria kelayakan Microsoft.
Alat tidak tersedia di wilayah Anda
- Tidak semua alat didukung di setiap wilayah. Misalnya, pencarian file tidak tersedia di Italia Utara dan Brasil Selatan, dan penerjemah kode tidak tersedia di semua wilayah.
- Periksa dukungan alat menurut wilayah dan tabel model untuk mengonfirmasi ketersediaan sebelum Anda menyebarkan.
- Jika alat tidak tersedia, pilih wilayah yang didukung atau gunakan alat lain.
Penyebaran throughput yang disediakan gagal
- Konfirmasikan bahwa Anda memiliki cukup PTUs yang tersedia di wilayah tersebut.
- Tinjau Throughput yang disediakan dan Manajemen lalu lintas Spillover.
Agen menerima kesalahan pembatasan laju (429)
- Terapkan backoff eksponensial dengan jitter dalam logika coba lagi aplikasi Anda.
- Untuk beban kerja throughput tinggi yang berkelanjutan, pertimbangkan penyediaan throughput yang telah dialokasikan.
- Tinjau kuota dan batas Azure OpenAI untuk batas token per menit dan batas permintaan per menit pada penyebaran Anda.
Kuota dan pembatasan
Foundry Agent Service menerapkan batasan di dua tempat:
- Batas Layanan Agen. Batasan untuk artefak agen dan utas, seperti unggahan file, lampiran penyimpanan vektor, jumlah pesan, dan pendaftaran alat.
- Batas model. Kuota dan batas frekuensi untuk penyebaran model yang digunakan oleh agen Anda.
Jika Anda menggunakan utas dan pesan, lihat Utas, Eksekusi, dan Pesan di Layanan Agen Foundry. Jika Anda menggunakan pencarian file, lihat Penyimpanan vektor untuk pencarian file.
Kuota dan batas default untuk layanan
Tabel berikut mencantumkan batas default yang diberlakukan oleh Layanan Agen. Batas ini berlaku untuk semua proyek Foundry terlepas dari jenis langganan atau wilayah.
| Pembatasan nama | Nilai batas |
|---|---|
| Jumlah maksimum file per agen/thread | 10.000 |
| Ukuran file maksimum untuk agen | 512 MB |
| Ukuran maksimum untuk semua file yang diunggah untuk agen | 300 GB |
| Ukuran file maksimum dalam token untuk melampirkan ke penyimpanan vektor | 2.000.000 token |
| Jumlah maksimum pesan per percakapan | 100,000 |
Ukuran maksimum konten text per pesan |
1.500.000 karakter |
| Jumlah maksimum alat yang terdaftar per agen | 128 |
Batas Layanan Agen dalam tabel ini tetap dan diterapkan secara seragam di semua kategori langganan. Layanan Agen tidak memberlakukan batas tarif terpisah pada panggilan API. Pembatasan laju diterapkan pada tingkat penyebaran model. Lihat kuota dan batas Azure OpenAI untuk batas kecepatan yang spesifik untuk model.
Batasi referensi kesalahan
Ketika Anda melebihi batas, Layanan Agen menghasilkan error. Tangani kesalahan ini dengan anggun di aplikasi Anda.
| Skenario kesalahan | HTTP Status | Kode kesalahan | Tindakan yang direkomendasikan |
|---|---|---|---|
| File terlalu besar | 400 | file_size_exceeded |
Pisahkan konten menjadi file yang lebih kecil |
| Batas token penyimpanan vektor | 400 | token_limit_exceeded |
Kurangi konten file atau pisahkan file |
| Batas pesan utas | 400 | message_limit_exceeded |
Membuat utas baru |
| Konten pesan terlalu besar | 400 | content_size_exceeded |
Gunakan pencarian file untuk konten besar |
| Terlalu banyak alat | 400 | tool_limit_exceeded |
Menghapus alat yang tidak digunakan |
| Melebihi batas tarif | 429 | rate_limit_exceeded |
Menerapkan penundaan kembali eksponensial |
Contohnya:
- File melebihi ukuran maksimum. Pengunggahan file gagal. Pisahkan konten menjadi file yang lebih kecil atau kurangi ukuran file sebelum Anda mengunggah.
- Batas token penyimpanan vektor. Melampirkan file ke penyimpanan vektor gagal jika file melebihi batas token. Kurangi isi file atau bagi menjadi beberapa file.
- Batas jumlah pesan pada utas. Menambahkan pesan dapat gagal setelah rangkaian mencapai batas pesan. Buat utas baru untuk sesi percakapan baru, atau arsipkan dan putar utas sebagai bagian dari desain aplikasi Anda.
- Ukuran konten pesan. Membuat pesan dapat gagal jika
textkonten terlalu besar. Kirim pesan yang lebih kecil, atau pindahkan konten besar ke dalam file dan gunakan pencarian file. - Batas pendaftaran alat. Membuat atau memperbarui agen dapat gagal jika Anda mendaftarkan terlalu banyak alat. Daftarkan hanya alat yang Anda butuhkan, dan lebih suka alat yang lebih sedikit dan dapat digunakan kembali.
- Batas kecepatan terlampaui. Panggilan API ke penyebaran model dibatasi. Mengimplementasikan backoff eksponensial dengan jitter.
Untuk skenario pencarian file, lihat Penyimpanan vektor untuk pencarian file untuk panduan tentang mengelola pertumbuhan penyimpanan vektor.
Praktik terbaik untuk tetap dalam batas
Gunakan praktik berikut untuk mengurangi kegagalan terkait batas:
- Pertahankan file dengan ukuran yang kecil dan fokus. Lebih suka beberapa dokumen yang lebih kecil daripada satu dokumen besar.
- Hindari pesan yang sangat besar. Letakkan konten panjang dalam file yang diunggah dan kueri dengan menggunakan pencarian file.
- Rencanakan percakapan panjang. Perlakukan thread sebagai status sesi dan beralih ke thread baru ketika percakapan menjadi sangat panjang.
- Daftarkan hanya alat yang diperlukan. Hapus alat yang tidak digunakan dari definisi agen.
- Memantau tren penggunaan. Lacak aktivitas agen dengan menggunakan metrik Foundry Agent Service untuk mengidentifikasi pertumbuhan sebelum Anda mencapai batas.
Kuota dan batasan untuk model
Agen mengikuti kuota dan batas tarif untuk penyebaran model yang mereka gunakan.
Untuk kuota dan batas model saat ini, lihat:
Untuk melihat atau meminta kuota model lainnya, lihat Mengelola dan meningkatkan kuota untuk sumber daya dengan Microsoft Foundry (proyek Foundry).
Meminta kenaikan batas
Batas dalam artikel ini adalah nilai default untuk Foundry Agent Service. Jika beban kerja Anda memerlukan batas yang lebih tinggi:
- Kuota model. Anda dapat meminta kenaikan kuota penyebaran model. Lihat Mengelola dan meningkatkan kuota untuk sumber daya dengan Microsoft Foundry.
- Batas Layanan Agen. Batas file, pesan, dan alat yang tercantum dalam artikel ini adalah batas layanan tetap dan tidak dapat ditingkatkan. Desain aplikasi Anda untuk bekerja dalam batasan ini dengan menggunakan praktik terbaik yang dijelaskan sebelumnya.