Akses instan ke model di Microsoft Foundry (pratinjau)

Akses instan ke model memungkinkan Anda memanggil model yang didukung berdasarkan nama — tidak diperlukan penyebaran. Buat proyek Foundry, mulai pengkodan, dan gunakan model apa pun yang tersedia segera.

Prerequisites

  • Sebuah langganan Azure. Buat akun gratis.
  • Masuk ke Microsoft Foundry. Pastikan tombol New Foundry aktif. Langkah-langkah ini mengacu pada Foundry (baru).
  • Proyek Foundry di US Barat 3 (satu-satunya wilayah yang didukung untuk akses instan selama pratinjau). Jika Anda perlu membuat proyek, lihat Membuat proyek.
  • Peran Pengguna Foundry pada proyek atau akun.

Important

Peran Foundry RBAC baru-baru ini diubah namanya. Pengguna Foundry, Pemilik Foundry, Pemilik Akun Foundry, dan Manajer Proyek Foundry sebelumnya bernama Pengguna Azure AI, Pemilik Azure AI, Pemilik Akun Azure AI, dan Manajer Proyek Azure AI. Anda mungkin masih melihat nama sebelumnya di beberapa tempat saat penggantian nama diluncurkan. ID peran dan izin inti tidak berubah oleh penggantian nama.

Mulai menggunakan model secara instan

Dengan akses instan, alur kerjanya sederhana — gunakan nama model instan yang didukung dalam kode Anda. Tidak diperlukan penyebaran. API, SDK, dan klien yang sama dengan yang sudah Anda gunakan untuk penyebaran berfungsi dengan model akses instan. Tidak ada SDK kedua, tidak ada klien terpisah, tidak ada perubahan konfigurasi.

Satu-satunya perubahan dari kode berbasis deployment adalah parameter model. Dalam kode di bawah ini, ganti "gpt-5-mini" (model yang disebarkan) dengan nama model akses instan apa pun, seperti chat-gpt-latest.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

Mengapa akses instan penting

  • Ganti model cukup dengan mengubah satu string — gunakan nama model instan apa pun pada baris model=, tanpa perlu membuat atau menghapus deployment.
  • API dan SDK yang sama — panggilan yang sama berfungsi untuk akses instan dan penyebaran.
  • Berfungsi dengan alat developer Anda — akses instan terintegrasi dengan Foundry CLI, VS Code, dan pipeline CI/CD dengan cara yang sama seperti deployment.

Penyebaran tidak akan hilang. Mereka tetap menjadi pilihan yang tepat ketika Anda memerlukan throughput yang dipesan, filter konten kustom, residensi data, atau konfigurasi perusahaan tingkat lanjut. Akses instan menyederhanakan pengalaman memulai sehingga penyebaran menjadi sesuatu yang Anda tingkatkan, bukan gerbang yang harus Anda lewati sebelum dapat menggunakan model.

Model yang didukung

Model baru mendukung akses instan secara default saat dirilis. Dukungan untuk model tambahan dipertimbangkan berdasarkan permintaan pelanggan.

Untuk melihat semua model yang mendukung akses instan:

  1. Buka proyek di West US 3 dalam pengalaman Foundry yang baru,
  2. Pilih Temukan di navigasi kanan atas, lalu Model di panel kiri.
  3. Dalam katalog model, pilih Instan di bawah Opsi pengembangan untuk melihat model akses instan yang tersedia.

Anda juga dapat mencantumkan model akses instan secara terprogram:

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

Selama versi pratinjau, model dengan akses instan hanya tersedia di proyek di West US 3 saja.

Beberapa model akses instan mungkin muncul dalam daftar meskipun langganan Anda tidak memiliki kuota untuk model tersebut. Untuk informasi selengkapnya, lihat Kuota dan batasan untuk Model Foundry.

Kapan menggunakan akses instan vs. penyebaran

Scenario Pendekatan yang disarankan
Memulai, membuat prototipe, atau eksperimen Akses instan
Menggunakan model terbaru segera setelah rilis Akses instan
Membutuhkan kapasitas terpesan atau throughput yang dapat diprediksi Deployment
Memerlukan throughput yang diprovisikan (PTU) Deployment
Membutuhkan residensi data di wilayah tertentu Deployment
Kebijakan pemfilteran konten kustom per model Deployment
Pagar pembatas kustom per model Deployment
Konfigurasi khusus titik akhir (misalnya, kunci versi per titik akhir) Deployment
Pembagian kuota terperinci antar tim Deployment
Model yang disempurnakan Deployment

Akses instan dan penyebaran dapat hidup berdampingan dalam proyek yang sama. Anda dapat memulai dengan model akses instan dan membuat penyebaran nanti saat kebutuhan Anda berkembang.

Versi model

Secara bawaan, akses instan menggunakan versi evergreen terkini dari suatu model. Untuk menyematkan ke versi tertentu, tambahkan tanggal versi ke nama model sebagai akhiran terpencil:

Apa yang Anda lewati sebagai model Behavior
model-name Rute ke versi terbaru
model-name-2025-04-01 Rute ke versi tertentu tersebut

Penyematan versi bersifat opsional. Jika aplikasi Anda memerlukan stabilitas, sertakan akhiran versi. Jika tidak, Anda selalu mendapatkan versi terbaru secara otomatis.

Bagaimana kuota digunakan

Akses instan diambil dari kumpulan kuota global per model yang ditetapkan ke langganan Anda. Kuota ini terpisah dari kuota regional yang digunakan oleh penyebaran standar.

  • Anda tidak perlu mengalokasikan atau mempartisi kuota global — kuota tersebut otomatis dibagikan ke seluruh penggunaan model instan dalam langganan Anda.
  • Penyebaran Standar Global mencadangkan sebagian kuota global Anda. Model akses instan menggunakan kapasitas apa pun yang tersisa.
  • Jenis penyebaran lainnya (Standar Regional, Disediakan) menggunakan kuota regional terpisah dan tidak memengaruhi kapasitas model instan Anda.
  • Jika permintaan model instan dibatasi, Anda dapat meminta penambahan kuota atau membuat penyebaran dengan kapasitas yang dipesan.

Untuk detail selengkapnya tentang bagaimana kuota global dan regional berinteraksi, lihat Mengelola dan meningkatkan kuota.

Kontrol perusahaan

Capability Cara kerjanya
Memblokir model atau penyedia tertentu definisi Azure Policy berlaku untuk akses instan dengan cara yang sama seperti yang diterapkan pada penyebaran
Sematkan ke versi model Tambahkan akhiran versi ke nama model (lihat Versi model)
Menonaktifkan akses instan sepenuhnya Administrator dapat menonaktifkan akses instan di tingkat langganan melalui Azure Policy

Untuk menghapus akses instan dari akun, konfigurasikan pengaturan melalui Bicep atau ARM REST.

Perbarui akun Anda dengan:

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Gunakan isi permintaan ini untuk mematikan akses model instan secara efektif:

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Important

Semua model akses instan menggunakan pagar pembatas dan filter konten default. Namun, Anda tidak dapat mengonfigurasi pagar pembatas kustom atau kebijakan Responsible AI (RAI) per model untuk akses instan. Anda dapat mengatur kebijakan RAI default di tingkat akun melalui API, tetapi kebijakan tersebut berlaku secara seragam untuk semua model akses instan. Jika Anda memerlukan kebijakan pemfilteran konten yang berbeda untuk masing-masing model, gunakan penerapan.

Tabrakan nama penyebaran

Penyebaran baru tidak dapat menggunakan nama yang cocok dengan nama model yang sudah ada. Jika Anda memiliki deployment yang sudah ada dan namanya sama dengan nama model, deployment tersebut akan diprioritaskan dan akses instan ke model dengan nama tersebut tidak tersedia di proyek itu.

Batasan selama pratinjau

  • Hanya tersedia di US Barat 3 .
  • Model yang telah disesuaikan lebih lanjut tidak didukung. Untuk menggunakan model yang telah disetel halus, buat penerapan.
  • Pagar pembatas, kebijakan RAI kustom, dan filter konten tidak dapat dikonfigurasi untuk akses instan.
  • Hanya model yang tercantum dalam Model yang didukung yang memenuhi syarat.