Natychmiastowe modele w usłudze Microsoft Foundry (wersja zapoznawcza)

Modele natychmiastowe umożliwiają wywoływanie dowolnego obsługiwanego modelu według nazwy — wdrożenie nie jest wymagane. Utwórz projekt Foundry, rozpocznij kodowanie i natychmiast użyj dowolnego dostępnego modelu.

Wymagania wstępne

  • Subskrypcja platformy Azure. Utwórz je bezpłatnie.
  • Zaloguj się do usługi Microsoft Foundry. Upewnij się, że przełącznik New Foundry jest włączony. Kroki te dotyczą nowego Foundry.
  • Projekt Foundry w West US 3 (jedynym obsługiwanym regionie dla modeli instant w wersji zapoznawczej). Jeśli musisz utworzyć projekt, zobacz Tworzenie projektu.
  • Rola Użytkownika usługi Foundry w projekcie lub koncie.

Ważna

Niedawno zmieniono nazwy ról RBAC w usłudze Foundry. Użytkownik Foundry, właściciel Foundry, właściciel konta Foundry i menedżer projektu Foundry były wcześniej nazywane odpowiednio użytkownikiem Azure AI, właścicielem Azure AI, właścicielem konta Azure AI i menedżerem projektu Azure AI. Poprzednie nazwy mogą być nadal widoczne w niektórych miejscach, podczas gdy zmiana nazwy jest wdrażana. Identyfikatory ról i uprawnienia podstawowe są niezmienione przez zmianę nazwy.

Natychmiastowe rozpoczynanie korzystania z modeli

W przypadku modeli instant proces jest prosty — użyj w kodzie nazwy obsługiwanego modelu instant. Wdrożenie nie jest potrzebne. To samo API, SDK i klient, których już używasz do wdrożeń, działają również z modelami natychmiastowymi. Brak drugiego zestawu SDK, bez oddzielnego klienta, bez zmian konfiguracji.

Jedyną zmianą w porównaniu z kodem opartym na wdrożeniu jest parametr model. W poniższym kodzie zastąp "gpt-5-mini" nazwą dowolnego modelu instant.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

Dlaczego natychmiastowe modele mają znaczenie

  • Przełączaj modele, zmieniając jeden ciąg znaków — użyj dowolnej nazwy modelu instant w wierszu model=, bez konieczności tworzenia lub usuwania wdrożeń.
  • Ten sam interfejs API i zestaw SDK — te same wywołania działają zarówno dla modeli błyskawicznych, jak i wdrożeń.
  • Współpracuje z narzędziami deweloperskimi — natychmiastowe modele integrują się z interfejsem wiersza polecenia Foundry (Foundry CLI), programem VS Code i potokami CI/CD tak samo jak wdrożenia.

Wdrożenia nie odejdą. Pozostają one właściwym wyborem, gdy potrzebujesz zarezerwowanej przepływności, niestandardowych filtrów zawartości, rezydencji danych lub zaawansowanych konfiguracji przedsiębiorstwa. Modele błyskawiczne ułatwiają rozpoczęcie pracy, dzięki czemu wdrożenie staje się kolejnym krokiem, a nie barierą, którą trzeba pokonać, zanim będzie można użyć modelu.

Obsługiwane modele

Nowe modele domyślnie obsługują natychmiastowy dostęp po ich wydaniu. Obsługa dodatkowych modeli jest brana pod uwagę na podstawie zapotrzebowania klientów.

Aby wyświetlić wszystkie modele, które obsługują natychmiastowy dostęp:

  1. Otwórz projekt w regionie Zachodnie stany USA 3 w nowym środowisku platformy Foundry.
  2. Wybierz pozycję Odnajdź w prawym górnym rogu, a następnie pozycję Modele w okienku po lewej stronie.
  3. W katalogu modeli wybierz pozycję Błyskawiczne w obszarze Opcje programowania , aby wyświetlić dostępne modele natychmiastowe.

Możesz również programowo wyświetlić listę modeli Instant:

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

W wersji zapoznawczej modele natychmiastowe są dostępne tylko w projektach w regionie Zachodnie stany USA 3 .

Niektóre modele błyskawiczne mogą pojawić się na liście, nawet jeśli Twoja subskrypcja nie obejmuje ich żadnym limitem. Aby uzyskać więcej informacji, zobacz Przydziały i limity dla usługi Foundry Models.

Kiedy używać modeli natychmiastowych w porównaniu z wdrożeniami

Scenario Zalecane podejście
Wprowadzenie, tworzenie prototypów lub eksperymentowanie Modele natychmiastowe
Korzystanie z najnowszego modelu natychmiast po wydaniu Modele natychmiastowe
Potrzebna pojemność zarezerwowana lub przewidywalna przepływność Deployment
Wymaganie aprowizowanej przepustowości (PTU) Deployment
Potrzebna rezydencja danych w określonym regionie Deployment
Niestandardowe zasady filtrowania zawartości na model Deployment
Niestandardowe zabezpieczenia dla każdego modelu Deployment
Konfiguracja specyficzna dla punktu końcowego (na przykład blokady wersji na punkt końcowy) Deployment
Precyzyjny podział limitu między zespołami Deployment
Dostrojone modele Deployment

Błyskawiczne modele i wdrożenia mogą współistnieć w tym samym projekcie. Możesz zacząć od modeli błyskawicznych, a wdrożenia utworzyć później, w miarę zmiany wymagań.

Wersje modelu

Domyślnie modele instant są kierowane do najnowszej, zawsze aktualnej wersji modelu. Aby przypisać do konkretnej wersji, dodaj datę wersji do nazwy modelu jako sufiks oddzielony łącznikiem:

Co przekazujesz jako model Behavior
model-name Trasy do najnowszej wersji
model-name-2025-04-01 Trasy do tej konkretnej wersji

Przypinanie wersji jest opcjonalne. Jeśli aplikacja wymaga stabilności, dołącz sufiks wersji. W przeciwnym razie zawsze automatycznie otrzymujesz najnowszą wersję.

Jak zużywany jest limit

Modele natychmiastowe korzystają z przypisanej do subskrypcji globalnej puli limitów na model. Ten przydział jest oddzielny od limitu regionalnego używanego w standardowych wdrożeniach.

  • Nie przydzielasz ani nie dzielisz przydziału globalnego na partycje — jest on automatycznie współużytkowany we wszystkich błyskawicznych użyciach modeli w ramach subskrypcji.
  • Wdrożenia w warstwie Global Standard rezerwują część globalnego limitu przydziału. Modele błyskawiczne korzystają z całej pozostałej dostępnej przepustowości.
  • Inne typy wdrożeń (Regional Standard, Provisioned) używają oddzielnego regionalnego limitu przydziału i nie mają wpływu na natychmiastową pojemność modelu.
  • Jeśli żądania do modelu w czasie rzeczywistym podlegają ograniczaniu, możesz wystąpić o zwiększenie przydziału lub utworzyć wdrożenie ze zarezerwowaną pojemnością.

Aby uzyskać więcej informacji na temat interakcji między globalnymi i regionalnymi limitami przydziałów, zobacz Zarządzanie limitami przydziałów i ich zwiększanie.

Kontrolki przedsiębiorstwa

Capability Jak to działa
Blokuj określone modele lub dostawców Definicje usługi Azure Policy mają zastosowanie do modeli natychmiastowych tak samo jak do wdrożeń
Przypinanie do wersji modelu Dołącz sufiks wersji do nazwy modelu (zobacz Wersje modelu)
Całkowicie wyłącz modele błyskawiczne Administratorzy mogą wyłączyć natychmiastowe modele na poziomie subskrypcji za pośrednictwem Azure Policy

Aby usunąć modele błyskawiczne z poziomu konta, skonfiguruj odpowiednie ustawienia za pomocą narzędzia Bicep lub interfejsu ARM REST.

Zaktualizuj konto przy użyciu:

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Użyj tej treści żądania, aby skutecznie wyłączyć natychmiastowy dostęp do modelu:

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Ważna

Wszystkie modele natychmiastowe używają domyślnych barier zabezpieczających i filtrów zawartości. Nie można jednak skonfigurować niestandardowych barier zabezpieczających ani zasad odpowiedzialnej sztucznej inteligencji (RAI) osobno dla każdego modelu natychmiastowego. Można ustawić domyślną zasadę RAI na poziomie konta za pośrednictwem interfejsu API, ale ta zasada obowiązuje jednakowo dla wszystkich modeli natychmiastowych. Jeśli potrzebujesz różnych zasad filtrowania zawartości dla poszczególnych modeli, użyj wdrożenia.

Kolizje nazw wdrożeń

Nowe wdrożenia nie mogą używać nazwy zgodnej z istniejącą nazwą modelu. Jeśli masz istniejące wdrożenie, którego nazwa zderza się z nazwą modelu, wdrożenie ma pierwszeństwo, a natychmiastowy dostęp do modelu dla tej nazwy modelu jest niedostępny w tym projekcie.

Ograniczenia podczas korzystania z wersji zapoznawczej

  • Dostępne tylko w regionie Zachodnie stany USA 3 .
  • Dostrojone modele nie są obsługiwane. Aby użyć dostrojonego modelu, utwórz wdrożenie.
  • Zabezpieczenia, niestandardowe zasady RAI i filtry zawartości nie mogą być konfigurowane dla modeli natychmiastowych.
  • Kwalifikują się tylko modele wymienione w sekcji Obsługiwane modele .