Natychmiastowe modele w usłudze Microsoft Foundry (wersja zapoznawcza)

Modele natychmiastowe umożliwiają wywoływanie dowolnego obsługiwanego modelu według nazwy — wdrożenie nie jest wymagane. Utwórz projekt Foundry, rozpocznij kodowanie i natychmiast użyj dowolnego dostępnego modelu.

Wymagania wstępne

Subskrypcja platformy Azure. Utwórz je bezpłatnie.
Zaloguj się do usługi Microsoft Foundry. Upewnij się, że przełącznik New Foundry jest włączony. Kroki te dotyczą nowego Foundry.
Projekt Foundry w West US 3 (jedynym obsługiwanym regionie dla modeli instant w wersji zapoznawczej). Jeśli musisz utworzyć projekt, zobacz Tworzenie projektu.
Rola Użytkownika usługi Foundry w projekcie lub koncie.

Ważna

Niedawno zmieniono nazwy ról RBAC w usłudze Foundry. Użytkownik Foundry, właściciel Foundry, właściciel konta Foundry i menedżer projektu Foundry były wcześniej nazywane odpowiednio użytkownikiem Azure AI, właścicielem Azure AI, właścicielem konta Azure AI i menedżerem projektu Azure AI. Poprzednie nazwy mogą być nadal widoczne w niektórych miejscach, podczas gdy zmiana nazwy jest wdrażana. Identyfikatory ról i uprawnienia podstawowe są niezmienione przez zmianę nazwy.

Natychmiastowe rozpoczynanie korzystania z modeli

W przypadku modeli instant proces jest prosty — użyj w kodzie nazwy obsługiwanego modelu instant. Wdrożenie nie jest potrzebne. To samo API, SDK i klient, których już używasz do wdrożeń, działają również z modelami natychmiastowymi. Brak drugiego zestawu SDK, bez oddzielnego klienta, bez zmian konfiguracji.

Jedyną zmianą w porównaniu z kodem opartym na wdrożeniu jest parametr model. W poniższym kodzie zastąp "gpt-5-mini" nazwą dowolnego modelu instant.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

Jedyną zmianą w porównaniu z kodem opartym na wdrożeniu jest parametr model. W poniższym kodzie zastąp "gpt-5-mini" nazwą dowolnego modelu instant.

using Azure.Identity;
using Azure.AI.Projects;
using Azure.AI.Extensions.OpenAI;
using OpenAI.Responses;

#pragma warning disable OPENAI001

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
var ProjectEndpoint = "your_project_endpoint";

// Create project client to call Foundry API
AIProjectClient projectClient = new(
    endpoint: new Uri(ProjectEndpoint),
    tokenProvider: new DefaultAzureCredential());

// Run a responses API call
ProjectResponsesClient responseClient = projectClient.ProjectOpenAIClient.GetProjectResponsesClientForModel("gpt-5-mini"); 
ResponseResult response = await responseClient.CreateResponseAsync(
    "What is the size of France in square miles?");
Console.WriteLine(response.GetOutputText());

Jedyną zmianą w porównaniu z kodem opartym na wdrożeniu jest parametr model. W poniższym kodzie zastąp "gpt-5-mini" nazwą dowolnego modelu instant.

import { DefaultAzureCredential } from "@azure/identity";
import { AIProjectClient } from "@azure/ai-projects";

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
const PROJECT_ENDPOINT = "your_project_endpoint";

async function main(): Promise<void> {
    // Create project and openai clients to call Foundry API
    const project = new AIProjectClient(PROJECT_ENDPOINT, new DefaultAzureCredential());
    const openai = project.getOpenAIClient();

    // Run a responses API call
    const response = await openai.responses.create({
        model: "gpt-5-mini",
        input: "What is the size of France in square miles?",
    });
    console.log(`Response output: ${response.output_text}`);
}

main().catch(console.error);

Jedyną zmianą w porównaniu z kodem opartym na wdrożeniu jest parametr model. W poniższym kodzie zastąp "gpt-5-mini" nazwą dowolnego modelu instant.

package com.azure.ai.agents;

import com.azure.identity.DefaultAzureCredentialBuilder;
import com.openai.models.responses.Response;
import com.openai.models.responses.ResponseCreateParams;

public class CreateResponse {
    public static void main(String[] args) {
        // Format: "https://resource_name.ai.azure.com/api/projects/project_name"
        String ProjectEndpoint = "your_project_endpoint";

        // Create responses client to call Foundry API
        ResponsesClient responsesClient = new AgentsClientBuilder()
                .credential(new DefaultAzureCredentialBuilder().build())
                .endpoint(ProjectEndpoint)
                .buildResponsesClient();

        // Run a responses API call
        ResponseCreateParams responseRequest = new ResponseCreateParams.Builder()
                .input("What is the size of France in square miles?")
                .model("gpt-5-mini")
                .build();
        Response response = responsesClient.getResponseService().create(responseRequest);
        System.out.println(response.output());
    }
}

Jedyną zmianą w porównaniu z kodem opartym na wdrożeniu jest parametr model. W poniższym kodzie zastąp "gpt-5-mini" nazwą dowolnego modelu instant. Zastąp YOUR-FOUNDRY-RESOURCE-NAME również wartościami:

curl -X POST https://YOUR-FOUNDRY-RESOURCE-NAME.services.ai.azure.com/api/projects/YOUR-PROJECT-NAME/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_AI_AUTH_TOKEN" \
-d '{
        "model": "gpt-5.1-mini",
        "input": "What is the size of France in square miles?"
}'

Dlaczego natychmiastowe modele mają znaczenie

Przełączaj modele, zmieniając jeden ciąg znaków — użyj dowolnej nazwy modelu instant w wierszu model=, bez konieczności tworzenia lub usuwania wdrożeń.
Ten sam interfejs API i zestaw SDK — te same wywołania działają zarówno dla modeli błyskawicznych, jak i wdrożeń.
Współpracuje z narzędziami deweloperskimi — natychmiastowe modele integrują się z interfejsem wiersza polecenia Foundry (Foundry CLI), programem VS Code i potokami CI/CD tak samo jak wdrożenia.

Wdrożenia nie odejdą. Pozostają one właściwym wyborem, gdy potrzebujesz zarezerwowanej przepływności, niestandardowych filtrów zawartości, rezydencji danych lub zaawansowanych konfiguracji przedsiębiorstwa. Modele błyskawiczne ułatwiają rozpoczęcie pracy, dzięki czemu wdrożenie staje się kolejnym krokiem, a nie barierą, którą trzeba pokonać, zanim będzie można użyć modelu.

Obsługiwane modele

Nowe modele domyślnie obsługują natychmiastowy dostęp po ich wydaniu. Obsługa dodatkowych modeli jest brana pod uwagę na podstawie zapotrzebowania klientów.

Aby wyświetlić wszystkie modele, które obsługują natychmiastowy dostęp:

Otwórz projekt w regionie Zachodnie stany USA 3 w nowym środowisku platformy Foundry.
Wybierz pozycję Odnajdź w prawym górnym rogu, a następnie pozycję Modele w okienku po lewej stronie.
W katalogu modeli wybierz pozycję Błyskawiczne w obszarze Opcje programowania , aby wyświetlić dostępne modele natychmiastowe.

Możesz również programowo wyświetlić listę modeli Instant:

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

W wersji zapoznawczej modele natychmiastowe są dostępne tylko w projektach w regionie Zachodnie stany USA 3 .

Niektóre modele błyskawiczne mogą pojawić się na liście, nawet jeśli Twoja subskrypcja nie obejmuje ich żadnym limitem. Aby uzyskać więcej informacji, zobacz Przydziały i limity dla usługi Foundry Models.

Kiedy używać modeli natychmiastowych w porównaniu z wdrożeniami

Scenario	Zalecane podejście
Wprowadzenie, tworzenie prototypów lub eksperymentowanie	Modele natychmiastowe
Korzystanie z najnowszego modelu natychmiast po wydaniu	Modele natychmiastowe
Potrzebna pojemność zarezerwowana lub przewidywalna przepływność	Deployment
Wymaganie aprowizowanej przepustowości (PTU)	Deployment
Potrzebna rezydencja danych w określonym regionie	Deployment
Niestandardowe zasady filtrowania zawartości na model	Deployment
Niestandardowe zabezpieczenia dla każdego modelu	Deployment
Konfiguracja specyficzna dla punktu końcowego (na przykład blokady wersji na punkt końcowy)	Deployment
Precyzyjny podział limitu między zespołami	Deployment
Dostrojone modele	Deployment

Błyskawiczne modele i wdrożenia mogą współistnieć w tym samym projekcie. Możesz zacząć od modeli błyskawicznych, a wdrożenia utworzyć później, w miarę zmiany wymagań.

Wersje modelu

Domyślnie modele instant są kierowane do najnowszej, zawsze aktualnej wersji modelu. Aby przypisać do konkretnej wersji, dodaj datę wersji do nazwy modelu jako sufiks oddzielony łącznikiem:

Co przekazujesz jako `model`	Behavior
`model-name`	Trasy do najnowszej wersji
`model-name-2025-04-01`	Trasy do tej konkretnej wersji

Przypinanie wersji jest opcjonalne. Jeśli aplikacja wymaga stabilności, dołącz sufiks wersji. W przeciwnym razie zawsze automatycznie otrzymujesz najnowszą wersję.

Jak zużywany jest limit

Modele natychmiastowe korzystają z przypisanej do subskrypcji globalnej puli limitów na model. Ten przydział jest oddzielny od limitu regionalnego używanego w standardowych wdrożeniach.

Nie przydzielasz ani nie dzielisz przydziału globalnego na partycje — jest on automatycznie współużytkowany we wszystkich błyskawicznych użyciach modeli w ramach subskrypcji.
Wdrożenia w warstwie Global Standard rezerwują część globalnego limitu przydziału. Modele błyskawiczne korzystają z całej pozostałej dostępnej przepustowości.
Inne typy wdrożeń (Regional Standard, Provisioned) używają oddzielnego regionalnego limitu przydziału i nie mają wpływu na natychmiastową pojemność modelu.
Jeśli żądania do modelu w czasie rzeczywistym podlegają ograniczaniu, możesz wystąpić o zwiększenie przydziału lub utworzyć wdrożenie ze zarezerwowaną pojemnością.

Aby uzyskać więcej informacji na temat interakcji między globalnymi i regionalnymi limitami przydziałów, zobacz Zarządzanie limitami przydziałów i ich zwiększanie.

Kontrolki przedsiębiorstwa

Capability	Jak to działa
Blokuj określone modele lub dostawców	Definicje usługi Azure Policy mają zastosowanie do modeli natychmiastowych tak samo jak do wdrożeń
Przypinanie do wersji modelu	Dołącz sufiks wersji do nazwy modelu (zobacz Wersje modelu)
Całkowicie wyłącz modele błyskawiczne	Administratorzy mogą wyłączyć natychmiastowe modele na poziomie subskrypcji za pośrednictwem Azure Policy

Aby usunąć modele błyskawiczne z poziomu konta, skonfiguruj odpowiednie ustawienia za pomocą narzędzia Bicep lub interfejsu ARM REST.

API REST
Bicep

Zaktualizuj konto przy użyciu:

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Użyj tej treści żądania, aby skutecznie wyłączyć natychmiastowy dostęp do modelu:

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Zaktualizuj istniejący zasób konta przy użyciu bloku instant:

resource account 'Microsoft.CognitiveServices/accounts@2026-01-15-preview' = {
  name: accountName
  location: location
  kind: 'AIServices'
  sku: {
    name: 'S0'
  }
  // Keep your existing account properties and add instant settings.
  properties: {
    instant: {
      raiPolicyName: 'Microsoft.DefaultV2'
      modelAllowList: []
    }
  }
}

Ważna

Wszystkie modele natychmiastowe używają domyślnych barier zabezpieczających i filtrów zawartości. Nie można jednak skonfigurować niestandardowych barier zabezpieczających ani zasad odpowiedzialnej sztucznej inteligencji (RAI) osobno dla każdego modelu natychmiastowego. Można ustawić domyślną zasadę RAI na poziomie konta za pośrednictwem interfejsu API, ale ta zasada obowiązuje jednakowo dla wszystkich modeli natychmiastowych. Jeśli potrzebujesz różnych zasad filtrowania zawartości dla poszczególnych modeli, użyj wdrożenia.

Kolizje nazw wdrożeń

Nowe wdrożenia nie mogą używać nazwy zgodnej z istniejącą nazwą modelu. Jeśli masz istniejące wdrożenie, którego nazwa zderza się z nazwą modelu, wdrożenie ma pierwszeństwo, a natychmiastowy dostęp do modelu dla tej nazwy modelu jest niedostępny w tym projekcie.

Ograniczenia podczas korzystania z wersji zapoznawczej

Dostępne tylko w regionie Zachodnie stany USA 3 .
Dostrojone modele nie są obsługiwane. Aby użyć dostrojonego modelu, utwórz wdrożenie.
Zabezpieczenia, niestandardowe zasady RAI i filtry zawartości nie mogą być konfigurowane dla modeli natychmiastowych.
Kwalifikują się tylko modele wymienione w sekcji Obsługiwane modele .

Opinia

Czy ta strona była pomocna?

Last updated on 2026-06-03

Natychmiastowe modele w usłudze Microsoft Foundry (wersja zapoznawcza)

Wymagania wstępne

Natychmiastowe rozpoczynanie korzystania z modeli

Dlaczego natychmiastowe modele mają znaczenie

Obsługiwane modele

Kiedy używać modeli natychmiastowych w porównaniu z wdrożeniami

Wersje modelu

Jak zużywany jest limit

Kontrolki przedsiębiorstwa

Kolizje nazw wdrożeń

Ograniczenia podczas korzystania z wersji zapoznawczej

Treści powiązane

Opinia

Dodatkowe zasoby