Azure AI Model Inference REST API reference

L'inferenza dei modelli AI di Azure è un'API che espone un insieme comune di capacità per i modelli fondamentali e che può essere utilizzata dagli sviluppatori per assorbire previsioni da un insieme diversificato di modelli in modo uniforme e coerente. Gli sviluppatori possono comunicare con i diversi modelli distribuiti nel portale Azure AI Foundry senza cambiare il codice sottostante che stanno usando.

Vantaggi

I modelli fondamentali, come i modelli linguistici, hanno effettivamente compiuto notevoli progressi negli ultimi anni. Questi progressi hanno rivoluzionato vari settori, tra cui l'elaborazione del linguaggio naturale e la visione artificiale, e hanno reso possibile applicazioni come chatbot, assistenti virtuali e servizi di traduzione linguistica.

Sebbene i modelli fondamentali eccellono in ambiti specifici, mancano di un insieme uniforme di capacità. Alcuni modelli sono migliori in compiti specifici e anche nello stesso compito, alcuni modelli possono affrontare il problema in un modo mentre altri in un altro. Gli sviluppatori possono beneficiare di questa diversità utilizzando il modello giusto per il lavoro giusto , permettendo loro di:

Migliora le prestazioni in un compito specifico a valle.
Usa modelli più efficienti per compiti più semplici.
Usa modelli più piccoli che possano funzionare più velocemente su compiti specifici.
Scrivi più modelli per sviluppare esperienze intelligenti.

Avere un modo uniforme di consumare i modelli fondamentali permette agli sviluppatori di realizzare tutti questi benefici senza sacrificare la portabilità o modificare il codice sottostante.

Supporto SDK per inferenza

Il pacchetto Azure AI Inference ti permette di consumare tutti i modelli che supportano l'API di inferenza dei modelli Azure AI e di cambiare facilmente tra di essi. Il pacchetto Azure AI Inference fa parte dell'Azure AI Foundry SDK.

Language	Documentation	Package	Examples
C#	Riferimento	azure-ai-inferenza (NuGet)	Esempi di C#
Java	Riferimento	azure-ai-inferenza (Maven)	Esempi di Java
Javascript	Riferimento	@azure/IA-inferenza (NPM)	esempi di JavaScript
Python	Riferimento	azure-ai-inferenza (PyPi)	Esempi di Python

Capacità

La sezione seguente descrive alcune delle capacità che l'API espone:

Modalities

L'API indica come gli sviluppatori possono consumare previsioni per le seguenti modalità:

Ottieni informazioni: restituisce le informazioni sul modello implementato sotto l'endpoint.
Incorporamenti di testo: Crea un vettore di embedding che rappresenta il testo in ingresso.
Completamento della chat: Crea una risposta modello per la conversazione in chat.
Incorporamenti delle immagini: Crea un vettore di embedding che rappresenta il testo in input e l'immagine.

Extensibility

L'API di Inferenza dei Modelli AI di Azure specifica un insieme di modalità e parametri a cui i modelli possono aderire. Tuttavia, alcuni modelli potrebbero avere capacità aggiuntive rispetto a quelle indicate dall'API. In questi casi, l'API permette allo sviluppatore di passarli come parametri aggiuntivi nel payload.

Impostando un'intestazione extra-parameters: pass-through, l'API tenterà di passare qualsiasi parametro sconosciuto direttamente al modello sottostante. Se il modello può gestire quel parametro, la richiesta si completa.

Il seguente esempio mostra una richiesta che passa il parametro safe_prompt supportato da Mistral-Large, che non è specificato nell'API di Inferenza dei Modelli AI Azure.

Richiedi

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
extra-parameters: pass-through

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "text" },
    "safe_prompt": true
}

Note

Il valore predefinito per extra-parameters è error che restituisce un errore se nel payload è indicato un parametro aggiuntivo. In alternativa, puoi impostare extra-parameters: drop per eliminare qualsiasi parametro sconosciuto nella richiesta. Usa questa funzionalità nel caso tu stia inviando richieste con parametri extra che sai che il modello non supporta, ma vuoi comunque che la richiesta venga completata. Un esempio tipico di ciò è l'indicatore seed di parametro.

Modelli con un insieme di capacità disparate

L'API di Inferenza dei Modelli AI di Azure indica un insieme generale di capacità, ma ciascuno dei modelli può decidere se implementarle o meno. Un errore specifico viene restituito nei casi in cui il modello non può supportare un parametro specifico.

Il seguente esempio mostra la risposta a una richiesta di completamento della chat che indica il parametro reponse_format e richiede una risposta in JSON formato. Nell'esempio, poiché il modello non supporta tale capacità, l'errore 422 viene restituito all'utente.

Richiedi

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "json_object" },
}

risposta

{
    "status": 422,
    "code": "parameter_not_supported",
    "detail": {
        "loc": [ "body", "response_format" ],
        "input": "json_object"
    },
    "message": "One of the parameters contain invalid values."
}

Tip

Puoi ispezionare la proprietà details.loc per capire la posizione del parametro incriminato e details.input vedere il valore passato nella richiesta.

Sicurezza dei contenuti

L'API di inferenza dei modelli AI Azure supporta Sicurezza dei contenuti di Azure AI. Quando si utilizzano implementazioni con Sicurezza dei contenuti di Azure AI attivato, input e output passano attraverso un insieme di modelli di classificazione volti a rilevare e prevenire l'output di contenuti dannosi. Il sistema di filtraggio dei contenuti (anteprima) rileva e agisce su categorie specifiche di contenuti potenzialmente dannosi sia nei prompt di input che nelle completazioni di output.

L'esempio seguente mostra la risposta a una richiesta di completamento della chat che ha attivato la sicurezza dei contenuti.

Richiedi

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
    }
    ],
    "temperature": 0,
    "top_p": 1,
}

risposta

{
    "status": 400,
    "code": "content_filter",
    "message": "The response was filtered",
    "param": "messages",
    "type": null
}

Come iniziare

L'API di inferenza dei modelli AI di Azure è disponibile sulle risorse di Azure AI Services. Puoi iniziare con esso come con qualsiasi altro prodotto Azure, creando creando e configurando la tua risorsa per Azure inferenza del modello AI, o un'istanza del servizio, nel tuo abbonamento Azure. Puoi creare tutte le risorse necessarie e configurarle indipendentemente nel caso tu abbia più team con esigenze diverse.

Una volta creata una risorsa Azure AI Services, devi distribuire un modello prima di poter iniziare a effettuare chiamate API. Di default, non sono disponibili modelli su di essa, quindi puoi decidere da quali partire. Consulta il tutorial Crea la tua prima distribuzione di modelli in Azure AI model inference.

Last updated on 2026-06-12

Azure AI Model Inference REST API reference

Vantaggi

Supporto SDK per inferenza

Capacità

Modalities

Extensibility

Modelli con un insieme di capacità disparate

Sicurezza dei contenuti

Come iniziare

Risorse aggiuntive