Condividi tramite


Modelli di Fonderia venduti direttamente da Azure

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).

🔄 Passa alla nuova documentazione di Microsoft Foundry se si usa il nuovo portale.

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (nuovo).

Questo articolo elenca una selezione di modelli Microsoft Foundry venduti direttamente da Azure insieme alle relative funzionalità , tipi di distribuzione e aree di disponibilità, esclusi i modelli deprecati e legacy. Per visualizzare un elenco dei modelli OpenAI di Azure supportati dal servizio agente Foundry, vedere Modelli supportati dal servizio Agent.

I modelli venduti direttamente da Azure includono tutti i modelli OpenAI di Azure e specifici modelli selezionati dai principali provider.

A seconda del tipo di progetto usato in Microsoft Foundry, viene visualizzata una selezione diversa di modelli. In particolare, se si usa un progetto Foundry basato su una risorsa Foundry, vengono visualizzati i modelli disponibili per la distribuzione standard in una risorsa Foundry. In alternativa, se si usa un progetto basato su hub ospitato da un hub di Fonderia, vengono visualizzati i modelli disponibili per la distribuzione in API di calcolo serverless e gestite. Queste selezioni di modelli spesso si sovrappongono perché molti modelli supportano più opzioni di distribuzione.

I Modelli di Fonderia sono disponibili per la distribuzione standard in una risorsa Fonderia.

Per altre informazioni sugli attributi dei modelli Foundry venduti direttamente da Azure, vedere Esplorare i modelli foundry.

Annotazioni

I modelli foundry venduti direttamente da Azure includono anche i modelli selezionati dai provider di modelli principali seguenti:

  • Black Forest Labs: FLUX.1-Kontext-pro, FLUX-1.1-pro
  • Cohere: Cohere-command-a, embed-v-4-0
  • DeepSeek: DeepSeek-V3.1, DeepSeek-V3-0324, DeepSeek-R1-0528, DeepSeek-R1
  • Meta: Llama-4-Maverick-17B-128E-Instruct-FP8, Llama-3.3-70B-Instruct
  • Microsoft: MAI-DS-R1, model-router
  • Mistral: mistral-document-ai-2505, Mistral-Large-3
  • xAI: grok-code-fast-1, grok-3, grok-3-mini, grok-4-fast-reasoning, grok-4-fast-non-reasoninggrok-4

Per informazioni su questi modelli, passare ad Altre raccolte di modelli nella parte superiore di questo articolo.

Azure OpenAI nei modelli di Microsoft Foundry

Azure OpenAI è basato su un set diversificato di modelli con funzionalità e punti di prezzo diversi. La disponibilità dei modelli varia in base all'area e al cloud. Per la disponibilità del modello di Azure per enti pubblici, vedere Azure OpenAI in Azure per enti pubblici.

Models Description
Serie GPT-5.1 NEWgpt-5.1, gpt-5.1-chat, gpt-5.1-codex, gpt-5.1-codex-mini
Sora NUOVO sora-2
Serie GPT-5 gpt-5, gpt-5-mini, gpt-5-nano, gpt-5-chat
gpt-oss modelli di ragionamento a peso aperto
codex-mini Versione ottimizzata di o4-mini.
Serie GPT-4.1 gpt-4.1, gpt-4.1-mini, gpt-4.1-nano
computer-use-preview Un modello sperimentale addestrato per essere utilizzato con lo strumento per l'uso del computer dell'API Risposte.
Modelli serie o Modelli di ragionamento con problem-solving avanzato e attenzione e capacità migliorate.
GPT-4o, GPT-4o mini e GPT-4 Turbo Modelli con supporto per Azure OpenAI e versioni multimodali, che possono accettare sia testo che immagini come input.
GPT-4 Un set di modelli migliore rispetto a GPT-3.5 e in grado di comprendere e generare linguaggio naturale e codice.
GPT-3.5 Un set di modelli migliore rispetto a GPT-3 e in grado di comprendere e generare linguaggio naturale e codice.
Embeddings Un set di modelli in grado di convertire il testo in formato vettoriale numerico per facilitare la similarità del testo.
Generazione di immagini Serie di modelli che possono generare immagini originali dal linguaggio naturale.
Video generation Modello in grado di generare scene video originali da istruzioni in formato testo.
Audio Serie di modelli per la trascrizione vocale, la traduzione e la sintesi vocale. I modelli audio GPT-4o supportano interazioni conversazionali a bassa latenza input vocale, output vocale o la generazione di audio.

GPT-5.1

Disponibilità della regione

Model Area geografica
gpt-5.1 Stati Uniti orientali 2 e Svezia centrale (Standard globale e DataZone Standard)
gpt-5.1-chat Stati Uniti orientali 2 e Svezia centrale (standard globale)
gpt-5.1-codex Stati Uniti orientali 2 e Svezia centrale (standard globale)
gpt-5.1-codex-mini Stati Uniti orientali 2 e Svezia centrale (standard globale)

L'accesso verrà concesso in base ai criteri di idoneità di Microsoft. Ai clienti che in precedenza hanno applicato e ricevuto l'accesso a un modello di accesso limitato, non è necessario riapplicare perché alle sottoscrizioni approvate verrà concesso automaticamente l'accesso al rilascio del modello.

ID modello Description Finestra di contesto Numero massimo di token di output Dati di formazione (fino a una certa data)
gpt-5.1 (2025-11-13) - Ragionamento
- API di completamento per chat.
- API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni, strumenti e chiamate di strumenti paralleli.
- Riepilogo completo delle funzionalità.
400,000

Input: 272.000
Output: 128.000
128,000 30 settembre 2024
gpt-5.1-chat (2025-11-13) - Ragionamento
- API di completamento per chat.
- API delle risposte.
- Output strutturati
- Funzioni, strumenti e chiamate di strumenti paralleli.
128,000

Input: 111.616
Output: 16.384
16,384 30 settembre 2024
gpt-5.1-codex (2025-11-13) - Solo API delle risposte.
- Elaborazione di testo e immagini
- Output strutturati.
- Funzioni, strumenti e chiamate di strumenti paralleli.
- Riepilogo completo delle funzionalità
- Ottimizzato per l'estensione Codex CLI & Codex VS Code
400,000

Input: 272.000
Output: 128.000
128,000 30 settembre 2024
gpt-5.1-codex-mini (2025-11-13) - Solo API delle risposte.
- Elaborazione di testo e immagini
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni, strumenti e chiamate di strumenti paralleli.
- Riepilogo completo delle funzionalità
- Ottimizzato per l'estensione Codex CLI & Codex VS Code
400,000

Input: 272.000
Output: 128.000
128,000 30 settembre 2024

Importante

  • gpt-5.1 reasoning_effort il valore predefinito è none. Quando si esegue l'aggiornamento da modelli di ragionamento precedenti a gpt-5.1, tenere presente che potrebbe essere necessario aggiornare il codice per passare in modo esplicito un reasoning_effort livello se si vuole che si verifichi un ragionamento.

  • gpt-5.1-chat aggiunge funzionalità di ragionamento predefinite. Analogamente ad altri modelli di ragionamento , non supporta parametri come temperature. Se si esegue l'aggiornamento da tramite gpt-5-chat (che non è un modello di ragionamento) per gpt-5.1-chat assicurarsi di rimuovere eventuali parametri personalizzati come temperature dal codice che non sono supportati dai modelli di ragionamento.

GPT-5

Disponibilità della regione

Model Area geografica
gpt-5 (2025-08-07) Vedere la tabella dei modelli.
gpt-5-mini (2025-08-07) Vedere la tabella dei modelli.
gpt-5-nano (2025-08-07) Vedere la tabella dei modelli.
gpt-5-chat (2025-08-07) Vedere la tabella dei modelli.
gpt-5-chat (2025-10-03) Stati Uniti orientali 2 (standard globale) e Svezia centrale (standard globale)
gpt-5-codex (2025-09-11) Stati Uniti orientali 2 (standard globale) e Svezia centrale (standard globale)
gpt-5-pro (2025-10-06) Stati Uniti orientali 2 (standard globale) e Svezia centrale (standard globale)

L'accesso verrà concesso in base ai criteri di idoneità di Microsoft. I clienti che in precedenza hanno richiesto e ricevuto l'accesso a o3, non devono ripetere la richiesta, perché alle sottoscrizioni approvate verrà concesso automaticamente l'accesso al rilascio del modello.

ID modello Description Finestra di contesto Numero massimo di token di output Dati di formazione (fino a una certa data)
gpt-5 (2025-08-07) - Ragionamento
- API di completamento per chat.
- API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni, strumenti e chiamate di strumenti paralleli.
- Riepilogo completo delle funzionalità.
400,000

Input: 272.000
Output: 128.000
128,000 30 settembre 2024
gpt-5-mini (2025-08-07) - Ragionamento
- API di completamento per chat.
- API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni, strumenti e chiamate di strumenti paralleli.
- Riepilogo completo delle funzionalità.
400,000

Input: 272.000
Output: 128.000
128,000 31 maggio 2024
gpt-5-nano (2025-08-07) - Ragionamento
- API di completamento per chat.
- API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni, strumenti e chiamate di strumenti paralleli.
- Riepilogo completo delle funzionalità.
400,000

Input: 272.000
Output: 128.000
128,000 31 maggio 2024
gpt-5-chat (2025-08-07)
Preview
- API di completamento per chat.
- API delle risposte.
- Input: testo/immagine
- Output: solo testo
128,000 16,384 30 settembre 2024
gpt-5-chat (2025-10-03)
Anteprima1
- API di completamento per chat.
- API delle risposte.
- Input: testo/immagine
- Output: solo testo
128,000 16,384 30 settembre 2024
gpt-5-codex (2025-09-11) - Solo API delle risposte.
- Input: testo/immagine
- Output: solo testo
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni, strumenti e chiamate di strumenti paralleli.
- Riepilogo completo delle funzionalità
- Ottimizzato per l'estensione Codex CLI & Codex VS Code
400,000

Input: 272.000
Output: 128.000
128,000 -
gpt-5-pro (2025-10-06) - Ragionamento
- API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni e strumenti
- Riepilogo completo delle funzionalità.
400,000

Input: 272.000
Output: 128.000
128,000 30 settembre 2024

Annotazioni

1gpt-5-chat versione 2025-10-03 introduce un miglioramento significativo incentrato sull'intelligenza emotiva e sulle capacità di salute mentale. Questo aggiornamento integra set di dati specializzati e strategie di risposta perfezionate per migliorare la capacità del modello di:

  • Comprendere e interpretare il contesto emotivo in modo più accurato, consentendo interazioni sfumate ed empatiche.
  • Fornire risposte di supporto e responsabilità nelle conversazioni correlate alla salute mentale, garantendo sensibilità e conformità alle procedure consigliate.

Questi miglioramenti mirano a rendere GPT-5-chat più consapevole del contesto, incentrato sull'uomo e affidabile negli scenari in cui il tono emotivo e le considerazioni sul benessere sono fondamentali.

gpt-oss

Disponibilità della regione

Model Area geografica
gpt-oss-120b Tutte le aree di Azure OpenAI

Capacità

ID modello Description Finestra di contesto Numero massimo di token di output Dati di formazione (fino a una certa data)
gpt-oss-120b (anteprima) - Solo testo in entrata/testo in uscita
API di completamento della chat
- Streaming
- Chiamata di funzione
- Output strutturati
- Ragionamento
- Disponibile per la distribuzione1 e tramite calcolo gestito
131.072 131.072 31 maggio 2024
gpt-oss-20b (anteprima) - Solo testo in entrata/testo in uscita
API di completamento della chat
- Streaming
- Chiamata di funzione
- Output strutturati
- Ragionamento
- Disponibile tramite calcolo gestito e Fonderia Locale
131.072 131.072 31 maggio 2024

1 A differenza di altri modelli gpt-oss-120b OpenAI di Azure richiede un progetto Foundry per distribuire il modello.

Distribuzione con il codice

az cognitiveservices account deployment create \
  --name "Foundry-project-resource" \
  --resource-group "test-rg" \
  --deployment-name "gpt-oss-120b" \
  --model-name "gpt-oss-120b" \
  --model-version "1" \
  --model-format "OpenAI-OSS" \
  --sku-capacity 10 \
  --sku-name "GlobalStandard"

Serie GPT-4.1

Disponibilità della regione

Model Area geografica
gpt-4.1 (2025-04-14) Vedere la tabella dei modelli.
gpt-4.1-nano (2025-04-14) Vedere la tabella dei modelli.
gpt-4.1-mini (2025-04-14) Vedere la tabella dei modelli.

Capacità

Importante

Un problema noto riguarda tutti i modelli della serie GPT 4.1. Le definizioni di chiamate di funzione o strumenti di grandi dimensioni che superano i 300.000 token genereranno errori, anche se non è stato raggiunto il limite di contesto di 1 milione di token dei modelli.

Gli errori possono variare in base alle caratteristiche della chiamata API e del payload sottostante.

Ecco i messaggi di errore per l'API di completamento chat:

  • Error code: 400 - {'error': {'message': "This model's maximum context length is 300000 tokens. However, your messages resulted in 350564 tokens (100 in the messages, 350464 in the functions). Please reduce the length of the messages or functions.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}

  • Error code: 400 - {'error': {'message': "Invalid 'tools[0].function.description': string too long. Expected a string with maximum length 1048576, but got a string with length 2778531 instead.", 'type': 'invalid_request_error', 'param': 'tools[0].function.description', 'code': 'string_above_max_length'}}

Ecco il messaggio di errore per l'API delle risposte:

  • Error code: 500 - {'error': {'message': 'The server had an error processing your request. Sorry about that! You can retry your request, or contact us through an Azure support request at: https://go.microsoft.com/fwlink/?linkid=2213926 if you keep seeing this error. (Please include the request ID d2008353-291d-428f-adc1-defb5d9fb109 in your email.)', 'type': 'server_error', 'param': None, 'code': None}}
ID modello Description Finestra di contesto Numero massimo di token di output Dati di training (fino a)
gpt-4.1 (2025-04-14) - Input di testo e immagine
- Output di testo
- API di completamento della chat
- API Risposte
- Streaming
- Chiamata di funzione
- Output strutturati (completamenti chat)
- 1,047,576
- 128.000 (distribuzioni gestite con provisioning)
- 300,000 (distribuzioni batch)
32,768 31 maggio 2024
gpt-4.1-nano (2025-04-14) - Input di testo e immagine
- Output di testo
- API di completamento della chat
- API Risposte
- Streaming
- Chiamata di funzione
- Output strutturati (completamenti chat)
- 1,047,576
- 128.000 (distribuzioni gestite con provisioning)
- 300,000 (distribuzioni batch)
32,768 31 maggio 2024
gpt-4.1-mini (2025-04-14) - Input di testo e immagine
- Output di testo
- API di completamento della chat
- API Risposte
- Streaming
- Chiamata di funzione
- Output strutturati (completamenti chat)
- 1,047,576
- 128.000 (distribuzioni gestite con provisioning)
- 300,000 (distribuzioni batch)
32,768 31 maggio 2024

computer-use-preview

Un modello sperimentale addestrato per essere usato con lo strumento per l'uso del computer dell'API Risposte.

Può essere usato con librerie di terze parti per consentire al modello di controllare l'input del mouse e della tastiera, recuperando il contesto da screenshot dell'ambiente corrente.

Attenzione

Non è consigliabile usare modelli in anteprima nell'ambiente di produzione. Tutte le distribuzioni dei modelli in anteprima verranno aggiornate a versioni di anteprima future o alla versione stabile più recente disponibile a livello generale. I modelli designati in anteprima non seguono il ciclo di vita standard del modello OpenAI di Azure.

Per accedere a computer-use-preview è necessaria la registrazione. L'accesso viene concesso in base ai criteri di idoneità di Microsoft. I clienti che hanno accesso ad altri modelli con accesso limitato devono comunque richiedere l'accesso per questo modello.

Per richiedere l'accesso, passare alla computer-use-preview domanda per il modello con accesso limitato. Quando viene concesso l'accesso, è necessario creare una distribuzione per il modello.

Disponibilità della regione

Model Area geografica
computer-use-preview Vedere la tabella dei modelli.

Capacità

ID modello Description Finestra di contesto Numero massimo di token di output Dati di training (fino a)
computer-use-preview (2025-03-11) Modello specializzato da utilizzare con lo strumento per l'uso del computer dell'API Risposte

-Strumenti
- Streaming
- Testo (input/output)
- Immagine (input)
8,192 1,024 Ottobre 2023

Modelli serie o

I modelli serie o di Azure OpenAI sono stati progettati per gestire attività di problem-solving e ragionamento con attenzione e capacità migliorate. Tali modelli dedicano più tempo all'elaborazione e alla comprensione delle richieste degli utenti, sono pertanto particolarmente competenti in aree come scienze, codifica e matematica rispetto alle iterazioni precedenti.

ID modello Description Richiesta max (token) Dati di training (fino a)
codex-mini (2025-05-16) Versione ottimizzata di o4-mini.
- API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni e strumenti.
Riepilogo completo delle funzionalità.
Input: 200.000
Output: 100-000
31 maggio 2024
o3-pro (2025-06-10) - API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni e strumenti.
Riepilogo completo delle funzionalità.
Input: 200.000
Output: 100-000
31 maggio 2024
o4-mini (2025-04-16) - Nuovo modello di ragionamento, che offre capacità di ragionamento avanzate.
- API di completamento per chat.
- API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni e strumenti.
Riepilogo completo delle funzionalità.
Input: 200.000
Output: 100-000
31 maggio 2024
o3 (2025-04-16) - Nuovo modello di ragionamento, che offre capacità di ragionamento avanzate.
- API di completamento per chat.
- API delle risposte.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni, strumenti e chiamate di strumenti paralleli.
Riepilogo completo delle funzionalità.
Input: 200.000
Output: 100-000
31 maggio 2024
o3-mini (2025-01-31) - Capacità di ragionamento migliorate.
- Output strutturati.
- Elaborazione di solo testo.
- Funzioni e strumenti.
Input: 200.000
Output: 100-000
Ottobre 2023
o1 (2024-12-17) - Capacità di ragionamento migliorate.
- Output strutturati.
- Elaborazione di testo e immagini.
- Funzioni e strumenti.
Input: 200.000
Output: 100-000
Ottobre 2023
o1-preview (2024-09-12) Versione di anteprima precedente. Input: 128.000
Output: 32.768
Ottobre 2023
o1-mini (2024-09-12) Un'opzione più veloce e più conveniente nella serie o1, ideale per le attività di codifica che richiedono velocità e un consumo di risorse inferiore.
- Distribuzione standard globale disponibile per impostazione predefinita.
- Le distribuzioni standard (a livello di area) sono attualmente disponibili solo per clienti selezionati che hanno ricevuto l'accesso nell'ambito del rilascio con accesso limitato di o1-preview.
Input: 128.000
Output: 65.536
Ottobre 2023

Per altre informazioni sui modelli avanzati della serie o, vedere Introduzione ai modelli di ragionamento.

Disponibilità della regione

Model Area geografica
codex-mini Stati Uniti orientali 2 e Svezia centrale (Standard globale).
o3-pro Stati Uniti orientali 2 e Svezia centrale (Standard globale).
o4-mini Vedere la tabella dei modelli.
o3 Vedere la tabella dei modelli.
o3-mini Vedere la tabella dei modelli.
o1 Vedere la tabella dei modelli.
o1-preview Vedere la tabella dei modelli. Questo modello è disponibile solo per i clienti a cui è stato concesso l'accesso come parte dell'accesso limitato originale.
o1-mini Vedere la tabella dei modelli.

GPT-4o e GPT-4 Turbo

GPT-4o integra testo e immagini in un singolo modello, che consente di gestire più tipi di dati contemporaneamente. Questo approccio multidimensionale migliora l'accuratezza e la velocità di risposta nelle interazioni tra computer umani. GPT-4o ha le stesse prestazioni di GPT-4 Turbo in attività con testo in inglese e codice, ma offre prestazioni superiori nelle altre lingue e nelle attività di visione, stabilendo nuovi benchmark per le funzionalità di intelligenza artificiale.

Modelli GPT-4 e GPT-4 Turbo

Questi modelli possono essere usati solo con l'API di completamento chat.

Vedere Versioni del modello per informazioni su come Azure OpenAI gestisce gli aggiornamenti delle versioni del modello. Vedere Utilizzo dei modelli per informazioni su come visualizzare e configurare le impostazioni della versione del modello delle distribuzioni GPT-4.

ID modello Description Richiesta max (token) Dati di training (fino a)
gpt-4o (2024-11-20)
GPT-4o (Omni)
- Output strutturati.
- Elaborazione di testo e immagini.
- Modalità JSON.
- Chiamata di funzioni parallele.
- Maggiore precisione e velocità di risposta.
- Parità con il testo inglese e le attività di codifica rispetto a GPT-4 Turbo con Visione.
- Prestazioni superiori nelle lingue non inglesi e nelle attività di visione.
- Miglioramento della capacità di scrittura creativa.
Input: 128.000
Output: 16.384
Ottobre 2023
gpt-4o (2024-08-06)
GPT-4o (Omni)
- Output strutturati.
- Elaborazione di testo e immagini.
- Modalità JSON.
- Chiamata di funzioni parallele.
- Maggiore precisione e velocità di risposta.
- Parità con il testo inglese e le attività di codifica rispetto a GPT-4 Turbo con Visione.
- Prestazioni superiori nelle lingue non inglesi e nelle attività di visione.
Input: 128.000
Output: 16.384
Ottobre 2023
gpt-4o-mini (2024-07-18)
GPT-4o mini
- Modello veloce, economico e in grado di supportare la sostituzione dei modelli della serie GPT-3.5 Turbo.
- Elaborazione di testo e immagini.
- Modalità JSON.
- Chiamata di funzioni parallele.
Input: 128.000
Output: 16.384
Ottobre 2023
gpt-4o (2024-05-13)
GPT-4o (Omni)
- Elaborazione di testo e immagini.
- Modalità JSON.
- Chiamata di funzioni parallele.
- Maggiore precisione e velocità di risposta.
- Parità con il testo inglese e le attività di codifica rispetto a GPT-4 Turbo con Visione.
- Prestazioni superiori nelle lingue non inglesi e nelle attività di visione.
Input: 128.000
Output: 4.096
Ottobre 2023
gpt-4 (turbo-2024-04-09)
GPT-4 Turbo con Visione
Nuovo modello disponibile a livello generale.
- Sostituzione di tutti i modelli di anteprima GPT-4 precedenti (vision-preview, 1106-Preview, 0125-Preview).
- La disponibilità delle funzionalità è attualmente diversa a seconda del metodo di input e del tipo di distribuzione.
Input: 128.000
Output: 4.096
Dicembre 2023

Attenzione

Non è consigliabile usare modelli in anteprima nell'ambiente di produzione. Tutte le distribuzioni dei modelli in anteprima verranno aggiornate a versioni di anteprima future o alla versione stabile più recente disponibile a livello generale. I modelli designati in anteprima non seguono il ciclo di vita standard del modello OpenAI di Azure.

GPT-3.5

I modelli GPT-3.5 possono comprendere e generare codice o linguaggio naturale. Il modello più efficiente e conveniente in termini di costi della famiglia GPT-3.5 è GPT-3.5 Turbo, ottimizzato per la chat e in grado di funzionare bene anche per le attività di completamento tradizionali. GPT-3.5 Turbo è disponibile per l'uso con l'API Completamento chat. GPT-3.5 Turbo Instruct offre funzionalità simili a text-davinci-003 quando si usa l'API di completamento anziché l'API di completamento chat. È consigliabile usare i modelli GPT-3.5 Turbo e GPT-3.5 Turbo Instruct rispetto ai modelli GPT-3.5 e GPT-3.5 legacy.

ID modello Description Richiesta max (token) Dati di training (fino a)
gpt-35-turbo (0125) new - Modalità JSON.
- Chiamata di funzioni parallele.
- Output riproducibile (anteprima).
- Maggiore accuratezza quando risponde nei formati richiesti.
- Include la correzione di un bug che causava un problema di codifica del testo per le chiamate di funzione non in lingua inglese.
Input: 16.385
Output: 4.096
Settembre 2021
gpt-35-turbo (1106) Modello precedente disponibile a livello generale.
- Modalità JSON.
- Chiamata di funzioni parallele.
- Output riproducibile (anteprima).
Input: 16.385
Output: 4.096
Settembre 2021
gpt-35-turbo-instruct (0914) Solo endpoint di completamento.
- Sostituzione dei modelli di completamento legacy.
4,097 Settembre 2021

Per altre informazioni su come interagire con GPT-3.5 Turbo e l'API di completamento chat, vedere l'articolo di procedure dettagliate.

Incorporamenti

text-embedding-3-large è il modello di incorporamento più recente e più idoneo. L'aggiornamento tra modelli di incorporamento non è possibile. Per passare dall'uso di text-embedding-ada-002 a text-embedding-3-large è necessario generare nuovi incorporamenti.

  • text-embedding-3-large
  • text-embedding-3-small
  • text-embedding-ada-002

OpenAI segnala che nei test i modelli di incorporamenti di terza generazione sia di grandi che di piccole dimensioni offrono in media prestazioni migliori per il recupero in più lingue con il benchmark MIRACL. Mantengono inoltre le prestazioni per le attività in inglese con il benchmark MTEB.

Benchmark di valutazione text-embedding-ada-002 text-embedding-3-small text-embedding-3-large
Media MIRACL 31.4 44.0 54.9
Media MTEB 61.0 62.3 64.6

I modelli di incorporamento di terza generazione supportano la riduzione delle dimensioni dell'incorporamento tramite un nuovo parametro dimensions. In genere, gli incorporamenti di dimensioni maggiori sono più costosi dal punto di vista di calcolo, memoria e archiviazione. Quando è possibile regolare il numero di dimensioni, si ottiene un maggiore controllo sui costi e sulle prestazioni complessivi. Il parametro dimensions non è supportato in tutte le versioni della libreria Python OpenAI 1.x. Per sfruttare i vantaggi di questo parametro, è consigliabile eseguire l'aggiornamento all'ultima versione: pip install openai --upgrade.

Il test di benchmark MTEB di OpenAI ha rilevato che anche quando le dimensioni del modello di terza generazione sono ridotte a meno delle 1.536 dimensioni di text-embeddings-ada-002, le prestazioni rimangono leggermente migliori.

Modelli di generazione di immagini

I modelli di generazione di immagini generano immagini da richieste di testo fornite dall'utente. I modelli di serie GPT-image-1 sono in anteprima con accesso limitato. DALL-E 3 è disponibile a livello generale per l'uso con le API REST. DALL-E 2 e DALL-E 3 con SDK per clienti sono in fase di anteprima.

La registrazione è necessaria per accedere a gpt-image-1 o gpt-image-1-mini. L'accesso viene concesso in base ai criteri di idoneità di Microsoft. I clienti che hanno accesso ad altri modelli con accesso limitato devono comunque richiedere l'accesso per questo modello.

Per richiedere l'accesso, passare alla gpt-image-1 domanda per il modello con accesso limitato. Quando viene concesso l'accesso, è necessario creare una distribuzione per il modello.

Disponibilità della regione

Model Area geografica
dall-e-3 East US
Australia East
Svezia centrale
gpt-image-1 Stati Uniti occidentali 3 (standard globale)
Stati Uniti orientali 2 (standard globale)
Emirati Arabi Uniti settentrionali (standard globale)
Polonia centrale (standard globale)
Svezia centrale (standard globale)
gpt-image-1-mini Stati Uniti occidentali 3 (standard globale)
Stati Uniti orientali 2 (standard globale)
Emirati Arabi Uniti settentrionali (standard globale)
Polonia centrale (standard globale)
Svezia centrale (standard globale)

Modelli di generazione di video

Sora è un modello di intelligenza artificiale di OpenAI che può creare scene video realistiche e fantasiose dalle istruzioni di testo. Sora è in anteprima.

Disponibilità della regione

Model Area geografica
sora Stati Uniti orientali 2 (Standard globale)
Svezia centrale (standard globale)
sora-2 Stati Uniti orientali 2 (Standard globale)
Svezia centrale (standard globale)

Modelli audio

I modelli audio in Azure OpenAI sono disponibili tramite le realtimeAPI , completionse audio .

Modelli audio GPT-4o

I modelli audio GPT-4o fanno parte della famiglia di modelli GPT-4o e supportano interazioni conversazionali a bassa latenza input vocale, output vocale o la generazione di audio.

Attenzione

Non è consigliabile usare modelli in anteprima nell'ambiente di produzione. Tutte le distribuzioni dei modelli in anteprima verranno aggiornate a versioni di anteprima future o alla versione stabile più recente disponibile a livello generale. I modelli designati in anteprima non seguono il ciclo di vita standard del modello OpenAI di Azure.

Le informazioni dettagliate sul numero massimo di token di richiesta e i dati di training sono disponibili nella tabella seguente:

ID modello Description Richiesta max (token) Dati di training (fino a)
gpt-4o-mini-audio-preview (2024-12-17)
Audio GPT-4o
Modello audio per la generazione di audio e testo. Input: 128.000
Output: 16.384
Settembre 2023
gpt-4o-audio-preview (2024-12-17)
Audio GPT-4o
Modello audio per la generazione di audio e testo. Input: 128.000
Output: 16.384
Settembre 2023
gpt-4o-realtime-preview (2025-06-03)
Audio GPT-4o
Modello audio per l'elaborazione audio in tempo reale. Input: 128.000
Output: 4.096
Ottobre 2023
gpt-4o-realtime-preview (2024-12-17)
Audio GPT-4o
Modello audio per l'elaborazione audio in tempo reale. Input: 128.000
Output: 4.096
Ottobre 2023
gpt-4o-mini-realtime-preview (2024-12-17)
Audio GPT-4o
Modello audio per l'elaborazione audio in tempo reale. Input: 128.000
Output: 4.096
Ottobre 2023
gpt-realtime (28-08-2025) - (DISPONIBILITÀ GENERALE)
gpt-realtime-mini (2025-10-06)
gpt-audio(28/08/2025)
gpt-audio-mini(06-10-2025)
Modello audio per l'elaborazione audio in tempo reale. Input: 28.672
Output: 4.096
Ottobre 2023

Per confrontare la disponibilità di modelli audio GPT-4o in tutte le aree, vedere la tabella dei modelli.

Audio API

I modelli audio tramite l'API /audio possono essere usati per il riconoscimento vocale, la traduzione e la sintesi vocale.

Modelli di riconoscimento vocale

ID modello Description Richiesta massima (dimensioni file audio)
whisper Modello di riconoscimento vocale generico. 25 MB
gpt-4o-transcribe Modello di riconoscimento vocale con tecnologia GPT-4o. 25 MB
gpt-4o-mini-transcribe Modello di riconoscimento vocale con tecnologia GPT-4o mini. 25 MB
gpt-4o-transcribe-diarize Modello di sintesi vocale con riconoscimento vocale automatico. 25 MB

Modelli di traduzione vocale

ID modello Description Richiesta massima (dimensioni file audio)
whisper Modello di riconoscimento vocale generico. 25 MB

Modelli di sintesi vocale (anteprima)

ID modello Description
tts Modello di sintesi vocale ottimizzato per la velocità.
tts-hd Modello di sintesi vocale ottimizzato per la qualità.
gpt-4o-mini-tts Modello di sintesi vocale con tecnologia GPT-4o mini.

È possibile guidare la voce in modo che parlarli in uno stile o con un tono specifico.

Per altre informazioni, vedere Disponibilità dei modelli audio a livello di area più avanti in questo articolo.

Tabella di riepilogo dei modelli e disponibilità dell'area

Modelli per tipo di distribuzione

OpenAI di Azure offre ai clienti opzioni per la struttura di hosting che si adattano ai criteri di business e di utilizzo. Il servizio offre due tipi principali di distribuzione:

  • Standard: dispone di un'opzione di distribuzione globale, che instrada il traffico a livello globale per offrire una velocità effettiva più elevata.
  • Con provisioning: anche in questo caso è disponibile un'opzione di distribuzione globale che consente ai clienti di acquistare e distribuire unità elaborate con provisioning nell'infrastruttura globale di Azure.

Tutte le distribuzioni possono eseguire esattamente le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni sono sostanzialmente diverse. Per altre informazioni sui tipi di distribuzione di OpenAI di Azure, vedere la Guida ai tipi di distribuzione.

Disponibilità del modello standard globale

Regione gpt-5.1, 2025-11-13 gpt-5.1-chat, 2025-11-13 gpt-5.1-codex, 2025-11-13 gpt-5.1-codex-mini, 2025-11-13 gpt-5-pro, 2025-10-06 gpt-5, 2025-08-07 gpt-5-mini, 2025-08-07 gpt-5-nano, 2025-08-07 gpt-5-chat, 2025-08-07 gpt-5-chat, 2025-10-03 o3-pro, 2025-06-10 codex-mini, 2025-05-16 sora, 2025-05-02 model-router, 2025-08-07 model-router, 2025-05-19 model-router, 2025-11-18 o3, 2025-04-16 o4-mini, 2025-04-16 gpt-image-1, 2025-04-15 gpt-4.1, 2025-04-14 gpt-4.1-nano, 2025-04-14 gpt-4.1-mini, 2025-04-14 anteprima dell'uso del computer, 11/03/2025 o3-mini, 2025-01-31 o1, 2024-12-17 o1-mini, 2024-09-12 gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o, 2024-11-20 gpt-4o-mini, 2024-07-18 text-embedding-3-small, 1 text-embedding-3-large, 1 text-embedding-ada-002, 2 gpt-4o-realtime-preview, 2024-12-17 gpt-4o-realtime-preview, 2025-06-03 gpt-4o-audio-preview, 2024-12-17 gpt-4o-mini-realtime-preview, 2024-12-17 gpt-4o-mini-audio-preview, 2024-12-17 gpt-4o-transcribe, 2025-03-20 gpt-4o-mini-tts, 2025-03-20 gpt-4o-mini-transcribe, 2025-03-20 gpt-5-codex, 2025-09-15 gpt-realtime, 2025-08-28 gpt-audio-mini, 2025-10-06 gpt-image-1-mini, 2025-10-06 gpt-realtime-mini, 2025-10-06 gpt-audio, 2025-08-28 sora-2, 2025-10-06 o3-deep-research, 2025-06-26 gpt-4o-transcribe-diarize, 2025-10-15
australiaeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Brasile meridionale - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
canadacentrale - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Canada Orientale - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
centralus - - - - - - - - - - - - - - - - - - - - - - -
eastus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
eastus2 -
francecentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Germania Centro-Ovest - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
italynorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
japaneast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
coreacentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
northcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Norvegia Est - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Polonia Centrale - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Sudafrica Nord - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Asia sud-orientale - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
India meridionale - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
spaincentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
SveziaCentral - - -
Svizzera settentrionale - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
uaenorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
uksouth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Europa occidentale - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westus3 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Annotazioni

o3-deep-research è attualmente disponibile solo con il servizio agente Foundry. Per altre informazioni, vedere le linee guida per lo strumento Deep Research.

Questa tabella non include informazioni dettagliate sulla disponibilità a livello di area. Per queste informazioni, vedere la sezione relativa all'ottimizzazione.

Modelli di distribuzione standard (a livello di area) per endpoint

Completamenti della chat

Regione o1-preview, 2024-09-12 o1-mini, 2024-09-12 gpt-4o, 2024-05-13 gpt-4o, 2024-11-20 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, turbo-2024-04-09 gpt-35-turbo, 1106 gpt-35-turbo, 0125
australiaeast - - - - - -
Canada Orientale - - - - - -
eastus -
eastus2 -
francecentral - - - - - -
japaneast - - - - - - -
northcentralus -
Norvegia Est - - - - - - - -
southcentralus -
India meridionale - - - - - -
SveziaCentral
Svizzera settentrionale - - - - - - -
uksouth - - - - - -
Europa occidentale - - - - - - - -
westus
westus3 -

Annotazioni

o1-mini è attualmente disponibile per tutti i clienti per la distribuzione standard globale.

Ai clienti selezionati è stato concesso l'accesso alla distribuzione standard (a livello di area) a o1-mini come parte del rilascio con accesso limitato o1-preview. Al momento, l'accesso alle distribuzioni standard (a livello di area) di o1-mini non viene espanso.

Per informazioni su come Azure OpenAI gestisce gli aggiornamenti delle versioni del modello, vedere Versioni del modello. Per informazioni su come visualizzare e configurare le impostazioni della versione del modello delle distribuzioni GPT-3.5 Turbo, vedere Utilizzo dei modelli.

Ottimizzazione dei modelli

Annotazioni

Le aree supportate per l'ottimizzazione possono variare se si usano modelli OpenAI di Azure in un progetto Microsoft Foundry rispetto all'esterno di un progetto.

ID modello Aree di training standard Formazione globale Richiesta max (token) Dati di training (fino a) Modality
gpt-4o-mini
(18-07-2024)
Stati Uniti centro-settentrionali
Svezia centrale
Input: 128.000
Risultato: 16,384
Lunghezza del contesto di training di esempio: 65.536
Ottobre 2023 Da testo a testo
gpt-4o
(06-08-2024)
Stati Uniti Orientali 2
Stati Uniti centro-settentrionali
Svezia centrale
Input: 128.000
Risultato: 16,384
Lunghezza del contesto di training di esempio: 65.536
Ottobre 2023 Da testo e visione artificiale a testo
gpt-4.1
(14-04-2025)
Stati Uniti centro-settentrionali
Svezia centrale
Input: 128.000
Risultato: 16,384
Lunghezza del contesto di training di esempio: 65.536
Maggio 2024 Da testo e visione artificiale a testo
gpt-4.1-mini
(14-04-2025)
Stati Uniti centro-settentrionali
Svezia centrale
Input: 128.000
Risultato: 16,384
Lunghezza del contesto di training di esempio: 65.536
Maggio 2024 Da testo a testo
gpt-4.1-nano (2025-04-14) Stati Uniti centro-settentrionali
Svezia centrale
Input: 128.000
Risultato: 16,384
Lunghezza del contesto di esempio di training: 32.768
Maggio 2024 Da testo a testo
o4-mini
(16-04-2025)
Stati Uniti Orientali 2
Svezia centrale
- Input: 128.000
Risultato: 16,384
Lunghezza del contesto di training di esempio: 65.536
Maggio 2024 Da testo a testo

Annotazioni

Il training globale offre un training più conveniente per token, ma non offre la residenza dei dati. Attualmente è disponibile per le risorse OpenAI di Azure nelle aree seguenti:

  • Australia East
  • Brasile meridionale
  • Canada Central
  • Canada East
  • East US
  • Stati Uniti orientali 2
  • Francia centrale
  • Germania centro-occidentale
  • Italia settentrionale
  • Giappone orientale (nessun supporto per la visione)
  • Korea Central
  • Stati Uniti centro-settentrionali
  • Norway East
  • Polonia centrale (nessun supporto di 4,1 nano)
  • Sud-est asiatico
  • Sudafrica settentrionale
  • Stati Uniti centro-meridionali
  • South India
  • Spain Central
  • Svezia centrale
  • Switzerland West
  • Switzerland North
  • UK South
  • West Europe
  • West US
  • Stati Uniti occidentali3

Assistenti (anteprima)

Per gli assistenti è necessaria una combinazione di modello supportato e area supportata. Alcuni strumenti e funzionalità richiedono i modelli più recenti. I modelli seguenti sono disponibili nell'API Assistants, nell'SDK e in Foundry. La tabella seguente è relativa alla distribuzione standard. Per informazioni sulla disponibilità di unità elaborate con provisioning, vedere Velocità effettiva con provisioning. I modelli e le aree elencati possono essere usati con Assistenti v1 e v2. È possibile usare i modelli standard globali se sono supportati nelle aree seguenti.

Area geografica gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, 0613 gpt-4, 1106-Anteprima) gpt-4, 0125-Anteprima) gpt-4, turbo-2024-04-09 gpt-4-32k, 0613 gpt-35-turbo, 0613 gpt-35-turbo, 1106 gpt-35-turbo, 0125 gpt-35-turbo-16k, 0613
australiaeast - - - - -
eastus - - - -
eastus2 - - - -
francecentral - - - - - -
japaneast - - - - - - - - -
Norvegia Est - - - - - - - - - - -
India meridionale - - - - - - - - -
SveziaCentral - -
uksouth - - - - - -
westus - - - - -
westus3 - - - - - -

Ritiro del modello

Per le informazioni più recenti sui ritiri dei modelli, vedere la guida al ritiro del modello.

Annotazioni

I modelli foundry venduti direttamente da Azure includono anche tutti i modelli OpenAI di Azure. Per informazioni su questi modelli, passare alla raccolta di modelli OpenAI di Azure nella parte superiore di questo articolo.

Modelli Black Forest Labs venduti direttamente da Azure

La raccolta BFL (Black Forest Labs) di modelli di generazione di immagini include FLUX.1 Kontext [pro] per la generazione e la modifica nel contesto e FLUX1.1 [pro] per la generazione da testo a immagine.

È possibile eseguire questi modelli tramite l'API del provider di servizi BFL e tramite gli endpoint images/generations e images/edits.

Model Tipo e endpoint API Capacità Tipo di distribuzione (disponibilità a livello di area) Tipo progetto
FLUX.1-Kontext-pro Generazione di immagini
- API Immagini: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
e
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API del provider di servizi BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Input: testo e immagine (5.000 token e 1 immagine)
- Prodotto: Un'immagine
- Chiamata dello strumento: no
- Formati di risposta: Immagine (PNG e JPG)
- Funzionalità principali: Coerenza dei caratteri, modifica avanzata
- Parametri aggiuntivi:(Solo API specifica del provider)seed, aspect ratio, input_image, prompt_unsampling, safety_toleranceoutput_format
- Standard globale (tutte le aree) Fonderia, basato su hub
FLUX-1.1-pro Generazione di immagini
- API Immagini: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API del provider di servizi BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Input: testo (5.000 token e 1 immagine)
- Prodotto: Un'immagine
- Chiamata dello strumento: no
- Formati di risposta: Immagine (PNG e JPG)
- Funzionalità principali: Velocità di inferenza rapida, forte conformità alla richiesta, prezzi competitivi, generazione scalabile
- Parametri aggiuntivi:(Solo API specifica del provider)width, height, prompt_unsampling, seed, safety_toleranceoutput_format
- Standard globale (tutte le aree) Fonderia, basato su hub
Model Tipo e endpoint API Capacità Tipo di distribuzione (disponibilità a livello di area)
FLUX.1-Kontext-pro Generazione di immagini
- API Immagini: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
e
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API del provider di servizi BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Input: testo e immagine (5.000 token e 1 immagine)
- Prodotto: Un'immagine
- Chiamata dello strumento: no
- Formati di risposta: Immagine (PNG e JPG)
- Funzionalità principali: Coerenza dei caratteri, modifica avanzata
- Parametri aggiuntivi:(Solo API specifica del provider)seed, aspect ratio, input_image, prompt_unsampling, safety_toleranceoutput_format
- Standard globale (tutte le aree)
FLUX-1.1-pro Generazione di immagini
- API Immagini: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API del provider di servizi BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Input: testo (5.000 token e 1 immagine)
- Prodotto: Un'immagine
- Chiamata dello strumento: no
- Formati di risposta: Immagine (PNG e JPG)
- Funzionalità principali: Velocità di inferenza rapida, forte conformità alla richiesta, prezzi competitivi, generazione scalabile
- Parametri aggiuntivi:(Solo API specifica del provider)width, height, prompt_unsampling, seed, safety_toleranceoutput_format
- Standard globale (tutte le aree)

Vedere questa raccolta di modelli nel portale di Microsoft Foundry.

Modelli Cohere venduti direttamente da Azure

La famiglia Cohere di modelli include vari modelli ottimizzati per diversi casi d'uso, inclusi i completamenti delle chat e gli incorporamenti. I modelli Cohere sono ottimizzati per un'ampia gamma di casi d'uso, tra cui motivazione e risposta alla domanda.

Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area) Tipo progetto
Cohere-command-a chat-completion - Input: testo (131.072 token)
- Output: testo (8.182 token)
- Lingue:en, fr, es, it, de, pt-br, ja, ko, zh-cn e ar
- Attivazione degli strumenti:
- Formati di risposta: Testo, JSON
- Standard globale (tutte le aree) Fonderia, basato su hub
embed-v-4-0 embeddings - Input: testo (512 token) e immagini (2MM pixel)
- Output: vettore (256, 512, 1024, 1536 dim.)
- Lingue:en, fr, es, it, de, pt-br, ja, ko, zh-cn e ar
- Standard globale (tutte le aree) Fonderia, basato su hub
Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area)
Cohere-command-a chat-completion - Input: testo (131.072 token)
- Output: testo (8.182 token)
- Lingue:en, fr, es, it, de, pt-br, ja, ko, zh-cn e ar
- Attivazione degli strumenti:
- Formati di risposta: Testo, JSON
- Standard globale (tutte le aree)
embed-v-4-0 embeddings - Input: testo (512 token) e immagini (2MM pixel)
- Output: vettore (256, 512, 1024, 1536 dim.)
- Lingue:en, fr, es, it, de, pt-br, ja, ko, zh-cn e ar
- Standard globale (tutte le aree)

Vedere la raccolta di modelli Cohere nel portale di Foundry.

Modelli DeepSeek venduti direttamente da Azure

La famiglia di modelli DeepSeek include DeepSeek-R1, che eccelle nelle attività di ragionamento usando un processo di training dettagliato, ad esempio linguaggio, ragionamento scientifico e attività di codifica.

Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area) Tipo progetto
DeepSeek-V3.1 chat-completion
(con contenuto di ragionamento)
- Input: testo (131.072 token)
- Output: (131.072 token)
- Lingue:en e zh
- Attivazione degli strumenti:
- Formati di risposta: Testo, JSON
- Standard globale (tutte le aree) Fonderia, basato su hub
DeepSeek-R1-0528 chat-completion
(con contenuto di ragionamento)
- Input: testo (163.840 token)
- Output: (163.840 token)
- Lingue:en e zh
- Chiamata dello strumento: no
- Formati di risposta: testo.
- Standard globale (tutte le aree)
- Con provisioning globale (tutte le aree)
Fonderia, basato su hub
DeepSeek-V3-0324 chat-completion - Input: testo (131.072 token)
- Output: (131.072 token)
- Lingue:en e zh
- Attivazione degli strumenti:
- Formati di risposta: Testo, JSON
- Standard globale (tutte le aree)
- Con provisioning globale (tutte le aree)
Fonderia, basato su hub
DeepSeek-R1 chat-completion
(con contenuto di ragionamento)
- Input: testo (163.840 token)
- Output: (163.840 token)
- Lingue:en e zh
- Chiamata dello strumento: no
- Formati di risposta: testo.
- Standard globale (tutte le aree)
- Con provisioning globale (tutte le aree)
Fonderia, basato su hub
Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area)
DeepSeek-V3.1 chat-completion
(con contenuto di ragionamento)
- Input: testo (131.072 token)
- Output: (131.072 token)
- Lingue:en e zh
- Attivazione degli strumenti:
- Formati di risposta: Testo, JSON
- Standard globale (tutte le aree)
DeepSeek-R1-0528 chat-completion
(con contenuto di ragionamento)
- Input: testo (163.840 token)
- Output: (163.840 token)
- Lingue:en e zh
- Chiamata dello strumento: no
- Formati di risposta: testo.
- Standard globale (tutte le aree)
- Con provisioning globale (tutte le aree)
DeepSeek-V3-0324 chat-completion - Input: testo (131.072 token)
- Output: (131.072 token)
- Lingue:en e zh
- Attivazione degli strumenti:
- Formati di risposta: Testo, JSON
- Standard globale (tutte le aree)
- Con provisioning globale (tutte le aree)
DeepSeek-R1 chat-completion
(con contenuto di ragionamento)
- Input: testo (163.840 token)
- Output: (163.840 token)
- Lingue:en e zh
- Chiamata dello strumento: no
- Formati di risposta: testo.
- Standard globale (tutte le aree)
- Con provisioning globale (tutte le aree)

Vedere questa raccolta di modelli nel portale foundry.

Metamodelli venduti direttamente da Azure

I modelli e gli strumenti Meta Llama sono una raccolta di modelli di intelligenza artificiale generativa preaddestrati e perfezionati per il ragionamento su testo e immagini. L'intervallo dei modelli Meta include:

  • Piccoli modelli linguistici (SLM), ad esempio modelli Base e Instruct 1B e 3B per l'inferenza su dispositivo ed edge
  • Modelli di linguaggio di medie dimensioni (LLMs) come i modelli 7B, 8B e i modelli 70B Base e Instruct.
  • Modelli ad alte prestazioni come Meta Llama 3.1-405B Instruct per casi d'uso di distillazione e generazione di dati sintetici.
Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area) Tipo progetto
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Input: testo e immagini (token 1M)
- Output: testo (1 milione di token)
- Lingue:ar, en, fr, de, hi, id, it, pt, es, tl, th, e vi
- Chiamata dello strumento: no
- Formati di risposta: Testo
- Standard globale (tutte le aree) Fonderia, basato su hub
Llama-3.3-70B-Instruct chat-completion - Input: testo (128.000 token)
- Output: testo (8.192 token)
- Lingue:en, de, fr, it, pt, hi, es, e th
- Chiamata dello strumento: no
- Formati di risposta: Testo
- Standard globale (tutte le aree) Fonderia, basato su hub
Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area)
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Input: testo e immagini (token 1M)
- Output: testo (1 milione di token)
- Lingue:ar, en, fr, de, hi, id, it, pt, es, tl, th, e vi
- Chiamata dello strumento: no
- Formati di risposta: Testo
- Standard globale (tutte le aree)
Llama-3.3-70B-Instruct chat-completion - Input: testo (128.000 token)
- Output: testo (8.192 token)
- Lingue:en, de, fr, it, pt, hi, es, e th
- Chiamata dello strumento: no
- Formati di risposta: Testo
- Standard globale (tutte le aree)

Vedere questa raccolta di modelli nel portale foundry. È anche possibile trovare diversi modelli Meta disponibili da partner e dalla community.

Modelli Microsoft venduti direttamente da Azure

I modelli Microsoft includono vari gruppi di modelli, ad esempio Router modello, modelli MAI, modelli Phi, modelli di intelligenza artificiale per il settore sanitario e altro ancora. Vedere la raccolta di modelli Microsoft nel portale foundry. È anche possibile trovare diversi modelli Microsoft disponibili dai partner e dalla community.

Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area) Tipo progetto
model-router1 chat-completion Per maggiori dettagli, vedere Panoramica del modello di router.
- Input: testo, immagine
- Output: testo (il numero massimo di token di output varia2)
Finestra di contesto: 200.0003
- Lingue:en
- Standard globale (Stati Uniti orientali 2, Svezia centrale)
- Zona dati standard4 (Stati Uniti orientali 2, Svezia centrale)
Fonderia, basato su hub
MAI-DS-R1 chat-completion
(con contenuto di ragionamento)
- Input: testo (163.840 token)
- Output: (163.840 token)
- Lingue:en e zh
- Chiamata dello strumento: no
- Formati di risposta: testo.
- Standard globale (tutte le aree) Fonderia, basato su hub
Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area)
model-router1 chat-completion Per maggiori dettagli, vedere Panoramica del modello di router.
- Input: testo, immagine
- Output: testo (il numero massimo di token di output varia2)
Finestra di contesto: 200.0003
- Lingue:en
- Standard globale (Stati Uniti orientali 2, Svezia centrale)
- Zona dati standard4 (Stati Uniti orientali 2, Svezia centrale)
MAI-DS-R1 chat-completion
(con contenuto di ragionamento)
- Input: testo (163.840 token)
- Output: (163.840 token)
- Lingue:en e zh
- Chiamata dello strumento: no
- Formati di risposta: testo.
- Standard globale (tutte le aree)

1Versione del modello di router2025-11-18. Sono disponibili anche versioni precedenti (2025-08-07 e 2025-05-19).

2Il numero massimo di token di output varia per i modelli sottostanti nell'instradatore dei modelli. Ad esempio, 32.768 (GPT-4.1 series), 100.000 (o4-mini), 128.000 (gpt-5 reasoning models) e 16.384 (gpt-5-chat).

3 Le finestre di contesto più grandi sono compatibili con alcuni dei modelli sottostanti del Model Router. Ciò significa che una chiamata API con un contesto più ampio ha esito positivo solo se il prompt viene indirizzato a uno di questi modelli. In caso contrario, la chiamata non riesce.

4 La fatturazione per le distribuzioni del router Data Zone Standard non inizia prima del 1° novembre 2025.

Modelli Mistral venduti direttamente da Azure

Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area) Tipo progetto
Mistral-Large-3 chat-completion - Input: testo, immagine
- Output: testo
- Lingue:en, fr, de, es, it, pt, nl, zh, ja, ko, e ar
- Attivazione degli strumenti:
- Formati di risposta: Testo, JSON
- Standard globale (Stati Uniti occidentali 3) Fonderia
mistral-document-ai-2505 Da immagine a testo - Input: immagine o pagine PDF (30 pagine, file PDF fino a 30 MB)
- Output: testo
- Lingue:en
- Chiamata dello strumento: no
- Formati di risposta: Text, JSON, Markdown
- Standard globale (tutte le aree)
- Standard della zona dati (Stati Uniti e UE)
Fonderia
Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area)
Mistral-Large-3 chat-completion - Input: testo, immagine
- Output: testo
- Lingue:en, fr, de, es, it, pt, nl, zh, ja, ko, e ar
- Attivazione degli strumenti:
- Formati di risposta: Testo, JSON
- Standard globale (Stati Uniti occidentali 3)
mistral-document-ai-2505 Da immagine a testo - Input: immagine o pagine PDF (30 pagine, file PDF fino a 30 MB)
- Output: testo
- Lingue:en
- Chiamata dello strumento: no
- Formati di risposta: Text, JSON, Markdown
- Standard globale (tutte le aree)
- Standard della zona dati (Stati Uniti e UE)

Vedere la raccolta di modelli Mistral nel portale foundry. È anche possibile trovare diversi modelli Mistral disponibili da partner e dalla community.

Modelli xAI venduti direttamente da Azure

I modelli Grok di xAI in Foundry Models includono un set diversificato di modelli progettati per eccellere in vari domini aziendali con funzionalità e punti di prezzo diversi, tra cui:

  • Grok 3, un modello non ragionante preaddestrato dal datacenter Colossus, è personalizzato per i casi d'uso aziendali, come l'estrazione dei dati, la codifica e il riepilogo del testo, con eccezionali capacità di seguire le istruzioni. Supporta una finestra di contesto di token di 131.072, che consente di gestire input estesi mantenendo coerenza e profondità ed è abile a disegnare connessioni tra domini e lingue.

  • Grok 3 Mini è un modello di ragionamento leggero addestrato per affrontare in autonomia problemi di codifica, matematica e scienza avanzata utilizzando il calcolo in fase di test. Supporta anche una finestra di contesto di token 131.072 per comprendere le codebase e i documenti aziendali ed eccelle nell'uso di strumenti per risolvere problemi logici complessi in nuovi ambienti, offrendo tracce di ragionamento non elaborate per l'ispezione degli utenti con budget di pensiero regolabili.

  • Grok Code Fast 1, un modello di ragionamento rapido ed efficiente progettato per l'uso nelle applicazioni di codifica agentiche. È stato preaddestrato su una combinazione di dati focalizzata sul codice, quindi addestrato ulteriormente su dimostrazioni di varie attività di codifica e utilizzo di strumenti, nonché dimostrazioni di corretti comportamenti di rifiuto in base alla politica di sicurezza di xAI. La registrazione è necessaria per l'accesso al modello grok-code-fast-1.

  • Grok 4 Fast, un modello linguistico ottimizzato per l'efficienza che offre funzionalità di ragionamento near-Grok 4 con una latenza e un costo notevolmente inferiori e può ignorare completamente il ragionamento per applicazioni ultra veloci. È addestrato per l'uso sicuro ed efficace degli strumenti, con comportamenti di rifiuto incorporati, un prompt di sistema fisso che applica la sicurezza e filtri d'input per prevenire l'uso improprio.

  • Grok 4 è il modello di ragionamento più recente di xAI con funzionalità avanzate di ragionamento e uso degli strumenti, consentendo di ottenere nuove prestazioni all'avanguardia tra benchmark accademici e di settore impegnativi. La registrazione è necessaria per l'accesso al modello grok-4.

Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area) Tipo progetto
grok-4 chat-completion - Input: testo, immagine (256.000 token)
- Output: testo (8.192 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree) Fonderia, basato su hub
grok-4-fast-reasoning chat-completion - Input: text, image (2 000 000 tokens)
- Output: testo (2.000.000 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
- Zona dati standard (Stati Uniti)
Fonderia, basato su hub
grok-4-fast-non-reasoning chat-completion - Input: text, image (2 000 000 tokens)
- Output: testo (2.000.000 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
- Zona dati standard (Stati Uniti)
Fonderia, basato su hub
grok-code-fast-1 chat-completion - Input: testo (256.000 token)
- Output: testo (8.192 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree) Fonderia, basato su hub
grok-3 chat-completion - Input: testo (131.072 token)
- Output: testo (131.072 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
- Zona dati standard (Stati Uniti)
Fonderia, basato su hub
grok-3-mini chat-completion - Input: testo (131.072 token)
- Output: testo (131.072 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
- Zona dati standard (Stati Uniti)
Fonderia, basato su hub
Model TIPO Capacità Tipo di distribuzione (disponibilità a livello di area)
grok-4 chat-completion - Input: testo, immagine (256.000 token)
- Output: testo (8.192 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
grok-4-fast-reasoning chat-completion - Input: text, image (2 000 000 tokens)
- Output: testo (2.000.000 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
- Zona dati standard (Stati Uniti)
grok-4-fast-non-reasoning chat-completion - Input: text, image (2 000 000 tokens)
- Output: testo (2.000.000 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
- Zona dati standard (Stati Uniti)
grok-code-fast-1 chat-completion - Input: testo (256.000 token)
- Output: testo (8.192 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
grok-3 chat-completion - Input: testo (131.072 token)
- Output: testo (131.072 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
- Zona dati standard (Stati Uniti)
grok-3-mini chat-completion - Input: testo (131.072 token)
- Output: testo (131.072 token)
- Lingue:en
- Utilizzo degli strumenti:
- Formati di risposta: testo
- Standard globale (tutte le aree)
- Zona dati standard (Stati Uniti)

Vedere la raccolta di modelli xAI nel portale di Foundry.

Disponibilità dell'area del modello in base al tipo di distribuzione

I modelli foundry offrono opzioni per la struttura di hosting adatta ai modelli aziendali e di utilizzo. Il servizio offre due tipi principali di distribuzione:

  • Standard: dispone di un'opzione di distribuzione globale, che instrada il traffico a livello globale per offrire una velocità effettiva più elevata.
  • Con provisioning: anche in questo caso è disponibile un'opzione di distribuzione globale che consente all'utente di acquistare e distribuire unità elaborate con provisioning nell'infrastruttura globale di Azure.

Tutte le distribuzioni eseguono le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni differiscono. Per altre informazioni sui tipi di distribuzione, vedere Tipi di distribuzione in Modelli Foundry.

Disponibilità del modello standard globale

Regione DeepSeek-R1-0528 DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-V3.1 FLUX.1-Kontext-pro FLUX-1.1-pro grok-4 grok-4-fast-reasoning grok-4-fast-non-reasoning grok-code-fast-1 grok-3 grok-3-mini Llama-4-Maverick-17B-128E-Instruct-FP8 Llama-3.3-70B-Instruct MAI-DS-R1 mistral-document-ai-2505
australiaeast
Brasile meridionale
Canada Orientale
eastus
eastus2
francecentral
Germania Centro-Ovest
italynorth
japaneast
coreacentral
northcentralus
Norvegia Est
Polonia Centrale
Sudafrica Nord
southcentralus
India meridionale
spaincentral
SveziaCentral
Svizzera settentrionale
switzerlandwest
uaenorth
uksouth
Europa occidentale
westus
westus3

Aprire e personalizzare i modelli

Il catalogo dei modelli offre una selezione più ampia di modelli da un'ampia gamma di provider. Per questi modelli, non è possibile usare l'opzione per la distribuzione standard nelle risorse di Microsoft Foundry, in cui i modelli vengono forniti come API. Per distribuire questi modelli potrebbe essere necessario ospitarli nell'infrastruttura, creare un hub di intelligenza artificiale e fornire la quota di calcolo sottostante per ospitare i modelli.

Inoltre, questi modelli possono essere protetti con accesso aperto o IP. In entrambi i casi, è necessario distribuirli nelle offerte di calcolo gestite in Foundry. Per iniziare, vedere Procedura: Eseguire la distribuzione nell'ambiente di calcolo gestito.