Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Quando si distribuisce un modello in Microsoft Foundry, si sceglie un tipo di distribuzione che determina:
- Posizione in cui vengono elaborati i dati (globale, zona dati o singola area)
- Modalità di pagamento (pagamento per token o capacità riservata)
- Caratteristiche delle prestazioni (varianza della latenza, limiti di velocità effettiva)
Il servizio offre due categorie principali: standard (con pagamento per token) e provisioning (capacità riservata). All'interno di ogni categoria è possibile scegliere l'elaborazione globale, della zona dati o dell'area in base ai requisiti di conformità.
Importante
Residenza dei dati per tutti i tipi di distribuzione: i dati archiviati inattivi rimangono nell'area geografica di Azure designata. Tuttavia, l'inferenza dei dati viene elaborata come segue:
- Tipi globali : possono essere elaborati in qualsiasi area di Azure
- Tipi di DataZone : elaborati solo all'interno dell'area dati specificata da Microsoft (Stati Uniti o UE)
- Tipi standard/internazionali : elaborati nell'area di distribuzione
Confronto tra tipi di distribuzione
| Tipo di distribuzione | Codice SKU | Elaborazione dati | Fatturazione | Ideale per |
|---|---|---|---|---|
| Standard globale | GlobalStandard |
Qualsiasi area di Azure | Pagamento in base al token | Carichi di lavoro generali, quota più elevata |
| Con provisioning globale | GlobalProvisionedManaged |
Qualsiasi area di Azure | PTU riservato | Larghezza di banda elevata e prevedibile |
| Batch globale | GlobalBatch |
Qualsiasi area di Azure | 50% sconto, 24 ore | Attività asincrone di grandi dimensioni |
| Zona Dati Standard | DataZoneStandard |
All'interno dell'area dati | Pagamento in base al token | Conformità dell'area dati UE/Stati Uniti |
| Zona dati preparata | DataZoneProvisionedManaged |
All'interno dell'area dati | PTU riservato | Zona dati e velocità effettiva prevedibile |
| Batch zona dati | DataZoneBatch |
All'interno dell'area dati | 50% sconto | Processi asincroni di grandi dimensioni con zona dati |
| Standard | Standard |
Singola regione | Pagamento in base al token | Conformità regionale, volume basso |
| Approvvigionato a livello regionale | ProvisionedManaged |
Singola regione | PTU riservato | Conformità regionale e capacità di trasmissione |
| Sviluppatore | DeveloperTier |
Qualsiasi area di Azure | Pagamento in base al token | Valutazione solo di modelli perfezionati |
Annotazioni
Non tutti i modelli supportano tutti i tipi di distribuzione. Controllare la disponibilità dei modelli per tipo di distribuzione e regione nei Modelli Foundry venduti direttamente da Azure.
Annotazioni
Le garanzie del contratto di servizio variano in base al tipo di distribuzione. I tipi di cui è stato effettuato il provisioning offrono una velocità effettiva garantita e una varianza di latenza inferiore. I tipi standard offrono un servizio al meglio delle possibilità. Le distribuzioni degli sviluppatori non includono un contratto di servizio. Per informazioni dettagliate, vedere Il contratto di servizio di Azure per il servizio OpenAI di Azure.
Suggerimento
Per informazioni dettagliate sui prezzi, vedere Prezzi del servizio Azure OpenAI.
Scegliere il tipo di distribuzione corretto
Usare i criteri seguenti per selezionare un tipo di distribuzione:
In base ai requisiti di residenza dei dati
- Nessuna restrizione: usare "Global Standard" o "Global Provisioned"
- Area dati UE: usare DataZone Standard o DataZone Provisionata in un'area dell'UE
- Area dati Stati Uniti: usare DataZone Standard o DataZone Provisioned in una regione degli Stati Uniti
- Solo regione singola: usare il provisioning standard o regionale
In base al modello di carico di lavoro
- Traffico variabile e a scatti: usare Standard o Standard globale (pagamento in base ai token)
- Volume elevato coerente: usare tipi con provisioning (capacità riservata)
- Processi batch di grandi dimensioni (non sensibili al tempo): usare Batch globale o Batch DataZone (50% risparmio sui costi)
- Valutazione del modello ottimizzata: usare Developer (nessun SLA, costo più basso possibile)
Per requisito di latenza
- Varianza di latenza bassa richiesta: usare i tipi con provisioning
- Varianza di latenza accettabile: usare i tipi Standard
Luoghi di elaborazione dati
Per le distribuzioni standard, sono disponibili tre opzioni: globale, zona dati e area geografica di Azure. Per le distribuzioni di cui è stato effettuato il provisioning, sono disponibili due opzioni: globale e geografica di Azure. Global Standard è un punto di partenza comune per la maggior parte dei carichi di lavoro.
Distribuzioni globali
Le distribuzioni globali usano l'infrastruttura globale di Azure per instradare dinamicamente il traffico ai data center disponibili. Le distribuzioni globali offrono i limiti di velocità effettiva iniziali più elevati e la disponibilità più ampia del modello.
Per i carichi di lavoro con volumi elevati, è possibile che si verifichi un aumento della latenza. Se si richiede una varianza di latenza inferiore su larga scala, scegliere i tipi di distribuzione preconfigurati.
Gli implementazioni globali ricevono per primi nuovi modelli e funzionalità.
Implementazioni della Zona Dati
Per i tipi di distribuzione globale , le richieste e le risposte potrebbero essere elaborate in qualsiasi area geografica in cui viene distribuito il modello. Per i tipi di distribuzione DataZone , le richieste e le risposte vengono elaborate solo all'interno dell'area dati specificata:
- Stati Uniti: dati elaborati ovunque negli Stati Uniti
- Unione europea: dati elaborati all'interno di qualsiasi nazione membro dell'UE
Per altre informazioni, vedere la sezione "Disponibilità dell'area del modello per tipo di distribuzione" di Foundry Models venduta direttamente da Azure.
Annotazioni
Con i tipi di distribuzione Standard globale e Standard di Zona dati, se la regione primaria subisce un'interruzione del servizio, tutto il traffico indirizzato inizialmente a questa regione viene influenzato. Per altre informazioni, vedere la guida alla continuità aziendale e al ripristino di emergenza.
Standard globale
- Nome SKU nel codice:
GlobalStandard
Le distribuzioni standard globali usano l'infrastruttura globale di Azure per instradare dinamicamente il traffico ai data center disponibili. Questo tipo di distribuzione fornisce la quota predefinita più elevata ed elimina la necessità di bilanciare il carico tra più risorse.
I clienti con un volume coerente elevato potrebbero riscontrare una maggiore variabilità di latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina sulle quote. Per le applicazioni che richiedono una minore variabilità nella latenza con carichi di lavoro elevati, prendere in considerazione il throughput provisionato.
Global Standard supporta l'elaborazione prioritaria (versione di anteprima) per tempi di risposta più rapidi su un modello a consumo. Per altre informazioni, vedere Elaborazione prioritaria per i modelli Foundry (anteprima).
Fornito globalmente
- Nome SKU nel codice:
GlobalProvisionedManaged
Le distribuzioni con provisioning globale usano l'infrastruttura globale di Azure per instradare dinamicamente il traffico ai data center disponibili. Questo tipo di distribuzione offre una capacità di elaborazione del modello riservata per un throughput prevedibile, combinando il routing globale con una capacità garantita.
Con il throughput con provisioning, si acquista un numero fisso di unità di throughput con provisioning (PTU) che garantiscono un livello specifico di capacità di elaborazione. Questo tipo di distribuzione offre una latenza più bassa e coerente rispetto a Global Standard. Per altre informazioni, vedere Concetti sulla velocità effettiva fornita.
Batch globale
- Nome SKU nel codice:
GlobalBatch
Global Batch gestisce attività di elaborazione su larga scala e con volumi elevati. È possibile elaborare gruppi asincroni di richieste con quota separata e un tempo di risposta di 24 ore, a un costo inferiore del 50% rispetto a Global Standard. Con l'elaborazione batch, anziché inviare una richiesta alla volta, si invia un numero elevato di richieste in un singolo file. Le richieste di Batch globali hanno una quota di token accodata separata, che consente di evitare interruzioni dei carichi di lavoro online.
Casi d'uso comuni:
- Elaborazione dei dati su larga scala: analizzare i set di dati in parallelo.
- Generazione di contenuto: creare volumi elevati di testo, ad esempio descrizioni di prodotti o articoli.
- Revisione e riepilogo dei documenti: elaborare e riepilogare documenti lunghi.
- Automazione del supporto tecnico: gestire contemporaneamente numerose query.
- Estrazione e analisi dei dati: estrarre e analizzare informazioni da grandi quantità di dati non strutturati.
- Attività di elaborazione del linguaggio naturale (NLP): Eseguire analisi del sentimento o traduzione su set di dati di grandi dimensioni.
Annotazioni
Le distribuzioni batch scambiano velocità di risposta in tempo reale per risparmiare sui costi. Le richieste batch non hanno un contratto di servizio in tempo reale. Il completamento è previsto entro 24 ore, ma potrebbe richiedere più tempo.
Zona dati standard
- Nome SKU nel codice:
DataZoneStandard
Le distribuzioni di Data Zone Standard instradano dinamicamente il traffico ai data center all'interno della zona dati definita da Microsoft (Stati Uniti o UE). Questo tipo di distribuzione fornisce quote predefinite superiori rispetto ai tipi di distribuzione basati su geografia mantenendo i dati all'interno della zona specificata.
I clienti con un volume coerente elevato potrebbero riscontrare una maggiore variabilità di latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina quote e limiti. Per i carichi di lavoro che richiedono una bassa varianza della latenza con grandi volumi, prendere in considerazione i tipi di distribuzione provisionati.
Data Zone Standard supporta l'elaborazione prioritaria (anteprima), per tempi di risposta più rapidi a consumo. Per altre informazioni, vedere Elaborazione prioritaria per i modelli Foundry (anteprima).
Zona dati fornita
- Nome SKU nel codice:
DataZoneProvisionedManaged
Le distribuzioni provisionate della zona dati instradano dinamicamente il traffico all'interno della zona dati specificata da Microsoft (Stati Uniti o UE) fornendo al tempo stesso capacità di elaborazione del modello riservata. Questo tipo di distribuzione combina la conformità delle zone dati con un'elevata larghezza di banda e prevedibilità.
Batch area dati
- Nome SKU nel codice:
DataZoneBatch
Le distribuzioni batch di zona dati offrono le stesse funzionalità di Global Batch, tra cui 50% risparmio sui costi e turnaround di 24 ore. Il traffico viene instradato solo ai data center all'interno della zona dati definita da Microsoft (Stati Uniti o UE).
Normale
- Nome SKU nel codice:
Standard
Le distribuzioni standard usano la fatturazione con pagamento in base al token. Si paga solo per ciò che si consuma. I modelli disponibili in ogni regione e capacità di trasmissione potrebbero essere limitati.
Le distribuzioni standard sono adatte per carichi di lavoro con volumi da bassi a medi con un'elevata variabilità. I clienti con un volume coerente elevato potrebbero riscontrare una maggiore variabilità di latenza.
Provvisto a livello regionale
- Nome SKU nel codice:
ProvisionedManaged
Le distribuzioni regionali provisionate consentono di specificare la quantità di throughput necessaria per una distribuzione. Il servizio alloca quindi la capacità di elaborazione del modello necessaria e garantisce che sia pronta per l'utente. La velocità effettiva è definita in termini di unità di throughput fornite (PTU), che è un modo standardizzato per rappresentare il throughput per la distribuzione. Ogni coppia di versioni del modello richiede quantità diverse di PTU da distribuire e fornisce quantità diverse di velocità effettiva per PTU. I requisiti PTU minimi variano in base al modello. Per i minimi correnti e la capacità disponibile, vedere Concetti relativi alla velocità effettiva con provisioning.
Sviluppatore (per modelli ottimizzati)
- Nome SKU nel codice:
DeveloperTier
Il tipo di distribuzione Developer è progettato solo per una valutazione accurata del modello. Fornisce test convenienti dei modelli personalizzati, ma non include garanzie di residenza dei dati o un contratto di servizio. Le distribuzioni degli sviluppatori hanno una durata fissa di 24 ore e vengono eliminate automaticamente dopo la scadenza. Per altre informazioni sull'uso del tipo di distribuzione Developer, vedere la guida all'ottimizzazione.
Risoluzione dei problemi di distribuzione
Problemi comuni durante la creazione o l'uso delle distribuzioni:
| Problema | Motivo | Risoluzione |
|---|---|---|
| Tipo di distribuzione non disponibile | Il modello non supporta il tipo selezionato | Controllare la disponibilità del modello in base al tipo di distribuzione |
| Quota superata | Limite di sottoscrizione raggiunto per i token al minuto | Richiedere l'aumento della quota nel portale di Azure o usare un'area diversa |
| Area non disponibile | Modello non distribuito nell'area selezionata | Selezionare un'area dall'elenco di disponibilità del modello |
| Capacità con provisioning non disponibile | Nessuna capacità PTU nell'area | Provare un'area diversa o usare Provisioning globale per una disponibilità più ampia |
Per i limiti di quota a seconda del tipo di distribuzione, vedere Foundry Models quotas and limits.
Limitare i tipi di distribuzione con Criteri di Azure
Criteri di Azure consente di imporre standard aziendali e di valutare la conformità su larga scala. Tramite il dashboard di conformità, è possibile valutare lo stato complessivo dell'ambiente ed eseguire il drill-down in base alla granularità per risorsa e ai criteri. Il Criterio di Azure supporta anche il rimedio in blocco per le risorse esistenti e il rimedio automatico per le nuove risorse. Scopri di più su Azure Policy e sui controlli predefiniti specifici per gli strumenti Foundry.
Utilizza la seguente politica per disabilitare l'accesso a uno specifico tipo di distribuzione di Foundry. Sostituire GlobalStandard con il nome dello SKU per il tipo di distribuzione che si vuole limitare.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Contenuti correlati
- Distribuire i modelli di Microsoft Foundry nel portale foundry
- Creare e distribuire un'Azure OpenAI nella risorsa Microsoft Foundry Models
- Modelli foundry venduti direttamente da Azure
- Disponibilità dell'area del modello in base al tipo di distribuzione
- Quote e limiti dei modelli Di Microsoft Foundry
- Concetti di throughput provisionato
- Elaborazione batch globale
- Prezzi del Servizio Azure OpenAI
- Privacy e sicurezza dei dati per i modelli Foundry
- Continuità aziendale e ripristino di emergenza