Tipi di distribuzione OpenAI di Azure
Azure OpenAI offre ai clienti opzioni sulla struttura di hosting che si adattano ai modelli di business e di utilizzo. Il servizio offre due tipi principali di distribuzione: standard e con provisioning. Standard è disponibile con un'opzione di distribuzione globale, instradando il traffico a livello globale per offrire una velocità effettiva più elevata. Tutte le distribuzioni possono eseguire esattamente le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni sono sostanzialmente diverse. Come parte della progettazione della soluzione, è necessario prendere due decisioni chiave:
- Esigenze di residenza dei dati: risorse globali e regionali
- Volume di chiamate: standard e con provisioning
Tipi di distribuzione globali e regionali
Per le distribuzioni standard è possibile scegliere due tipi di configurazioni all'interno della risorsa, ovvero globale o a livello di area. Lo standard globale è il punto di partenza consigliato per lo sviluppo e la sperimentazione. Le distribuzioni globali sfruttano l'infrastruttura globale di Azure, indirizzano dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Con le distribuzioni globali esistono limiti di velocità effettiva iniziali più elevati, anche se la latenza può variare a livelli di utilizzo elevati. Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.
Le distribuzioni globali saranno la prima posizione per tutti i nuovi modelli e funzionalità. I clienti con requisiti di velocità effettiva molto elevati devono considerare l'offerta di distribuzione con provisioning.
Tipi distribuzione
Azure OpenAI offre tre tipi di distribuzioni. Questi offrono un livello di funzionalità vario che offrono compromessi su: velocità effettiva, contratti di servizio e prezzo. Di seguito è riportato un riepilogo delle opzioni seguite da una descrizione più approfondita di ognuna.
Offerta | Global-Standard1 | Standard | Provisioning eseguito |
---|---|---|---|
Ideale per | Applicazioni che non richiedono la residenza dei dati. Punto di partenza consigliato per i clienti. | Per i clienti con requisiti di residenza dei dati. Ottimizzato per un volume da basso a medio. | Assegnazione dei punteggi in tempo reale per volumi coerenti di grandi dimensioni. Include gli impegni e i limiti più elevati. |
Funzionamento | Il traffico può essere instradato ovunque nel mondo | ||
Informazioni generali | Distribuzione di modelli | Distribuzione di modelli | Onboarding con provisioning |
Costii | Baseline | Prezzi a livello di area | Può verificarsi un risparmio sui costi per un utilizzo coerente |
Cosa si ottiene | Facile accesso a tutti i nuovi modelli con limiti di pagamento per chiamata predefiniti più elevati. I clienti con un utilizzo elevato del volume possono vedere una variabilità di latenza più elevata |
Facile accesso con il contratto di servizio sulla disponibilità. Ottimizzato per carichi di lavoro da basso a medio volume con un'elevata burstiness. I clienti con un volume coerente elevato possono riscontrare una maggiore variabilità di latenza. |
Accesso a livello di area con velocità effettiva molto elevata e prevedibile. Determinare la velocità effettiva per PTU usando il calcolatore della capacità fornito |
Cosa non si ottiene | ❌Garanzie di residenza dei dati | ❌Bassa latenza elevata w/coerente del volume | ❌Flessibilità con pagamento per chiamata |
Latenza per chiamata | Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio volume. I clienti con un utilizzo elevato del volume possono vedere una variabilità di latenza più elevata. Set di soglie per modello | Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio volume. I clienti con un utilizzo elevato del volume possono vedere una variabilità di latenza più elevata. Set di soglie per modello | Ottimizzato per il tempo reale. |
Nome sku nel codice | GlobalStandard |
Standard |
ProvisionedManaged |
Modello di fatturazione | Pagamento in base al token | Pagamento in base al token | Impegni mensili |
1 Il tipo di distribuzione Global-Standard è attualmente in anteprima.
Sottoposto a provisioning
Le distribuzioni con provisioning consentono di specificare la quantità di velocità effettiva necessaria in una distribuzione. Il servizio alloca quindi la capacità di elaborazione del modello necessaria e garantisce che sia pronta per l'utente. La velocità effettiva è definita in termini di unità elaborate con provisioning (PTU) che rappresenta la velocità effettiva per la distribuzione. Ogni coppia di versioni del modello richiede quantità diverse di PTU per distribuire e fornire quantità diverse di velocità effettiva per PTU. Per altre informazioni, vedere l'articolo Concetti relativi alla velocità effettiva con provisioning.
Standard
Le distribuzioni standard forniscono un modello di fatturazione con pagamento in base alla chiamata nel modello scelto. Fornisce il modo più rapido per iniziare a pagare solo per ciò che si utilizza. I modelli disponibili in ogni area e la velocità effettiva possono essere limitati.
Le distribuzioni standard sono ottimizzate per carichi di lavoro da basso a medio volume con un'elevata burstiness. I clienti con un volume coerente elevato possono riscontrare una maggiore variabilità di latenza.
Standard globale (anteprima)
Le distribuzioni globali sono disponibili nelle stesse risorse OpenAI di Azure offerte non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Lo standard globale fornirà la quota predefinita più elevata per i nuovi modelli ed elimina la necessità di bilanciare il carico tra più risorse.
Il tipo di distribuzione è ottimizzato per carichi di lavoro da basso a medio volume con un'elevata burstiness. I clienti con un volume coerente elevato possono riscontrare una maggiore variabilità di latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina quote.
Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.
Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione
Criteri di Azure consente di imporre standard aziendali e di valutare la conformità su larga scala. Il dashboard di conformità fornisce una visualizzazione aggregata per valutare lo stato complessivo dell'ambiente, con la possibilità di eseguire il drill-down con granularità per risorsa e per criterio. Consente inoltre di ottenere la conformità delle risorse tramite la correzione in blocco per le risorse esistenti e la correzione automatica per le nuove risorse. Altre informazioni su Criteri di Azure e controlli predefiniti specifici per i servizi di intelligenza artificiale.
È possibile usare i criteri seguenti per disabilitare l'accesso alle distribuzioni standard globali di Azure OpenAI.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Distribuire i modelli
Per informazioni sulla creazione di risorse e sulla distribuzione di modelli, vedere la guida alla creazione di risorse.
Vedi anche
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per