Condividi tramite


Tipi di distribuzione OpenAI di Azure

Azure OpenAI offre ai clienti opzioni sulla struttura di hosting che si adattano ai modelli di business e di utilizzo. Il servizio offre due tipi principali di distribuzione: standard e con provisioning. Standard è disponibile con un'opzione di distribuzione globale, instradando il traffico a livello globale per offrire una velocità effettiva più elevata. Tutte le distribuzioni possono eseguire esattamente le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni sono sostanzialmente diverse. Come parte della progettazione della soluzione, è necessario prendere due decisioni chiave:

  • Esigenze di residenza dei dati: risorse globali e regionali
  • Volume di chiamate: standard e con provisioning

Tipi di distribuzione globali e regionali

Per le distribuzioni standard è possibile scegliere due tipi di configurazioni all'interno della risorsa, ovvero globale o a livello di area. Lo standard globale è il punto di partenza consigliato per lo sviluppo e la sperimentazione. Le distribuzioni globali sfruttano l'infrastruttura globale di Azure, indirizzano dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Con le distribuzioni globali esistono limiti di velocità effettiva iniziali più elevati, anche se la latenza può variare a livelli di utilizzo elevati. Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.

Le distribuzioni globali saranno la prima posizione per tutti i nuovi modelli e funzionalità. I clienti con requisiti di velocità effettiva molto elevati devono considerare l'offerta di distribuzione con provisioning.

Tipi distribuzione

Azure OpenAI offre tre tipi di distribuzioni. Questi offrono un livello di funzionalità vario che offrono compromessi su: velocità effettiva, contratti di servizio e prezzo. Di seguito è riportato un riepilogo delle opzioni seguite da una descrizione più approfondita di ognuna.

Offerta Global-Standard1 Standard Provisioning eseguito
Ideale per Applicazioni che non richiedono la residenza dei dati. Punto di partenza consigliato per i clienti. Per i clienti con requisiti di residenza dei dati. Ottimizzato per un volume da basso a medio. Assegnazione dei punteggi in tempo reale per volumi coerenti di grandi dimensioni. Include gli impegni e i limiti più elevati.
Funzionamento Il traffico può essere instradato ovunque nel mondo
Informazioni generali Distribuzione di modelli Distribuzione di modelli Onboarding con provisioning
Costii Baseline Prezzi a livello di area Può verificarsi un risparmio sui costi per un utilizzo coerente
Cosa si ottiene Facile accesso a tutti i nuovi modelli con limiti di pagamento per chiamata predefiniti più elevati.

I clienti con un utilizzo elevato del volume possono vedere una variabilità di latenza più elevata
Facile accesso con il contratto di servizio sulla disponibilità. Ottimizzato per carichi di lavoro da basso a medio volume con un'elevata burstiness.

I clienti con un volume coerente elevato possono riscontrare una maggiore variabilità di latenza.
Accesso a livello di area con velocità effettiva molto elevata e prevedibile. Determinare la velocità effettiva per PTU usando il calcolatore della capacità fornito
Cosa non si ottiene ❌Garanzie di residenza dei dati ❌Bassa latenza elevata w/coerente del volume ❌Flessibilità con pagamento per chiamata
Latenza per chiamata Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio volume. I clienti con un utilizzo elevato del volume possono vedere una variabilità di latenza più elevata. Set di soglie per modello Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio volume. I clienti con un utilizzo elevato del volume possono vedere una variabilità di latenza più elevata. Set di soglie per modello Ottimizzato per il tempo reale.
Nome sku nel codice GlobalStandard Standard ProvisionedManaged
Modello di fatturazione Pagamento in base al token Pagamento in base al token Impegni mensili

1 Il tipo di distribuzione Global-Standard è attualmente in anteprima.

Sottoposto a provisioning

Le distribuzioni con provisioning consentono di specificare la quantità di velocità effettiva necessaria in una distribuzione. Il servizio alloca quindi la capacità di elaborazione del modello necessaria e garantisce che sia pronta per l'utente. La velocità effettiva è definita in termini di unità elaborate con provisioning (PTU) che rappresenta la velocità effettiva per la distribuzione. Ogni coppia di versioni del modello richiede quantità diverse di PTU per distribuire e fornire quantità diverse di velocità effettiva per PTU. Per altre informazioni, vedere l'articolo Concetti relativi alla velocità effettiva con provisioning.

Standard

Le distribuzioni standard forniscono un modello di fatturazione con pagamento in base alla chiamata nel modello scelto. Fornisce il modo più rapido per iniziare a pagare solo per ciò che si utilizza. I modelli disponibili in ogni area e la velocità effettiva possono essere limitati.

Le distribuzioni standard sono ottimizzate per carichi di lavoro da basso a medio volume con un'elevata burstiness. I clienti con un volume coerente elevato possono riscontrare una maggiore variabilità di latenza.

Standard globale (anteprima)

Le distribuzioni globali sono disponibili nelle stesse risorse OpenAI di Azure offerte non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Lo standard globale fornirà la quota predefinita più elevata per i nuovi modelli ed elimina la necessità di bilanciare il carico tra più risorse.

Il tipo di distribuzione è ottimizzato per carichi di lavoro da basso a medio volume con un'elevata burstiness. I clienti con un volume coerente elevato possono riscontrare una maggiore variabilità di latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina quote.

Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.

Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione

Criteri di Azure consente di imporre standard aziendali e di valutare la conformità su larga scala. Il dashboard di conformità fornisce una visualizzazione aggregata per valutare lo stato complessivo dell'ambiente, con la possibilità di eseguire il drill-down con granularità per risorsa e per criterio. Consente inoltre di ottenere la conformità delle risorse tramite la correzione in blocco per le risorse esistenti e la correzione automatica per le nuove risorse. Altre informazioni su Criteri di Azure e controlli predefiniti specifici per i servizi di intelligenza artificiale.

È possibile usare i criteri seguenti per disabilitare l'accesso alle distribuzioni standard globali di Azure OpenAI.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Distribuire i modelli

Screenshot che mostra la finestra di dialogo di distribuzione del modello in Azure OpenAI Studio con tre tipi di distribuzione evidenziati.

Per informazioni sulla creazione di risorse e sulla distribuzione di modelli, vedere la guida alla creazione di risorse.

Vedi anche