Tipi di distribuzione per i modelli di Azure AI Foundry

2025-06-05

I modelli di Azure AI Foundry rendono disponibili i modelli usando il concetto di distribuzione del modello nei servizi Azure AI Foundry (in precedenza noti servizi di intelligenza artificiale di Azure). Le distribuzioni di modelli sono anche risorse di Azure e, al momento della creazione, forniscono l'accesso a un determinato modello in determinate configurazioni. Tale configurazione include l'infrastruttura necessaria per elaborare le richieste.

I modelli di Azure AI Foundry offrono ai clienti scelte sulla struttura di hosting che si adattano ai modelli di business e di utilizzo. Queste opzioni vengono convertite in diversi tipi di distribuzioni (o SKU) disponibili in fase di distribuzione del modello nella risorsa Azure AI Foundry. Il servizio offre due tipi principali di distribuzioni: standard e provisionato. Per un determinato tipo di distribuzione, i clienti possono allineare i carichi di lavoro ai requisiti di elaborazione dei dati scegliendo un'area geografica di Azure ( o Standard), area dati specificata da Microsoft (Provisioned-ManagedDataZone-Standard o DataZone Provisioned-Managed) o globale (Global-Standard o Global Provisioned-Managed) opzioni di elaborazione.

Per i modelli ottimizzati, un tipo di distribuzione aggiuntivo Developer offre un mezzo conveniente per la valutazione del modello personalizzato, ma senza residenza dei dati.

Tutte le distribuzioni possono eseguire esattamente le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni sono sostanzialmente diverse. Come parte della progettazione della soluzione, è necessario prendere due decisioni chiave:

Posizione per l'elaborazione dati
Volume di chiamata

Ubicazioni di elaborazione dei dati per l'implementazione di Azure AI Foundry

Per le distribuzioni standard, sono disponibili tre opzioni per il tipo di distribuzione tra cui scegliere: globale, zona dati e area geografica di Azure. Per le distribuzioni di cui è stato effettuato il provisioning, sono disponibili due opzioni per il tipo di distribuzione tra cui scegliere: globale e area geografica di Azure. Lo standard globale è il punto di partenza consigliato.

Le distribuzioni globali sfruttano l'infrastruttura globale di Azure per instradare dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Ciò significa che si otterranno i limiti di velocità effettiva iniziali più elevati e la migliore disponibilità dei modelli con Globale pur continuando a usufruire del contratto di servizio per il tempo di attività e la bassa latenza. Per carichi di lavoro con volumi elevati superiori ai livelli di utilizzo specificati in Standard e Standard globale, è possibile che la variazione della latenza risulti maggiore. Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile sfruttare i tipi di distribuzione di cui è stato effettuato il provisioning.

Le distribuzioni globali saranno la prima posizione per tutti i nuovi modelli e funzionalità. A seconda del volume delle chiamate, i clienti con volumi elevati e requisiti di varianza a bassa latenza devono considerare i tipi di distribuzione di cui è stato effettuato il provisioning.

Le distribuzioni della zona dati sfruttano l'infrastruttura globale di Azure per instradare dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente all'interno dell'area dati definita da Microsoft. Posizionati tra le offerte di distribuzione geografica di Azure e globale, le distribuzioni di zone dati offrono limiti di quota elevati mantenendo al tempo stesso l'elaborazione dei dati all'interno dell'area dati specificata da Microsoft. I dati archiviati a riposo continueranno a rimanere nella geografia della risorsa Azure AI Foundry (ad esempio, per una risorsa di AI Foundry creata nell'area Azure Svezia Centrale, l'area geografica di Azure è Svezia).

Se la risorsa Azure AI Foundry usata nella distribuzione della zona dati si trova negli Stati Uniti, i dati verranno elaborati all'interno degli Stati Uniti. Se la risorsa Azure AI Foundry usata nella distribuzione della zona dati si trova in una nazione membro dell'Unione europea, i dati verranno elaborati all'interno delle aree geografiche nazione membro dell'Unione europea. Per tutti i tipi di distribuzione di Azure AI Foundry, tutti i dati archiviati inattivi continueranno a rimanere nella geografia della risorsa Azure AI Foundry. Gli impegni di elaborazione e conformità dei dati di Azure rimangono applicabili.

Per qualsiasi tipo di distribuzione con etichetta "Globale", le richieste e le risposte possono essere elaborate in qualsiasi area geografica in cui viene distribuito il modello di Azure AI Foundry pertinente (altre informazioni sulla disponibilità dell'area dei modelli). Per qualsiasi tipo di distribuzione etichettato come "DataZone", le richieste e le risposte possono essere elaborate in qualsiasi area geografica all'interno della zona dati specificata, come definito da Microsoft. Se si crea una distribuzione di DataZone in una risorsa di Azure AI Foundry che si trova negli Stati Uniti, è possibile elaborare richieste e risposte ovunque negli Stati Uniti. Se si crea una distribuzione di DataZone in una risorsa di Azure AI Foundry che si trova in una nazione membro dell'Unione europea, è possibile elaborare richieste e risposte in tale paese o in qualsiasi altra nazione membro dell'Unione europea. Per i tipi di distribuzione Global e DataZone, tutti i dati archiviati inattivi, ad esempio i dati caricati, vengono archiviati nell'area geografica designata dal cliente. Solo la posizione di elaborazione è interessata quando un cliente usa un tipo di distribuzione globale o un tipo di distribuzione DataZone nella risorsa Azure AI Foundry; Gli impegni di elaborazione e conformità dei dati di Azure rimangono applicabili.

Annotazioni

Con i tipi di distribuzione Standard globale e Zona dati standard se l'area primaria subisce un'interruzione del servizio, tutto il traffico inizialmente instradato a questa area verrà interessato. Per altre informazioni, vedere la guida alla continuità aziendale e al ripristino di emergenza.

Standard globale

Importante

I dati archiviati a riposo rimangono nella regione di Azure designata, mentre i dati possono essere elaborati per inferenza in qualsiasi sito di Azure AI Foundry. Altre informazioni sulla residenza dei dati.

Nome SKU nel codice:GlobalStandard

Le distribuzioni globali sono disponibili nelle stesse risorse di Azure AI Foundry dei tipi di distribuzione non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Lo standard globale fornisce la quota predefinita più elevata ed elimina la necessità di bilanciare il carico tra più risorse.

I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina sulle quote. Per le applicazioni che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.

Con provisioning globale

Importante

Nome SKU nel codice:GlobalProvisionedManaged

Le distribuzioni globali sono disponibili nelle stesse risorse di Azure AI Foundry dei tipi di distribuzione non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Le distribuzioni con provisioning globale offrono capacità di elaborazione dei modelli riservata per una velocità effettiva elevata e prevedibile tramite l'infrastruttura globale di Azure.

Batch globale

Importante

Batch globale è progettato per gestire in modo efficiente le attività di elaborazione su larga scala e con volumi elevati. Elaborare gruppi asincroni di richieste con quota separata, con turnaround di destinazione di 24 ore, con un costo inferiore del 50% rispetto allo standard globale. Con l'elaborazione in batch, anziché inviare una richiesta alla volta si inviano diverse richieste in un singolo file. Le richieste in batch globale hanno una quota di token accodata separata evitando eventuali interruzioni dei carichi di lavoro online.

Nome SKU nel codice:GlobalBatch

I principali casi d'uso sono:

Elaborazione dei dati su larga scala: analizzare rapidamente grandi set di dati in parallelo.
Generazione di contenuti: creare grandi volumi di testo, ad esempio descrizioni di prodotti o articoli.
Revisione e riepilogo dei documenti: automatizzare la revisione e il riepilogo dei documenti lunghi.
Automazione del supporto tecnico per i clienti: gestire contemporaneamente numerose query per risposte più veloci.
Estrazione e analisi dei dati: estrarre e analizzare informazioni da grandi quantità di dati non strutturati.
Attività di elaborazione del linguaggio naturale (NLP): eseguire attività come l'analisi o la traduzione del sentiment su set di dati di grandi dimensioni.
Marketing e personalizzazione: generazione di contenuti e raccomandazioni personalizzati su larga scala.

Standard della zona dati

Importante

I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di Azure AI Foundry all'interno dell'area dati specificata da Microsoft. Altre informazioni sulla residenza dei dati.

Nome SKU nel codice:DataZoneStandard

Le distribuzioni standard della zona dati sono disponibili nella stessa risorsa di Azure AI Foundry di tutti gli altri tipi di distribuzione di Azure AI Foundry, ma consente di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center all'interno della zona dati definita da Microsoft con la migliore disponibilità per ogni richiesta. Lo standard della zona dati offre quote predefinite più elevate rispetto ai tipi di distribuzione basati sull'area geografica di Azure.

I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina Quote e limiti . Per i carichi di lavoro che richiedono una varianza a bassa latenza in un volume elevato, è consigliabile sfruttare le offerte di distribuzione di cui è stato effettuato il provisioning.

Area dati di cui è stato effettuato il provisioning

Importante

Nome SKU nel codice:DataZoneProvisionedManaged

Le distribuzioni con provisioning della zona dati sono disponibili nella stessa risorsa di Azure AI Foundry di tutti gli altri tipi di distribuzione di Azure AI Foundry, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center all'interno della zona dati specificata da Microsoft con la migliore disponibilità per ogni richiesta. Le distribuzioni con provisioning dell'area dati offrono capacità di elaborazione del modello riservata per una velocità effettiva elevata e prevedibile usando l'infrastruttura di Azure all'interno dell'area dati specificata da Microsoft.

Batch della zona dati

Importante

Nome SKU nel codice:DataZoneBatch

Le distribuzioni batch di zona dati offrono tutte le stesse funzionalità delle distribuzioni batch globali, consentendo allo stesso tempo di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico solo ai data center all'interno della zona dati definita da Microsoft con la migliore disponibilità per ogni richiesta.

Normale

Nome SKU nel codice:Standard

Le distribuzioni standard forniscono un modello di fatturazione con pagamento in base alla chiamata nel modello scelto. Fornisce il modo più rapido per iniziare, poiché si paga solo per ciò che si utilizza. I modelli disponibili in ogni area e la velocità effettiva possono essere limitati.

Le distribuzioni standard sono ottimizzate per carichi di lavoro con volumi da bassi a medi con un'elevata possibilità di burst. I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza.

Provvisto a livello regionale

Nome SKU nel codice:ProvisionedManaged

Le distribuzioni regionali con provisioning consentono di specificare la quantità di capacità di trasferimento necessaria in una distribuzione. Il servizio alloca quindi la capacità di elaborazione del modello necessaria e garantisce che sia pronta per l'utente. La velocità effettiva è definita in termini di unità elaborate con provisioning (PTU), ovvero un modo normalizzato per rappresentare la velocità effettiva per la distribuzione. Ogni coppia versione-modello richiede quantità diverse di PTU per distribuire e fornire quantità diverse di velocità effettiva per PTU. Per altre informazioni, vedere l'articolo Concetti relativi alla velocità effettiva con provisioning.

Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione

Criteri di Azure consente di imporre standard aziendali e di valutare la conformità su larga scala. Il dashboard di conformità fornisce una visualizzazione aggregata per valutare lo stato complessivo dell'ambiente, con la possibilità di eseguire il drill-down con granularità per risorsa e per criterio. Consente inoltre di ottenere la conformità delle risorse tramite la correzione in blocco per le risorse esistenti e la correzione automatica per le nuove risorse. Altre informazioni su Criteri di Azure e sui controlli predefiniti specifici per i servizi di intelligenza artificiale.

È possibile usare i criteri seguenti per disabilitare l'accesso a qualsiasi tipo di distribuzione Azure AI Foundry. Per disabilitare l'accesso a un tipo di distribuzione specifico, sostituire GlobalStandard con il nome sku per il tipo di distribuzione a cui si vuole disabilitare l'accesso.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Sviluppatore (per modelli ottimizzati)

Importante

Nome SKU nel codice:Developer

I modelli ottimizzati supportano una distribuzione per sviluppatori specificamente progettata per supportare la valutazione del modello personalizzato. Non offre garanzie di residenza dei dati né offre un contratto di servizio. Per altre informazioni sull'uso del tipo di distribuzione Developer, vedere la guida all'ottimizzazione.

Distribuire i modelli

Screenshot che mostra la finestra di dialogo di distribuzione del modello nel portale di Azure AI Foundry con tre tipi di distribuzione evidenziati.

Per informazioni sulla creazione di risorse e sulla distribuzione dei modelli, vedere la guida alla creazione di risorse.

Condividi tramite

Tipi di distribuzione per i modelli di Azure AI Foundry

Ubicazioni di elaborazione dei dati per l'implementazione di Azure AI Foundry

Standard globale

Con provisioning globale

Batch globale

Standard della zona dati

Area dati di cui è stato effettuato il provisioning

Batch della zona dati

Normale

Provvisto a livello regionale

Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione

Sviluppatore (per modelli ottimizzati)

Distribuire i modelli

Vedi anche

Commenti e suggerimenti

Risorse aggiuntive