Costi e fatturazione delle unità di throughput previste (PTU)

Usare questo articolo per apprendere i costi associati alle unità elaborate con provisioning (PTU). Per una panoramica dell'offerta di throughput assegnato, vedere Informazioni sul throughput assegnato. Quando si è pronti per iscriversi all'offerta di velocità effettiva con provisioning, vedere la guida introduttiva.

Nota

Nei casi d'uso delle chiamate di funzione e dell'agente, l'uso dei token può essere variabile. È necessario comprendere in dettaglio l'uso dei token al minuto (TPM) prima di eseguire la migrazione dei carichi di lavoro a PTU.

Unità elaborate con provisioning (PTU)

Le unità elaborate con provisioning (PTU) sono unità generiche di capacità di elaborazione del modello usate per ridimensionare le distribuzioni con provisioning per ottenere la velocità effettiva richiesta per l'elaborazione dei prompt e la generazione di completamenti. Le unità di throughput con provisioning vengono concesse a una sottoscrizione come limite di quota. Ogni quota è specifica di un'area e definisce il numero massimo di PTU che possono essere assegnate alle distribuzioni in tale sottoscrizione e area.

Fatturazione della velocità effettiva con provisioning

Microsoft Foundry Regional Provisioned ThroughputData Zone Provisioned Throughput e Global Provisioned Throughput vengono fatturati ogni ora in base al numero di PTU distribuiti, con uno sconto a lungo termine disponibile tramite l'acquisto di prenotazioni Azure.

Il modello di fatturazione oraria è utile per le esigenze di distribuzione a breve termine, ad esempio la convalida di nuovi modelli o l'acquisizione della capacità per un hackathon.  Tuttavia, gli sconti offerti dalla prenotazione Azure per foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned sono notevoli e la maggior parte dei clienti con utilizzo a lungo termine coerente troverà un modello riservato per essere una proposta di valore migliore.

Le prenotazioni Azure sono un costrutto di sconto finanziario applicato ai contatori di fatturazione, non alle interazioni con i servizi (come la distribuzione). Le prenotazioni e le distribuzioni sono accoppiate in modo libero per offrire flessibilità. Le distribuzioni e le prenotazioni vengono create o eliminate in modo indipendente. Questo approccio consente di modificare risorse, sottoscrizioni o distribuzioni senza modificare il costrutto di fatturazione.

Ordine consigliato di operazioni per evitare addebiti indesiderati:

  1. Usare Foundry per distribuire il modello in un'area con quota disponibile. Questo passaggio conferma l'esistenza della capacità, poiché la quota non è uguale alla capacità.
  2. Dopo la distribuzione, condividere con l'amministratore i dettagli della distribuzione, incluso il tipo di distribuzione (globale provisionato, zona dati provisionata, o regione provisionata), regione e sottoscrizione.
  3. L'amministratore usa questi dettagli per acquistare una nuova prenotazione corrispondente ai dettagli della distribuzione o verificare che una prenotazione esistente corrisponda, per ricevere la tariffa scontata.

Nota

I clienti con provisioning Foundry di cui è stato eseguito l'onboarding prima dell'aggiornamento self-service di agosto usano un modello di acquisto denominato Modello di impegno. Questi clienti possono continuare a utilizzare questo modello di acquisto più vecchio insieme al modello di acquisto orario/su prenotazione. Il modello Impegno non è disponibile per i nuovi clienti o per alcuni nuovi modelli introdotti dopo agosto 2024. Per informazioni dettagliate sul modello di acquisto a impegno e sulle opzioni per la coesistenza e la migrazione, vedere l'Aggiornamento di agosto di Foundry con provisioning.

Quota indipendente dal modello

A differenza della quota Token Per Minuto (TPM) utilizzata da altre offerte di fonderia, i PTU sono indipendenti dal modello. Le PTU possono essere usate per distribuire tutti i modelli supportati ospitati e venduti direttamente da Microsoft nell'area.

Diagramma della quota indipendente dal modello con un pool di PTUs disponibili per più modelli Azure OpenAI.

La quota per le distribuzioni con provisioning viene visualizzata in Foundry come tipi di distribuzione seguenti: con provisioning globale, zona dati con provisioning e provisioning a livello di area.

Nota

La quota non garantisce la capacità. Distribuisci il tuo modello in Foundry prima di acquistare una prenotazione adeguata nel portale di Azure.

tipo di distribuzione Nome quota
Provisionamento regionale Unita elaborate con provisioning a livello di area
Provisionato globalmente Unità di Capacità Provisionata Globale
Zona dati con provisioning Unità elaborate con provisioning a livello di zona dati

È possibile trovare informazioni dettagliate sulla quota per le distribuzioni con provisioning nel portale Microsoft Foundry, sezione Esegui operazioni, riquadro>Quota.

Utilizzo orario

Le distribuzioni con provisioning a livello di area, con provisioning a livello di zona dati e con provisioning globale vengono addebitate a una tariffa oraria ($/PTU/hr) per il numero di PTU distribuite.  Ad esempio, una distribuzione di 300 PTU vedrà applicata la tariffa oraria moltiplicata per 300.  Tutti i prezzi del modello Foundry sono disponibili nel calcolatore prezzi Azure.

Se esiste una distribuzione per un'ora parziale, riceverà un addebito ripartito proporzionalmente in base al numero di minuti distribuiti durante l'ora.  Ad esempio, una distribuzione attiva per 15 minuti durante un'ora riceverà un quarto dell'addebito orario. 

Se le dimensioni della distribuzione vengono modificate, i costi della distribuzione verranno modificati in modo che corrispondano al nuovo numero di UNITÀ PTU.

Diagramma che mostra la fatturazione oraria.

Il pagamento per le distribuzioni con provisioning a livello di area, con provisioning a livello di zona dati e con provisioning globale su base oraria è ideale per scenari di distribuzione a breve termine.  Ad esempio: benchmark qualità e prestazioni di nuovi modelli o aumento temporaneamente della capacità PTU per coprire un evento come un hackathon. 

I clienti che richiedono l'utilizzo a lungo termine di distribuzioni con provisioning regionali, con provisioning nell'area dati e con provisioning globale, tuttavia, potrebbero pagare un importo mensile significativamente ridotto acquistando uno sconto a termine tramite le prenotazioni di Azure, come descritto più avanti nell'articolo.

Importante

Non è consigliabile ridimensionare le distribuzioni di produzione in base al traffico in ingresso e pagarle esclusivamente su base oraria. Esistono due motivi:

  • I risparmi sui costi ottenuti acquistando prenotazioni di Azure per Velocità effettiva con provisioning, Zona dati con provisioning e Con provisioning globale di Foundry sono notevoli e in molti casi sarà meno costoso mantenere una distribuzione ridimensionata per il volume di produzione completo pagato tramite una prenotazione piuttosto che ridimensionare la distribuzione con il traffico in ingresso.
  • La presenza di quote di capacità assegnata inutilizzate (PTU) non garantisce che la capacità sarà disponibile per supportare un aumento delle risorse distribuite quando richiesto. La quota limita il numero massimo di PTU che possono essere distribuite, ma non è una garanzia di capacità. La capacità di provisioning per ogni regione e modello cambia dinamicamente durante il giorno e potrebbe non essere disponibile quando necessario. Di conseguenza, è consigliabile mantenere una distribuzione permanente per coprire le esigenze del traffico (pagate tramite una prenotazione).

Eliminare le implementazioni PTU

Importante

Gli addebiti per le distribuzioni in una risorsa eliminata continueranno fino a quando la risorsa non viene eliminata. Per evitare addebiti indesiderati, eliminare la distribuzione di una risorsa prima di eliminare la risorsa. Tuttavia, se la risorsa è già stata eliminata, è possibile recuperarla o eliminarla. Per ulteriori informazioni, vedere recuperare o eliminare definitivamente le risorse Azure OpenAI eliminate.

L'eliminazione di una distribuzione non annulla o modifica alcuna prenotazione PTU. Le prenotazioni non supportano l'eliminazione. È possibile usare il portale di Azure per annullare o scambiare le prenotazioni manualmente e queste opzioni potrebbero comportare costi aggiuntivi.

Utilizzare questi passaggi per eliminare una distribuzione con provisioning ed evitare addebiti indesiderati.

  1. Eliminare la distribuzione nel portale Microsoft Foundry.
  2. Se si prevede di rimuovere la risorsa di intelligenza artificiale Azure, eliminare prima le distribuzioni, quindi eliminare la risorsa. Rimuovere la risorsa per arrestare gli addebiti.
  3. Passare alla pagina Reservations nel portale di Azure per gestire le prenotazioni. Nel portale di Azure è possibile acquistare, annullare o scambiare prenotazioni per allinearsi alle distribuzioni correnti.

Quantità di velocità effettiva per PTU che si ottiene per ogni modello

La quantità di throughput (misurata in token al minuto o TPM) che un'implementazione ottiene per PTU è una funzione dei token di input e output in un dato minuto. La generazione di token di output richiede più elaborazione rispetto ai token di input. A partire dai modelli GPT 4.1 e versioni successive, il sistema corrisponde in genere al rapporto di prezzo standard globale tra token di input e output, con eccezioni per alcuni modelli. Per tutte le distribuzioni, i token memorizzati nella cache vengono detratti da 100% dall'utilizzo.

Ad esempio, per gpt-5, un token di output viene conteggiato come otto token di input rispetto al limite di utilizzo, che corrisponde alla tariffazione. Per altri modelli, ad esempio gpt-4.1, un token di output viene conteggiato come quattro token di input. I modelli meno recenti usano un rapporto diverso.

Eccezioni al rapporto di larghezza di banda di input e output

Il sistema consente eccezioni al rapporto standard tra token di input e output per determinati modelli. Ad esempio, con Llama-3.3-70B-Instruct, un token di output viene conteggiato come quattro token di input verso il limite di utilizzo. Questo rapporto è diverso dal rapporto di prezzo standard globale tra i token di input e di output. Per visualizzare i prezzi di input e output per il modello, vedere Prezzi per i modelli llama.

Modelli OpenAI Azure più recenti

Nota

gpt-5.4, gpt-4.1, gpt-4.1-mini e gpt-4.1-nano non supportano contesti lunghi (richieste stimate con un numero di token di prompt superiore a 128.000).

Argomento gpt-5.5 gpt-5.4 gpt-5.4-mini gpt-5.3-codex gpt-5.2 gpt-5.2-codex gpt-5.1 gpt-5.1-codex gpt-5 gpt-5-mini gpt-4.1 gpt-4.1-mini gpt-4.1-nano o3 o4-mini
Distribuzione minima con provisioning a livello di area e di zona dati 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15
Incremento delle dimensioni di provisioning a globale e a livello di zona dati 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Distribuzione minima prevista a livello regionale 50 50 25 50 50 50 50 50 50 25 50 25 25 50 25
Incremento delle dimensioni di provisioning a livello di area 50 50 25 50 50 50 50 50 50 25 50 25 25 50 25
Input TPM per PTU 1,200 2,400 7,900 3,400 3,400 3,400 4,750 4,750 4,750 23.750 3,000 14,900 59.400 3,000 5,400
Valore di destinazione della latenza 99% > 100 token al secondo* 99% > 50 token al secondo* 99% > 100 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 80 token al secondo* 99% > 80 token al secondo* 99% > 90 token al secondo* 99% > 100 token al secondo* 99% > 80 token al secondo* 99% > 90 token al secondo*

* Calcolata come latenza di richiesta p50 su base 5 minuti.

Modelli OpenAI precedenti Azure

Argomento gpt-4o gpt-4o-mini o3-mini o1
Distribuzione minima con provisioning a livello di area e di zona dati 15 15 15 15
Incremento delle dimensioni di provisioning a globale e a livello di zona dati 5 5 5 5
Distribuzione minima prevista a livello regionale 50 25 25 25
Incremento delle dimensioni di provisioning a livello di area 50 25 25 50
Input TPM per PTU 2,500 37,000 2,500 230
Valore di destinazione della latenza 99% > 25 token al secondo* 99% > 33 token al secondo* 99% > 66 token al secondo* 99% > 25 token al secondo*

* Calcolata come latenza media della richiesta su base oraria al minuto nel mese.

Direttamente dai modelli di Azure

Argomento Llama-3.3-70B-Instruct DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-R1-0528
Distribuzione minima con provisioning a livello di area e di zona dati 100 100 100 100
Incremento delle dimensioni di provisioning a globale e a livello di zona dati 100 100 100 100
Distribuzione minima prevista a livello regionale NA NA NA NA
Incremento delle dimensioni di provisioning a livello di area NA NA NA NA
Input TPM per PTU 8.4501 4,000 4,000 4,000
Valore di destinazione della latenza 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo*

* Calcolata come latenza media della richiesta su base oraria al minuto nel mese.

1 Per Llama-3.3-70B-Instruct, un token di output conta come quattro token di input verso il limite di utilizzo. Questo rapporto è diverso dal rapporto di prezzo standard globale tra i token di input e di output. Per altri dettagli, vedere Eccezioni al rapporto tra velocità effettiva di input e output.

Fuochi d'artificio sui modelli Microsoft Foundry (anteprima)

I seguenti modelli di Fireworks su Microsoft Fonderia supportano attualmente la velocità effettiva con provisioning.

Argomento gpt-oss-120b Kimi K2 Instruct 0905 Kimi K2 Thinking Kimi K2.5 Kimi K2.6 DeepSeek v3.1 DeepSeek v3.2 Qwen3 14B MiniMax 2.5 GLM-5 GLM-4.7
Distribuzione minima con provisioning globale 80 500 500 800 800 800 1200 80 400 700 800
Aumento di scala fornito a livello globale 40 275 275 400 400 400 600 40 200 350 400
Input TPM per PTU 13,500 1,250 700 530 2.000 1,050 1,500 4,800 3,000 3,500 3,000
Valore di destinazione della latenza 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo*

* Calcolata come latenza media della richiesta su base oraria al minuto nel mese.

Determinare i requisiti PTU per un carico di lavoro

Determinare il numero corretto di unità di throughput fornite per il carico di lavoro è un passaggio essenziale per ottimizzare sia le prestazioni che i costi.

Le PTU rappresentano una quantità di capacità di elaborazione del modello. Analogamente al computer o ai database, carichi di lavoro o richieste diversi al modello utilizzeranno quantità diverse di capacità di elaborazione sottostante. La conversione dalla capacità di trasmissione ai PTU può essere approssimata utilizzando i dati storici di utilizzo dei token o le stime del profilo delle chiamate (token di input, token di output e richieste per minuto) come descritto nella documentazione sulle prestazioni e sulla latenza.

Alcune considerazioni generali:

  • Le generazioni richiedono maggiore capacità rispetto ai prompt
  • Per i modelli GPT-4o e versioni successive, il TPM per PTU viene impostato separatamente per i token di input e output. Per i modelli meno recenti, le chiamate più grandi sono progressivamente più costose da calcolare. Ad esempio, 100 chiamate con una dimensione del prompt di 1000 token richiedono meno capacità rispetto a una chiamata con 100.000 token nel prompt. Questa suddivisione in livelli significa che la distribuzione di queste forme di chiamata è importante nella velocità effettiva complessiva. I modelli di traffico con una distribuzione estesa che include alcune chiamate di grandi dimensioni potrebbero riscontrare una velocità effettiva inferiore per PTU rispetto a una distribuzione più stretta con le stesse dimensioni medie dei token di richiesta e completamento.

Ottenere la quota PTU

I clienti devono richiedere la quota tramite il collegamento richiedi quota.

Se sono necessarie più quote, è inoltre necessario richiederle tramite il collegamento nella sezione Microsoft FoundryOperate>Quota. Il modulo consente al cliente di richiedere un aumento della quota PTU specificata per una determinata area. Il cliente riceve un messaggio di posta elettronica all'indirizzo incluso dopo l'approvazione della richiesta, in genere entro due giorni lavorativi.

Minimi PTU per Modello

La distribuzione, gli incrementi e la capacità di elaborazione minimi associati a ogni unità variano in base al tipo di modello e alla versione. Per altre informazioni, vedere la tabella precedente.

Prenotazioni di Azure di Velocità effettiva con provisioning Foundry

Gli sconti sul prezzo di utilizzo orario possono essere ottenuti acquistando una prenotazione Azure per Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned. Una prenotazione Azure è un meccanismo di sconto a termine condiviso da molti prodotti Azure. Ad esempio, Calcolo e Cosmos DB. Per Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned, la prenotazione offre uno sconto in cambio dell'impegno di pagamento per un numero fisso di PTU per un mese o un anno.

  • Le Azure Reservations vengono acquistate tramite la pagina Reservations nel portale di Azure.

  • Le prenotazioni vengono acquistate a livello di area e il loro ambito può essere definito in modo flessibile per coprire l'utilizzo di un gruppo di implementazioni. Gli ambiti di prenotazione includono:

    • Singoli gruppi di risorse o sottoscrizioni

    • Gruppo di sottoscrizioni in un gruppo di gestione

    • Tutte le sottoscrizioni in un account di fatturazione

  • Lo sconto si applica quando il tipo di distribuzione (area geografica/zona dati/globale), l'area e l'ambito della prenotazione (sottoscrizione o gruppo di risorse) corrispondono alla distribuzione in esecuzione. La corrispondenza non avviene per modello o ID distribuzione. Più implementazioni all'interno dell'ambito possono sfruttare la stessa prenotazione fino alla quantità PTU.

  • È possibile acquistare nuove prenotazioni per coprire lo stesso ambito delle prenotazioni esistenti, permettendo così di applicare sconti sulle nuove distribuzioni con provisioning. L'ambito delle prenotazioni esistenti può anche essere aggiornato in qualsiasi momento senza penalità, ad esempio per coprire una nuova sottoscrizione.

  • Le prenotazioni per le distribuzioni globali, della zona dati e dell'area geografica non sono intercambiabili. È necessario acquistare una prenotazione separata per ogni tipo di distribuzione.

  • Le prenotazioni possono essere annullate dopo l'acquisto, ma i crediti sono limitati.

  • Se le dimensioni delle distribuzioni con provisioning nell'ambito di una prenotazione superano l'importo della prenotazione, l'importo in eccesso viene addebitato alla tariffa oraria. Ad esempio, se le distribuzioni che ammontano a 250 PTU sono presenti nell'ambito di una prenotazione PTU di 200, verranno addebitati 50 PTU su base oraria fino a quando le dimensioni della distribuzione non vengono ridotte a 200 PTU o viene creata una nuova prenotazione per coprire i rimanenti 50.

  • Le prenotazioni garantiscono un prezzo scontato per il periodo selezionato.  Non riservano capacità per il servizio né garantiscono che sarà disponibile quando viene creata una distribuzione. È consigliabile che i clienti creino distribuzioni prima di acquistare una prenotazione per evitare l'acquisto di una prenotazione eccessiva.

Importante

  • La disponibilità della capacità per le distribuzioni di modelli è dinamica e cambia frequentemente tra aree e modelli. Per proteggersi dall'acquisto di una prenotazione per più PTU di quanto sia possibile usare, creare prima le distribuzioni e quindi acquistare la prenotazione Azure per coprire i PTU distribuiti. Questa procedura consigliata garantisce che sia possibile sfruttare appieno lo sconto per la prenotazione e protegge l'utente dal commit a una prenotazione che non è possibile usare.

  • I requisiti dei criteri del ruolo e del tenant di Azure per acquistare una prenotazione sono diversi da quelli necessari per creare una distribuzione o una risorsa Foundry. Verificare l'autorizzazione per acquistare prenotazioni prima di dover eseguire questa operazione. Per ulteriori dettagli, vedere Prenotazione velocità effettiva con provisioning Foundry.

Ridimensionare la prenotazione della velocità effettiva con provisioning di Foundry

Le quantità di PTU negli acquisti di prenotazioni sono indipendenti dalle PTU allocate nella quota o usate nelle distribuzioni. È possibile acquistare una prenotazione per più PTU rispetto alla quota oppure distribuire per l'area, il modello o la versione desiderata. I crediti per gli acquisti in eccesso di una prenotazione sono limitati e i clienti devono adottare misure per garantire che le dimensioni delle prenotazioni siano in linea con i PTU distribuiti.

La procedura consigliata consiste nell'acquistare sempre una prenotazione dopo la creazione delle distribuzioni. Questo protegge dall'acquisto di una prenotazione per poi constatare che la capacità necessaria non è disponibile per la regione o il modello desiderato.

Le prenotazioni per le distribuzioni globali, della zona dati e dell'area geografica non sono intercambiabili. È necessario acquistare una prenotazione separata per ogni tipo di distribuzione.

Gestire le prenotazioni Azure

Dopo aver creato una prenotazione, monitorarla tramite il portale di prenotazione Azure o Monitoraggio di Azure per assicurarsi che la prenotazione riceva l'utilizzo previsto. Per altre informazioni sulla gestione e il monitoraggio delle prenotazioni Azure, vedere questi articoli: