Panoramica della distribuzione per i modelli di Microsoft Foundry

Microsoft Foundry Models è l'hub per l'individuazione e la distribuzione di un'ampia gamma di modelli di intelligenza artificiale per le applicazioni di intelligenza artificiale generative. Per rendere disponibile un modello per le richieste di inferenza, lo distribuisci. Foundry offre due opzioni di distribuzione a seconda del tipo di modello e delle esigenze dell'infrastruttura.

Suggerimento

Non sempre è necessario creare una distribuzione. Con i modelli istantanei (anteprima) è possibile chiamare i modelli supportati per nome e avviare immediatamente l'esecuzione dell'inferenza, senza richiedere la distribuzione.

Opzioni di distribuzione

Foundry offre due opzioni di distribuzione:

  • Distribuzione standard nelle risorse Foundry — Per i modelli Foundry, inclusi i modelli Foundry venduti da Azure (noti anche come Azure Direct Models, o ADM) e alcuni modelli di partner e della community. Questa opzione è il percorso di distribuzione preferito e più idoneo.
  • Distribuzione di calcolo gestita (anteprima): disponibile per tutti i modelli open source software (OSS), inclusi modelli di partner e community e modelli personalizzati.

Il portale foundry seleziona automaticamente l'opzione di distribuzione appropriata in base al modello scelto.

Distribuzione standard nelle risorse Foundry Calcolo gestito
Modelli Modelli ADM (Azure OpenAI + modelli partner fatturati tramite Azure) e selezionare Modelli da partner e community Altri modelli nel catalogo dei modelli di partner e modelli personalizzati. Ad esempio, i modelli di Hugging Face, NVIDIA NIMs, i modelli di settore e Databricks.
Fatturazione Utilizzo token o unità elaborate assegnate (PTU) SKU orario per acceleratore
Elaborazione dei dati Regionale, zona di dati o globale Solo a livello di area
Filtro del contenuto Integrato e personalizzabile Tramite le API di sicurezza dei contenuti di Intelligenza artificiale di Azure

Distribuzione standard nelle risorse Foundry

La distribuzione standard nelle risorse foundry è l'opzione di distribuzione preferita in Foundry. Supporta la gamma più ampia di funzionalità e tipi di distribuzione.

Quali modelli usano la distribuzione standard?

Tutti i modelli Foundry, inclusi Foundry Models venduti da Azure e alcuni modelli di partner e della community, usano la distribuzione standard. I Foundry Models venduti da Azure includono tutti i modelli Azure OpenAI e modelli selezionati dei principali provider, fatturati tramite l'abbonamento Azure, coperti dagli accordi sul livello di servizio di Azure e supportati da Microsoft. I modelli di partner e community che usano la distribuzione standard includono modelli Anthropic e modelli specifici di partner come Mistral, Cohere e Meta.

Funzionalità

La distribuzione standard supporta:

  • Più tipi di distribuzione : standard globale, standard di zona dati, standard a livello di area, provisioning, batch e altro ancora. Ogni tipo controlla dove vengono elaborati i dati e il modo in cui si paga. Per informazioni dettagliate, vedere Tipi di distribuzione per i modelli di Microsoft Foundry.
  • Flessibilità per l'elaborazione dei dati : scegliere area geografica, zona dati (Stati Uniti o UE) o elaborazione globale in base ai requisiti di conformità.
  • Filtro del contenuto : filtri predefiniti di Sicurezza dei contenuti di Azure per intelligenza artificiale con configurazioni personalizzabili.
  • Autenticazione senza chiave : MICROSOFT Entra ID (scelta consigliata) e autenticazione basata su chiave.
  • Rete privata : integrazione della rete virtuale per l'accesso sicuro.
  • Throughput assegnato: capacità di riserva con PTU per prestazioni prevedibili a bassa latenza. Per informazioni dettagliate, vedere Throughput predefinito.

Requisiti delle risorse

La distribuzione standard è disponibile in:

  • Risorse Foundry — Il tipo di risorsa principale per i nuovi progetti Foundry. Nessun hub di intelligenza artificiale richiesto.
  • Risorse OpenAI di Azure : se si usano risorse OpenAI di Azure, il catalogo dei modelli mostra solo i modelli OpenAI di Azure per la distribuzione. Aggiornare una risorsa Foundry per accedere al set completo di Modelli di Foundry.

Per iniziare a usare la distribuzione, vedere Distribuire modelli di Microsoft Foundry nel portale di Foundry o distribuire modelli con l'interfaccia della riga di comando di Azure e Bicep.

Distribuzione di calcolo gestita (anteprima)

Note

Il calcolo gestito in Foundry è attualmente in anteprima pubblica ed è necessaria la registrazione per usarlo. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per ulteriori informazioni, vedere Condizioni supplementari per l'uso delle versioni di anteprima di Microsoft Azure.

Il calcolo gestito in Foundry (anteprima) è una piattaforma GPU gestita come servizio (PaaS) che ospita modelli open source e con pesi personalizzati su capacità GPU dedicata. Puoi accedere alle distribuzioni di calcolo gestite tramite lo stesso endpoint del progetto Foundry usato per gli altri tipi di distribuzione, senza dover gestire macchine virtuali, cluster o runtime di serving. Foundry dimensiona il deployment, effettua il provisioning degli acceleratori e mantiene il runtime aggiornato con le patch.

Importante

Il calcolo gestito supporta modelli open source, partner, industry e personalizzati. Le distribuzioni di calcolo gestite vengono gestite nell'endpoint del progetto Foundry unificato, usando la stessa superficie di autenticazione, rete e SDK.

Quali modelli usano il calcolo gestito?

Esempi di raccolte di modelli che richiedono il calcolo gestito includono:

  • Hugging Face
  • Alcuni modelli Meta
  • Alcuni modelli mistrali
  • Microservizi di inferenza NVIDIA
  • Modelli di settore (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
  • Databricks
  • Modelli personalizzati

Il catalogo di Microsoft Foundry include oltre 10.000 modelli open source e di partner, con circa 50 nuovi modelli pubblicati ogni mese.

Funzionalità

Il calcolo gestito (anteprima) supporta:

  • Unified Foundry endpoint and authentication : usare lo stesso endpoint di progetto, chiavi API, Microsoft Entra ID e rete privata come distribuzioni con pagamento in base al token e velocità effettiva con provisioning. I percorsi di inferenza usano <endpoint>/managed-deployments/<deployment-name>/. I runtime compatibili con il completamento della chat funzionano anche sulla route standard /openai/v1/ con OpenAI SDK.
  • Dimensionamento delle istanze di modello : le distribuzioni vengono ridimensionate in termini incentrati sul modello. Non è necessario selezionare gli SKU delle macchine virtuali, perché Foundry sceglie GPU per istanza in base alle dimensioni del modello, all'architettura, alla lunghezza del contesto e al fatto che il carico di lavoro sia ottimizzato per latenza o velocità effettiva.
  • Runtime di inferenza ottimizzati — container vLLM, SGLang e NVIDIA NIM curati da Microsoft con batching continuo, decodifica speculativa, parallelismo tensoriale e sostituzione a caldo di LoRA.
  • Famiglie di acceleratori : A100 (80 GB), H100 (80 GB), H200 (141 GB) e MI300X.
  • Ridimensionamento automatico e ridimensionamento a zero — Esegui il ridimensionamento automatico in base al traffico in tempo reale oppure manualmente. Configurare un timeout di inattività in modo che la distribuzione venga ridimensionata a zero quando non arriva alcun traffico, interrompendo immediatamente la fatturazione.
  • Runtime gestiti da Microsoft — Microsoft gestisce i runtime distribuiti, le immagini di base del contenitore e le patch di sicurezza. Gli aggiornamenti vengono applicati automaticamente alle distribuzioni in tempo reale.
  • Metriche di osservabilità : ogni distribuzione genera il conteggio delle chiamate API in base al codice di stato e ai percentili del tempo di risposta. I modelli di completamento chat restituiscono anche i conteggi dei token di input e output, i percentili del tempo al primo token (TTFT) e i percentili del tempo di risposta complessivo, raggruppati per intervallo di tempo.

Fatturazione e quota

La fatturazione dell'elaborazione gestita è oraria per SKU dell'acceleratore, con il throughput per GPU come unità di fatturazione di base. La scalabilità automatica e la scalabilità fino a zero allineano i costi al traffico effettivo, in modo che la fatturazione si interrompa immediatamente quando le istanze vengono ridotte.

La quota viene concessa per ogni SKU dell'acceleratore per area geografica tramite il processo di quota Foundry ed è separata dalla quota delle macchine virtuali di Azure. Le macchine virtuali di Azure sono un'offerta di infrastruttura distribuita come servizio (IaaS) con SKU regionali; l'elaborazione gestita è un'offerta PaaS che si basa principalmente sull'elaborazione globale e Data Zone. La quota di macchine virtuali Azure esistente non può essere applicata a una distribuzione di calcolo gestita.

Il calcolo gestito è attualmente disponibile per la distribuzione globale. Per le stime dei tassi, vedere Azure calcolatore prezzi.

Inizia

Confronto tra opzioni di distribuzione

Usare la distribuzione Standard nelle risorse Foundry quando possibile. La tabella seguente confronta le funzionalità tra le due opzioni di distribuzione:

Capacità Distribuzione standard nelle risorse Foundry Calcolo gestito
Quali modelli possono essere distribuiti? Tutti i modelli Foundry, compresi i modelli Foundry venduti da Azure e modelli selezionati di partner e della community Modelli open source e partner dal catalogo dei modelli, NVIDIA NIM e modelli di settore
Risorsa di distribuzione Risorsa Foundry Progetto Fonderia
Richiede l'hub di intelligenza artificiale No No
Opzioni di elaborazione dati Area, zona dati, globale Generale
Rete privata
Filtro del contenuto Integrato e personalizzabile Non disponibile in anteprima pubblica
Autenticazione senza chiave Sì (Microsoft Entra ID e basato su chiave) Sì (Microsoft Entra ID e basato su chiave)
Fatturazione Utilizzo token o unità elaborate assegnate SKU orario per acceleratore

Suggerimento

Per informazioni dettagliate sui costi, vedi Pianificare e gestire i costi per Microsoft Foundry.