Distribuire modelli agli endpoint

Completato

Dopo aver selezionato un modello dal catalogo, distribuirlo per renderlo accessibile tramite endpoint che le applicazioni possono usare. Il portale di Microsoft Foundry guides l'utente tramite il processo di distribuzione e fornisce strumenti per testare immediatamente il modello distribuito.

Screenshot dell'interfaccia del modello Deploy nel portale Foundry.

Informazioni sui tipi di distribuzione

Microsoft Foundry supporta diversi tipi di distribuzione, ognuno dei quali offre caratteristiche diverse per la residenza dei dati, il ridimensionamento e la fatturazione:

  • Le distribuzioni di modelli Standard globali possono usare qualsiasi area di Azure in base al pagamento per token. Sono ideali per i carichi di lavoro generali e forniscono la quota più elevata.
  • Le distribuzioni con provisioning su scala globale possono usare qualsiasi area di Azure e il loro utilizzo si basa su provision throughput units riservate (PTU) per fornire una velocità effettiva elevata e prevedibile.
  • Le distribuzioni globali di Batch possono usare qualsiasi area di Azure con uno sconto di 50% per processi asincroni di grandi dimensioni entro 24 ore.
  • Le distribuzioni standard della zona dati garantiscono che i dati rimangano all'interno di una zona dati specifica in base al pagamento per token. Sono ideali per gli scenari in cui è necessaria la conformità dell'area dati UE/Stati Uniti.
  • Le distribuzioni Zona Dati Provisioned offrono un throughput prevedibile basato su PTU riservati all'interno di una zona dati.
  • Le distribuzioni batch di zona dati sono progettate per processi batch asincroni di grandi dimensioni all'interno di una zona dati/
  • Le distribuzioni standard vengono distribuite all'interno di una singola area in base al pagamento per token. Sono ideali quando è necessaria la conformità della residenza dei dati a livello di area o per scenari a basso volume.
  • Le implementazioni Provisioned regionale forniscono PTU riservati all'interno di una singola area.
  • Sviluppatore Le distribuzioni per sviluppatori utilizzano qualsiasi area di Azure a pagamento per token e sono destinate esclusivamente alla valutazione di modelli perfezionati.

Ogni modello nel catalogo indica i tipi di distribuzione supportati. Il portale seleziona automaticamente l'opzione di distribuzione migliore in base all'ambiente e ai requisiti del modello. Le distribuzioni standard globali nelle risorse Foundry devono essere usate quando possibile per le funzionalità massime.

Distribuire un modello

Per distribuire un modello dal portale di Microsoft Foundry:

Passare innanzitutto al modello selezionato nel catalogo modelli. Nella home page del portale Foundry, selezionare Scopri nella barra di navigazione e quindi Modelli nel riquadro sinistro. Aprire la scheda del modello per esaminare le specifiche e i tipi di distribuzione supportati.

Selezionare Distribuisci per avviare il processo di distribuzione. Puoi scegliere:

  • Impostazioni predefinite da distribuire rapidamente con le configurazioni consigliate
  • Impostazioni personalizzate per personalizzare le opzioni di distribuzione

Se il modello richiede una sottoscrizione Azure Marketplace (comune per i modelli dei partner e della community), vengono visualizzate le condizioni per l'utilizzo. Esaminare queste condizioni e selezionare Accetta e continua ad accettarle. I modelli venduti direttamente da Azure, ad esempio Azure modelli OpenAI come GPT-4o-mini, non richiedono sottoscrizioni del Marketplace.

Configurare le impostazioni di distribuzione:

  • Nome distribuzione: per impostazione predefinita, il sistema usa il nome del modello. È possibile modificarlo per creare nomi significativi per più distribuzioni dello stesso modello. Durante l'inferenza, il codice usa questo nome di distribuzione nel model parametro per instradare le richieste.
  • Tipo di distribuzione: il portale seleziona automaticamente il tipo di distribuzione appropriato in base al modello e all'ambiente. Ogni modello supporta diversi tipi di distribuzione che offrono diverse garanzie di residenza o velocità effettiva dei dati.

Per le distribuzioni di calcolo gestite, è anche possibile configurare:

  • SKU della macchina virtuale: scegliere tra i tipi di macchina virtuale supportati. È necessaria Azure Machine Learning quota di calcolo per lo SKU selezionato nella sottoscrizione.
  • Numero di istanze: specificare il numero di istanze da distribuire per la distribuzione del carico e la ridondanza.

Dopo aver configurato tutte le impostazioni, selezionare Distribuisci. Al termine della distribuzione, si arriva a Foundry Playground in cui è possibile testare il modello in modo interattivo. Verificare che lo stato della distribuzione sia Completato nell'elenco di distribuzione.

Gestire i modelli distribuiti

Dopo la distribuzione, è possibile gestire i modelli dalla sezione Compilazione nel portale di Microsoft Foundry. Selezionare Build nella barra di navigazione, quindi Modelli nel riquadro sinistro per visualizzare l'elenco delle implementazioni nella risorsa.

Nell'elenco di distribuzione selezionare un modello specifico per visualizzarne i dettagli:

  • Configurazione e stato della distribuzione
  • URL dell'endpoint per l'accesso all'API
  • Chiavi di autenticazione o token
  • Monitoraggio e metriche di utilizzo
  • Opzione per modificare le impostazioni di distribuzione o eliminare la distribuzione

La pagina dei dettagli della distribuzione fornisce le informazioni necessarie alle applicazioni per connettersi e usare il modello.

Test nell'area giochi

Il portale di Microsoft Foundry include playground interattivi in cui si testano immediatamente i modelli distribuiti, senza scrivere codice. Al termine della distribuzione, si arriva automaticamente nel playground oppure è possibile selezionare una distribuzione dall'elenco dei modelli per aprire il playground.

Il playground pre-seleziona il tuo ambiente di distribuzione, in modo da poter avviare immediatamente i test. Nell'interfaccia della chat:

Immettere le richieste nella finestra di messaggio e osservare le risposte. Il playground visualizza sia l'input che l'output generato dal modello, consentendo di comprendere il comportamento e la qualità.

Sperimentare diversi tipi di richieste per testare varie funzionalità:

  • Domande semplici per verificare la comprensione di base
  • Problemi complessi di ragionamento in più passaggi
  • Richieste di formati o stili specifici
  • Casi limite che potrebbero rivelare limitazioni

Modificare i messaggi di sistema per guidare il comportamento del modello. I messaggi di sistema impostano contesto, tono e istruzioni applicabili a tutti gli input dell'utente. Ad esempio, è possibile indicare al modello di "rispondere come rappresentante customer service" o "fornire spiegazioni tecniche concise".

Modificare parametri come temperatura (creatività vs. coerenza), token massimi (limiti di lunghezza della risposta) e top-p (nucleus sampling) per ottimizzare il comportamento di generazione.

Selezionare la scheda Codice per visualizzare esempi di come chiamare il modello distribuito a livello di codice. Gli esempi di codice mostrano l'autenticazione, la configurazione dell'endpoint e la formattazione delle richieste in linguaggi come Python, C# e JavaScript. È possibile copiare questi esempi direttamente nell'applicazione.

Il playground funge da ambiente di sviluppo per l'ingegneria dei prompt e il test prima di integrare il modello nell'applicazione.

Accesso ai modelli tramite codice programmatico

Quando si è pronti per integrare il modello nell'applicazione, sono necessarie tre informazioni chiave dai dettagli della distribuzione:

URL endpoint: endpoint API in cui l'applicazione invia richieste. Microsoft Foundry supporta gli endpoint di progetto per le funzionalità specifiche di Foundry e gli endpoint OpenAI v1 per una compatibilità generale con le API del modello OpenAI.

Chiave di autenticazione: la chiave privata o il token presentato dall'applicazione per autenticare le richieste. In alternativa, è possibile utilizzare l'autenticazione Microsoft Entra ID e chiedere all'applicazione di presentare un token di autenticazione basato sulla sua identità. L'autenticazione con ID entra è consigliata per gli scenari di produzione.

Nome distribuzione: nome specificato durante la model distribuzione, usato nel parametro delle richieste API per indirizzare alla distribuzione specifica.

L'applicazione usa questi dettagli per costruire richieste API. Il portale di Microsoft Foundry fornisce SDK e documentazione dell'API REST per vari linguaggi di programmazione, insieme agli esempi di codice che illustrano la formattazione delle richieste, l'autenticazione e la gestione delle risposte.

Con il modello distribuito e testato, è possibile integrarlo nelle applicazioni o procedere a una valutazione più completa usando metriche automatizzate e set di dati di test.