Share via


Catalogo modelli e raccolte in Studio AI della piattaforma Azure

Importante

Alcune funzionalità descritte in questo articolo potrebbero essere disponibili solo in anteprima. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Il catalogo modelli in Studio AI della piattaforma Azure è l'hub ideato per individuare e usare un'ampia gamma di modelli, che ti consentono di creare applicazioni IA generative. Il catalogo modelli include centinaia di modelli di diversi provider di modelli, come il servizio OpenAI di Azure, Mistral, Meta, Cohere, Nvidia, Hugging Face, inclusi i modelli sottoposti a training da parte di Microsoft. I modelli dei provider diversi da Microsoft sono prodotti non Microsoft, come definito nelle Condizioni per i prodotti Microsoft e sono soggetti alle condizioni fornite con il modello.

Raccolte di modelli

Il catalogo modelli organizza i modelli in raccolte. Nel catalogo modelli sono disponibili tre tipi di raccolte:

  • Modelli curati da Azure per intelligenza artificiale: i più diffusi modelli proprietà e open weight di terze parti disponibili in pacchetto e ottimizzati per un perfetto funzionamento sulla piattaforma di Azure per intelligenza artificiale. L'uso di questi modelli è soggetto alle condizioni di licenza del provider di modelli fornite con il modello. Quando si distribuisce in Studio AI della piattaforma Azure, la disponibilità del modello è soggetta al contratto di servizio di Azure in vigore e Microsoft fornisce supporto per i problemi di distribuzione. I modelli di partner come Meta, NVIDIA, Mistral AI sono esempi di modelli disponibili nella raccolta "Curato da Azure per intelligenza artificiale" nel catalogo. Questi modelli possono essere identificati da una spunta verde nei riquadri del modello del catalogo oppure è possibile filtrare in base alla raccolta "Curato da Azure per intelligenza artificiale".
  • Modelli OpenAI di Azure, disponibili esclusivamente in Azure: modelli OpenAI di Azure di punta tramite la raccolta "Azure OpenAI" attraverso un'integrazione con il servizio OpenAI di Azure. Microsoft supporta questi modelli e il relativo utilizzo in base alle condizioni del prodotto e al contratto di servizio per OpenAI di Azure.
  • Aprire modelli dall'hub Hugging Face: centinaia di modelli dall'hub HuggingFace sono accessibili tramite la raccolta "Hugging Face" per inferenza in tempo reale con calcolo gestito. Hugging Face crea e gestisce i modelli elencati nella raccolta HuggingFace. Usare il forum HuggingFace o il supporto HuggingFace per assistenza. Per altre informazioni, vedere Distribuire modelli aperti.

Suggerimento di aggiunte al catalogo modelli: è possibile inviare una richiesta di aggiunta di un modello al catalogo modelli usando questo modulo.

Panoramica delle funzionalità del catalogo modelli

Per informazioni sui modelli OpenAI di Azure, vedere Servizio OpenAI di Azure.

Alcuni modelli nell'articolo Curato da Intelligenza artificiale di Azure e dai modelli Open delle raccolte hub hugging Viso possono essere distribuiti con un'opzione di calcolo gestita e alcuni modelli sono disponibili per la distribuzione tramite API serverless con fatturazione con pagamento in base al consumo. Questi modelli possono essere individuati, confrontati, valutati, ottimizzati (se previsto), distribuiti su larga scala e integrati nelle applicazioni IA generative con sicurezza e governance dei dati di livello aziendale.

  • Individuazione: esaminare le schede dei modelli, provare l'inferenza di esempio ed esplorare gli esempi di codice per valutare, ottimizzare o distribuire il modello.
  • Confronto: confrontare i benchmark tra i modelli e i set di dati disponibili nel settore per valutare quale sia il più adatto al proprio scenario aziendale.
  • Valutazione: valutare se il modello è adatto per il carico di lavoro specifico fornendo dati di test personalizzati. Le metriche di valutazione semplificano la visualizzazione dell'esecuzione del modello selezionato nello scenario.
  • Ottimizzazione: personalizzare i modelli ottimizzati usando i propri dati di training e scegliere il modello migliore confrontando le metriche di tutti i processi di ottimizzazione. Le ottimizzazioni predefinite accelerano la messa a punto e riducono la memoria e il calcolo per essa necessari.
  • Distribuzione: distribuire modelli su cui è stato eseguito un training preliminare o modelli ottimizzati senza alcun problema di inferenza. È anche possibile scaricare i modelli che possono essere distribuiti nel calcolo gestito.

Distribuzione del modello: calcolo gestito e API serverless (con pagamento in base al consumo)

Il Catalogo modelli offre due modi distinti per distribuire modelli dal catalogo per l'uso: le API di calcolo gestite e serverless. Le opzioni di distribuzione disponibili per ogni modello variano. Altre informazioni sulle caratteristiche delle opzioni di distribuzione e sulle opzioni disponibili per modelli specifici sono riportate nelle tabelle seguenti. Altre informazioni sull'elaborazione dati con le opzioni di distribuzione.

Funzionalità Calcolo gestito API serverless (con pagamento in base al consumo)
Esperienza di distribuzione e fatturazione I pesi del modello vengono distribuiti in macchine virtuali dedicate con endpoint online gestiti. L'endpoint online gestito, che può avere una o più distribuzioni, rende disponibile un'API REST per l'inferenza. Vengono fatturate le ore core della macchina virtuale usate dalle distribuzioni. L'accesso ai modelli avviene tramite una distribuzione che effettua il provisioning di un'API che fornisce l’accesso al modello. L'API fornisce l'accesso al modello ospitato e gestito da Microsoft, per l'inferenza. Questa modalità di accesso viene definita "Models as a Service". Vengono addebitati input e output alle API, in genere nei token; le informazioni sui prezzi vengono fornite prima della distribuzione.
Autenticazione delle API Chiavi e autenticazione con Microsoft Entra ID. Solo chiavi.
Sicurezza dei contenuti Usare le API del servizio Sicurezza dei contenuti di Azure. I filtri di Sicurezza dei contenuti di Azure AI sono integrati nelle API di inferenza. I filtri di Sicurezza dei contenuti di Azure AI possono essere fatturati separatamente.
Isolamento della rete Configurare la rete gestita. Altre informazioni.
Modello Calcolo gestito API serverless (con pagamento in base al consumo)
Modelli della famiglia Llama Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Llama-3-8B-Instruct
Llama-3-70B-Instruct
Llama-3-8B
Llama-3-70B
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Modelli della famiglia Mistral mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruct-v0-1
mistral-community-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruct-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruct-v01
mistralai-Mistral-7B-Instruct-v01
Mistral-large
Mistral-small
Modelli della famiglia Cohere Non disponibile Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
JAIS Non disponibile jais-30b-chat
Modelli di famiglia Phi3 Phi-3-small-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi3-medium-128k-instruct
Phi3-medium-4k-instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi3-medium-128k-instruct
Phi3-medium-4k-instruct
Phi-3-vision-128k-instruct
Nixtla Non disponibile TimeGEN-1
Altri modelli Disponibile Non disponibile

Diagramma che mostra il ciclo dei servizi Models as a Service ed Endpoint in tempo reale.

Calcolo gestito

La possibilità di distribuire modelli come un ambiente di calcolo gestito si basa sulle funzionalità della piattaforma di Azure Machine Learning per consentire l'integrazione perfetta, nell'intero ciclo di vita LLMOps, dell'ampia raccolta di modelli nel catalogo dei modelli.

Diagramma che mostra il ciclo di vita di LLMops.

Come vengono resi disponibili i modelli per la distribuzione come calcolo gestito?

I modelli vengono resi disponibili tramite i registri di Azure Machine Learning, che consentono il primo approccio del Machine Learning all'hosting e alla distribuzione di asset di Machine Learning, ad esempio pesi modello, runtime di contenitori per l'esecuzione dei modelli, pipeline per la valutazione e l'ottimizzazione dei modelli e set di dati per benchmark ed esempi. Questi registri di Machine Learning si basano su un'infrastruttura di livello aziendale altamente scalabile che:

  • Offre artefatti del modello con accesso a bassa latenza a tutte le aree di Azure con replica geografica predefinita.

  • Supporta requisiti di sicurezza aziendali come la limitazione dell'accesso ai modelli con Criteri di Azure e la distribuzione sicura con reti virtuali gestite.

Distribuire modelli per l'inferenza con il calcolo gestito

I modelli disponibili per la distribuzione in un ambiente di calcolo gestito possono essere distribuiti in endpoint online di Azure Machine Learning per l'inferenza in tempo reale. La distribuzione nel calcolo gestito richiede la quota di macchine virtuali nella sottoscrizione di Azure per gli SKU specifici necessari per eseguire in modo ottimale il modello. Alcuni modelli consentono la distribuzione in una quota condivisa temporaneamente per il test del modello. Altre informazioni sulla distribuzione di modelli:

Creare app di intelligenza artificiale generative con calcoli gestiti

Il prompt flow offre un'esperienza ottimale per la creazione di prototipi. È possibile usare i modelli distribuiti con i calcoli gestiti in Prompt Flow con lo strumento Open Model LLM. È anche possibile usare l'API REST esposta dal calcolo gestito in strumenti LLM più diffusi, ad esempio LangChain con l'estensione Azure Machine Learning.

Sicurezza del contenuto per i modelli distribuiti come managed computes

Il servizio Azure AI Content Cassaforte ty (AACS) è disponibile per l'uso con i calcoli gestiti per visualizzare varie categorie di contenuto dannoso, ad esempio contenuto sessuale, violenza, odio e autolesionismo e minacce avanzate, ad esempio il rilevamento dei rischi di Jailbreak e il rilevamento del testo del materiale protetto. Puoi consultare questo notebook per avere l’integrazione di riferimento con Sicurezza dei contenuti di Azure AI per Llama 2 o usare lo strumento Sicurezza contenuti (Testo) in Prompt Flow per passare risposte dal modello ad AACS per lo screening. Per tale utilizzo, i costi vengono addebitati separatamente in base ai prezzi AACS.

API serverless con fatturazione con pagamento in base al consumo

Alcuni modelli nel Catalogo modelli possono essere distribuiti come API serverless con fatturazione con pagamento in base al consumo; questo metodo di distribuzione è denominato Models-as-a Service (MaaS), che consente di utilizzarli come API senza ospitarli nella sottoscrizione. I modelli disponibili tramite MaaS sono ospitati nell'infrastruttura gestita da Microsoft, che consente l'accesso basato su API al modello del provider di modelli. L'accesso basato su API può ridurre sensibilmente i costi di accesso a un modello e semplificare notevolmente l'esperienza di provisioning. La maggior parte dei modelli MaaS prevede prezzi basati su token.

In che modo i modelli di terze parti vengono resi disponibili in MaaS?

Diagramma che mostra il ciclo del servizio di pubblicazione del modello.

I modelli disponibili per la distribuzione come API serverless con fatturazione con pagamento in base al consumo vengono offerti dal provider di modelli, ma ospitati nell'infrastruttura di Azure gestita da Microsoft e accessibili tramite API. I provider di modelli definiscono le condizioni di licenza e impostano il prezzo per l'uso dei modelli, mentre il servizio Azure Machine Learning gestisce l'infrastruttura di hosting, rende disponibili le API di inferenza e svolge la funzione di elaboratore dati per le richieste inviate e i contenuti prodotti dai modelli distribuiti tramite MaaS. Per altre informazioni sull'elaborazione dati per MaaS, vedere l'articolo sulla privacy dei dati.

Pagare per l'utilizzo dei modelli in MaaS

L'esperienza di individuazione, sottoscrizione e utilizzo dei modelli distribuiti tramite MaaS si svolge nello studio AI della piattaforma Azure e nello studio di Azure Machine Learning. Gli utenti accettano le condizioni di licenza per l'uso dei modelli, e le informazioni sui prezzi per l'utilizzo vengono fornite durante la distribuzione. I modelli di provider di terze parti vengono fatturati tramite Azure Marketplace, in base alle Condizioni per l'utilizzo del Marketplace commerciale, mentre i modelli Microsoft vengono fatturati in base ai contatori di Azure come servizi di consumo di prima parte. Come descritto nelle Condizioni per i prodotti, i servizi di consumo di prima parte vengono acquistati usando i contatori di Azure, ma non sono soggetti alle condizioni di servizio di Azure. L'uso di questi modelli è soggetto alle condizioni di licenza fornite.

Distribuire modelli per l'inferenza tramite MaaS

La distribuzione di un modello tramite MaaS consente agli utenti di ottenere l'accesso pronto per l'uso delle API di inferenza senza la necessità di configurare l'infrastruttura o effettuare il provisioning delle GPU, risparmiando tempo e risorse di progettazione. Queste API possono essere integrate con diversi strumenti LLM e l'utilizzo viene addebitato secondo quanto descritto nella sezione precedente.

Ottimizzare i modelli tramite MaaS con pagamento in base al consumo

Per i modelli disponibili tramite MaaS e che supportano l'ottimizzazione, gli utenti possono sfruttare i vantaggi dell'hosted fine-tuning con fatturazione con pagamento in base al consumo per personalizzare i modelli tramite i dati forniti. Per altre informazioni, vedi la panoramica sull'ottimizzazione.

Rag con modelli distribuiti come API serverless

Lo studio AI della piattaforma Azure consente agli utenti di usare gli indici vettoriali e il processo RAG (Retrieval Augmented Generation). I modelli che possono essere distribuiti tramite l'API serverless possono essere usati per generare incorporamenti e inferenze in base a dati personalizzati per generare risposte specifiche del caso d'uso. Per altre informazioni, vedi Come creare un indice vettoriale.

Disponibilità di offerte e modelli a livello di area

La fatturazione con pagamento in base al consumo è disponibile solo per gli utenti la cui sottoscrizione di Azure appartiene a un account di fatturazione in un paese in cui il provider di modelli ha reso disponibile l'offerta (vedere "area di disponibilità dell'offerta" nella tabella nella sezione successiva). Se l'offerta è disponibile nell'area pertinente, l'utente deve avere un hub/progetto nell'area di Azure in cui il modello è disponibile per la distribuzione o l'ottimizzazione, a seconda dei casi (vedi le colonne "hub/area del progetto" nella tabella seguente).

Modello Area di disponibilità dell'offerta Hub/Area del progetto per la distribuzione Hub/Area del progetto per l'ottimizzazione
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Paesi gestiti da Microsoft Stati Uniti orientali 2, Svezia centrale Non disponibile
Llama-2-7b
Llama-2-13b
Llama-2-70b
Paesi gestiti da Microsoft Stati Uniti orientali 2, Stati Uniti occidentali 3 Stati Uniti occidentali 3
Llama-2-7b-chat
Llama-2-13b-chat
Llama-2-70b-chat
Paesi gestiti da Microsoft Stati Uniti orientali 2, Stati Uniti occidentali 3 Non disponibile
Mistral-Large
Mistral Small
Paesi gestiti da Microsoft Stati Uniti orientali 2, Svezia centrale Non disponibile
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
Paesi gestiti da Microsoft
Giappone
Stati Uniti orientali 2, Svezia centrale Non disponibile

Sicurezza del contenuto per i modelli distribuiti tramite l'API serverless

Importante

Alcune funzionalità descritte in questo articolo potrebbero essere disponibili solo in anteprima. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Azure AI Studio implementa una configurazione predefinita dei filtri di moderazione del testo Cassaforte ty per contenuti dannosi (odio, autolesionismo, violenza e sessuale) nei modelli linguistici distribuiti con MaaS. Per altre informazioni sul filtro dei contenuti (anteprima), vedere Categorie di danni nel contenuto di Intelligenza artificiale di Azure Cassaforte ty. Il filtro del contenuto (anteprima) si verifica in modo sincrono quando i processi del servizio richiedono di generare contenuto e possono essere fatturati separatamente in base ai prezzi di AACS per tale utilizzo. È possibile disabilitare il filtro dei contenuti per singoli endpoint serverless quando si distribuisce un modello linguistico per la prima volta o nella pagina dei dettagli della distribuzione facendo clic sul pulsante di attivazione/disattivazione del filtro dei contenuti. Se i filtri di contenuto sono disattivati, il rischio di esporre gli utenti a contenuti dannosi è più elevato.

Passaggi successivi