Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Annotazioni
Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).
🔍Per informazioni sul nuovo portale, vedere la documentazione di Microsoft Foundry (nuova).
Il catalogo dei modelli Foundry offre una vasta selezione di modelli Microsoft Foundry da un'ampia gamma di provider. Sono disponibili varie opzioni per la distribuzione di modelli dal catalogo dei modelli. Questo articolo elenca esempi di inferenza per le distribuzioni di API serverless.
Important
I modelli in anteprima vengono contrassegnati come anteprima nelle schede del modello nel catalogo dei modelli.
Per eseguire l'inferenza con i modelli, modelli come TimeGEN-1 di Nixtla e Cohere rerank richiedono di utilizzare API personalizzate dai provider di modelli. Altri supportano l'inferenza usando l'API di inferenza del modello. Per altre informazioni sui singoli modelli, vedere le schede dei modelli nel catalogo dei modelli del Portal Foundry.
Cohere
La famiglia di modelli Cohere include diversi modelli ottimizzati per differenti casi d'uso, tra cui il rerank, i completamenti delle chat e i modelli di incorporazione.
Esempi di inferenza: comando e incorporamento Cohere
Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Cohere.
| Description | Language | Sample |
|---|---|---|
| Richieste Web | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Python | Link |
| SDK di OpenAI (sperimentale) | Python | Link |
| LangChain | Python | Link |
| Cohere SDK | Python |
Command Embed |
| LiteLLM SDK | Python | Link |
Esempi di generazione aumentata da recupero (RAG) e di utilizzo degli strumenti: comando e incorporamento Cohere
| Description | Packages | Sample |
|---|---|---|
| Creare un indice vettoriale FAISS (Facebook AI Similarity Search) locale utilizzando gli incorporamenti di Cohere - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale FAISS locale - Langchain |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale di AI Search - Langchain |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale di AI Search - Cohere SDK |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| Chiamata di uno strumento/funzione Command R+ con LangChain |
cohere, langchain, langchain_cohere |
command_tools-langchain.ipynb |
Rerank Cohere
Per eseguire l'inferenza con i modelli cohere rerank, è necessario usare le API di rerank personalizzate di Cohere. Per altre informazioni sul modello Cohere rerank e sulle relative funzionalità, vedere Rerank cohere.
Prezzi per i modelli di "Cohere rerank"
Le query, da non confondere con la query di un utente, è un contatore dei prezzi che fa riferimento al costo associato ai token usati come input per l'inferenza di un modello Cohere Rerank. Cohere conta una singola unità di ricerca come query con un massimo di 100 documenti da classificare. Documenti più lunghi di 500 token (per Cohere-rerank-v3.5) o più di 4096 token (per Cohere-rerank-v3-english e Cohere-rerank-v3-multilingual) quando inclusa la lunghezza della query di ricerca vengono suddivisi in più blocchi, in cui ogni blocco viene conteggiato come singolo documento.
Vedere la raccolta di modelli Cohere nel portale di Foundry.
Core42
Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Jais.
| Description | Language | Sample |
|---|---|---|
| Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Python | Link |
DeepSeek
La famiglia di modelli DeepSeek include DeepSeek-R1, che eccelle nelle attività di ragionamento usando un processo di training dettagliato, ad esempio linguaggio, ragionamento scientifico e attività di codifica, DeepSeek-V3-0324, un modello linguistico Mix-of-Experts (MoE) e altro ancora.
Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli DeepSeek.
| Description | Language | Sample |
|---|---|---|
| Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Python | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per Java | Java | Link |
Meta
I modelli e gli strumenti Meta Llama sono una raccolta di modelli di intelligenza artificiale generativa preaddestrati e perfezionati per il ragionamento su testo e immagini. La gamma di modelli Meta è progettata per includere:
- Piccoli modelli linguistici (SLM), ad esempio modelli Base e Instruct 1B e 3B per l'inferenza su dispositivo ed edge
- Modelli di linguaggio di medie dimensioni (LLMs) come i modelli 7B, 8B e i modelli 70B Base e Instruct.
- Modelli ad alte prestazioni come Meta Llama 3.1-405B Instruct per la generazione di dati sintetici e i casi d'uso della distillazione.
- Modelli multimodali ad alta prestazione nativi, Llama 4 Scout e Llama 4 Maverick, sfruttano un'architettura a miscela di esperti per offrire prestazioni leader del settore nella comprensione di testi e immagini.
Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Meta Llama.
| Description | Language | Sample |
|---|---|---|
| Richiesta CURL | Bash | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Python | Link |
| Richieste Web Python | Python | Link |
| SDK di OpenAI (sperimentale) | Python | Link |
| LangChain | Python | Link |
| LiteLLM | Python | Link |
Microsoft
I modelli Microsoft includono vari gruppi di modelli, ad esempio modelli MAI, modelli Phi, modelli di intelligenza artificiale per il settore sanitario e altro ancora. Per visualizzare tutti i modelli Microsoft disponibili, visualizzare la raccolta di modelli Microsoft nel portale foundry.
Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Microsoft.
| Description | Language | Sample |
|---|---|---|
| Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Python | Link |
| LangChain | Python | Link |
| Llama-Index | Python | Link |
Vedere la raccolta di modelli Microsoft nel portale foundry.
Intelligenza artificiale Mistral
L'intelligenza artificiale mistrale offre due categorie di modelli, ovvero:
- Modelli Premium: sono inclusi i modelli Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B e sono disponibili come API serverless con fatturazione basata su token con pagamento in base al consumo.
- Modelli aperti: questi includono Mistral-small-2503, Codestral e Mistral Nemo (disponibili come API serverless con fatturazione basata su token con pagamento in base al consumo) e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01(disponibili per il download e l'esecuzione su endpoint gestiti self-hosted).
Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Mistral.
| Description | Language | Sample |
|---|---|---|
| Richiesta CURL | Bash | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Python | Link |
| Richieste Web Python | Python | Link |
| SDK di OpenAI (sperimentale) | Python | Mistral - Esempio di OpenAI SDK |
| LangChain | Python | Esempio di Mistral - LangChain |
| Intelligenza artificiale Mistral | Python | Mistral - Esempio di intelligenza artificiale mistrale |
| LiteLLM | Python | Mistral - Esempio LiteLLM |
Nixtla
TimeGEN-1 di Nixtla è un modello generativo pre-addestrato per la previsione e il rilevamento di anomalie nei dati delle serie temporali. TimeGEN-1 può produrre previsioni accurate per le nuove serie temporali senza training, usando solo i valori cronologici e le covariate esogene come input.
Per eseguire l'inferenza, TimeGEN-1 richiede l'uso dell'API di inferenza personalizzata di Nixtla. Per altre informazioni sul modello TimeGEN-1 e sulle relative funzionalità, vedere Nixtla.
Stimare il numero di token necessari
Prima di creare una distribuzione TimeGEN-1, è utile stimare il numero di token che si prevede di utilizzare e fatturare. Un token corrisponde a un punto dati nel set di dati di input o nel set di dati di output.
Si supponga di avere il set di dati della serie temporale di input seguente:
| Unique_id | Timestamp | Variabile di destinazione | Variabile esogena 1 | Variabile esogena 2 |
|---|---|---|---|---|
| BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
Per determinare il numero di token, moltiplicare il numero di righe (in questo esempio, due) e il numero di colonne usate per la previsione, senza contare le colonne unique_id e timestamp (in questo esempio, tre) per ottenere un totale di sei token.
Dato il set di dati di output seguente:
| Unique_id | Timestamp | Variabile di destinazione prevista |
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 |
| BE | 2016-10-22 03:00:00 | 48.57 |
È anche possibile determinare il numero di token conteggiando il numero di punti dati restituiti dopo la previsione dei dati. In questo esempio il numero di token è due.
Stimare i prezzi in base ai token
Ci sono quattro contatori dei prezzi che determinano il prezzo che si paga. Questi contatori sono i seguenti:
| Contatore prezzi | Description |
|---|---|
| paygo-inference-input-tokens | Costi associati ai token usati come input per l'inferenza quando finetune_steps = 0 |
| paygo-inference-output-tokens | Costi associati ai token usati come output per l'inferenza quando finetune_steps = 0 |
| paygo-finetuned-model-inference-input-tokens | Costi associati ai token usati come input per l'inferenza quando finetune_steps> 0 |
| paygo-finetuned-model-inference-output-tokens | Costi associati ai token usati come output per l'inferenza quando finetune_steps> 0 |
Vedere la raccolta di modelli Nixtla nel portale di Foundry.
Stabilità dell'intelligenza artificiale
I modelli di IA di Stability distribuiti tramite API serverless implementano l'API di inferenza del modello nel percorso /image/generations.
Per esempi di come usare i modelli di intelligenza artificiale per la stabilità, vedere gli esempi seguenti:
- Usare OpenAI SDK con i modelli di Stability AI per le richieste di conversione da testo a immagine
- Usare la libreria Requests con i modelli di Stability AI per le richieste di conversione da testo a immagine
- Utilizzare la libreria Requests con Stable Diffusion 3.5 Large per richieste da immagine a immagine
- Esempio di risposta di generazione di immagini completamente codificate
Gretel Navigator
Gretel Navigator usa un'architettura di intelligenza artificiale composta progettata appositamente per i dati sintetici, combinando i principali modelli di linguaggio di piccole dimensioni open source ottimizzati in più di 10 domini di settore. Questo sistema appositamente creato crea set di dati diversi e specifici del dominio su larga scala di centinaia a milioni di esempi. Il sistema mantiene anche relazioni statistiche complesse e offre una maggiore velocità e precisione rispetto alla creazione manuale dei dati.
| Description | Language | Sample |
|---|---|---|
| Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Link |
| Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Python | Link |