Esempi di inferenza dell'API serverless per i modelli Foundry

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).

🔍Per informazioni sul nuovo portale, vedere la documentazione di Microsoft Foundry (nuova).

Il catalogo dei modelli Foundry offre una vasta selezione di modelli Microsoft Foundry da un'ampia gamma di provider. Sono disponibili varie opzioni per la distribuzione di modelli dal catalogo dei modelli. Questo articolo elenca esempi di inferenza per le distribuzioni di API serverless.

Important

I modelli in anteprima vengono contrassegnati come anteprima nelle schede del modello nel catalogo dei modelli.

Per eseguire l'inferenza con i modelli, modelli come TimeGEN-1 di Nixtla e Cohere rerank richiedono di utilizzare API personalizzate dai provider di modelli. Altri supportano l'inferenza usando l'API di inferenza del modello. Per altre informazioni sui singoli modelli, vedere le schede dei modelli nel catalogo dei modelli del Portal Foundry.

Cohere

La famiglia di modelli Cohere include diversi modelli ottimizzati per differenti casi d'uso, tra cui il rerank, i completamenti delle chat e i modelli di incorporazione.

Esempi di inferenza: comando e incorporamento Cohere

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Cohere.

Description	Language	Sample
Richieste Web	Bash	Command-R Command-R+ cohere-embed.ipynb
Pacchetto di inferenza di Intelligenza artificiale di Azure per C#	C#	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript	JavaScript	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python	Python	Link
SDK di OpenAI (sperimentale)	Python	Link
LangChain	Python	Link
Cohere SDK	Python	Command Embed
LiteLLM SDK	Python	Link

Esempi di generazione aumentata da recupero (RAG) e di utilizzo degli strumenti: comando e incorporamento Cohere

Description	Packages	Sample
Creare un indice vettoriale FAISS (Facebook AI Similarity Search) locale utilizzando gli incorporamenti di Cohere - Langchain	`langchain`, `langchain_cohere`	cohere_faiss_langchain_embed.ipynb
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale FAISS locale - Langchain	`langchain`, `langchain_cohere`	command_faiss_langchain.ipynb
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale di AI Search - Langchain	`langchain`, `langchain_cohere`	cohere-aisearch-langchain-rag.ipynb
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale di AI Search - Cohere SDK	`cohere`, `azure_search_documents`	cohere-aisearch-rag.ipynb
Chiamata di uno strumento/funzione Command R+ con LangChain	`cohere`, `langchain`, `langchain_cohere`	command_tools-langchain.ipynb

Rerank Cohere

Per eseguire l'inferenza con i modelli cohere rerank, è necessario usare le API di rerank personalizzate di Cohere. Per altre informazioni sul modello Cohere rerank e sulle relative funzionalità, vedere Rerank cohere.

Prezzi per i modelli di "Cohere rerank"

Le query, da non confondere con la query di un utente, è un contatore dei prezzi che fa riferimento al costo associato ai token usati come input per l'inferenza di un modello Cohere Rerank. Cohere conta una singola unità di ricerca come query con un massimo di 100 documenti da classificare. Documenti più lunghi di 500 token (per Cohere-rerank-v3.5) o più di 4096 token (per Cohere-rerank-v3-english e Cohere-rerank-v3-multilingual) quando inclusa la lunghezza della query di ricerca vengono suddivisi in più blocchi, in cui ogni blocco viene conteggiato come singolo documento.

Vedere la raccolta di modelli Cohere nel portale di Foundry.

Core42

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Jais.

Description	Language	Sample
Pacchetto di inferenza di Intelligenza artificiale di Azure per C#	C#	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript	JavaScript	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python	Python	Link

DeepSeek

La famiglia di modelli DeepSeek include DeepSeek-R1, che eccelle nelle attività di ragionamento usando un processo di training dettagliato, ad esempio linguaggio, ragionamento scientifico e attività di codifica, DeepSeek-V3-0324, un modello linguistico Mix-of-Experts (MoE) e altro ancora.

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli DeepSeek.

Description	Language	Sample
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python	Python	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript	JavaScript	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per C#	C#	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Java	Java	Link

Microsoft

I modelli Microsoft includono vari gruppi di modelli, ad esempio modelli MAI, modelli Phi, modelli di intelligenza artificiale per il settore sanitario e altro ancora. Per visualizzare tutti i modelli Microsoft disponibili, visualizzare la raccolta di modelli Microsoft nel portale foundry.

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Microsoft.

Description	Language	Sample
Pacchetto di inferenza di Intelligenza artificiale di Azure per C#	C#	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript	JavaScript	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python	Python	Link
LangChain	Python	Link
Llama-Index	Python	Link

Vedere la raccolta di modelli Microsoft nel portale foundry.

Intelligenza artificiale Mistral

L'intelligenza artificiale mistrale offre due categorie di modelli, ovvero:

Modelli Premium: sono inclusi i modelli Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B e sono disponibili come API serverless con fatturazione basata su token con pagamento in base al consumo.
Modelli aperti: questi includono Mistral-small-2503, Codestral e Mistral Nemo (disponibili come API serverless con fatturazione basata su token con pagamento in base al consumo) e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01(disponibili per il download e l'esecuzione su endpoint gestiti self-hosted).

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Mistral.

Description	Language	Sample
Richiesta CURL	Bash	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per C#	C#	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript	JavaScript	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python	Python	Link
Richieste Web Python	Python	Link
SDK di OpenAI (sperimentale)	Python	Mistral - Esempio di OpenAI SDK
LangChain	Python	Esempio di Mistral - LangChain
Intelligenza artificiale Mistral	Python	Mistral - Esempio di intelligenza artificiale mistrale
LiteLLM	Python	Mistral - Esempio LiteLLM

Nixtla

TimeGEN-1 di Nixtla è un modello generativo pre-addestrato per la previsione e il rilevamento di anomalie nei dati delle serie temporali. TimeGEN-1 può produrre previsioni accurate per le nuove serie temporali senza training, usando solo i valori cronologici e le covariate esogene come input.

Per eseguire l'inferenza, TimeGEN-1 richiede l'uso dell'API di inferenza personalizzata di Nixtla. Per altre informazioni sul modello TimeGEN-1 e sulle relative funzionalità, vedere Nixtla.

Stimare il numero di token necessari

Prima di creare una distribuzione TimeGEN-1, è utile stimare il numero di token che si prevede di utilizzare e fatturare. Un token corrisponde a un punto dati nel set di dati di input o nel set di dati di output.

Si supponga di avere il set di dati della serie temporale di input seguente:

Unique_id	Timestamp	Variabile di destinazione	Variabile esogena 1	Variabile esogena 2
BE	2016-10-22 00:00:00	70.00	49593.0	57253.0
BE	2016-10-22 01:00:00	37.10	46073.0	51887.0

Per determinare il numero di token, moltiplicare il numero di righe (in questo esempio, due) e il numero di colonne usate per la previsione, senza contare le colonne unique_id e timestamp (in questo esempio, tre) per ottenere un totale di sei token.

Dato il set di dati di output seguente:

Unique_id	Timestamp	Variabile di destinazione prevista
BE	2016-10-22 02:00:00	46.57
BE	2016-10-22 03:00:00	48.57

È anche possibile determinare il numero di token conteggiando il numero di punti dati restituiti dopo la previsione dei dati. In questo esempio il numero di token è due.

Stimare i prezzi in base ai token

Ci sono quattro contatori dei prezzi che determinano il prezzo che si paga. Questi contatori sono i seguenti:

Contatore prezzi	Description
paygo-inference-input-tokens	Costi associati ai token usati come input per l'inferenza quando finetune_steps = 0
paygo-inference-output-tokens	Costi associati ai token usati come output per l'inferenza quando finetune_steps = 0
paygo-finetuned-model-inference-input-tokens	Costi associati ai token usati come input per l'inferenza quando finetune_steps> 0
paygo-finetuned-model-inference-output-tokens	Costi associati ai token usati come output per l'inferenza quando finetune_steps> 0

Vedere la raccolta di modelli Nixtla nel portale di Foundry.

Stabilità dell'intelligenza artificiale

I modelli di IA di Stability distribuiti tramite API serverless implementano l'API di inferenza del modello nel percorso /image/generations. Per esempi di come usare i modelli di intelligenza artificiale per la stabilità, vedere gli esempi seguenti:

Gretel Navigator

Gretel Navigator usa un'architettura di intelligenza artificiale composta progettata appositamente per i dati sintetici, combinando i principali modelli di linguaggio di piccole dimensioni open source ottimizzati in più di 10 domini di settore. Questo sistema appositamente creato crea set di dati diversi e specifici del dominio su larga scala di centinaia a milioni di esempi. Il sistema mantiene anche relazioni statistiche complesse e offre una maggiore velocità e precisione rispetto alla creazione manuale dei dati.

Description	Language	Sample
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript	JavaScript	Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python	Python	Link

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-11-08