Condividi tramite


Esempi di inferenza dell'API serverless per i modelli Foundry

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).

🔍Per informazioni sul nuovo portale, vedere la documentazione di Microsoft Foundry (nuova).

Il catalogo dei modelli Foundry offre una vasta selezione di modelli Microsoft Foundry da un'ampia gamma di provider. Sono disponibili varie opzioni per la distribuzione di modelli dal catalogo dei modelli. Questo articolo elenca esempi di inferenza per le distribuzioni di API serverless.

Important

I modelli in anteprima vengono contrassegnati come anteprima nelle schede del modello nel catalogo dei modelli.

Per eseguire l'inferenza con i modelli, modelli come TimeGEN-1 di Nixtla e Cohere rerank richiedono di utilizzare API personalizzate dai provider di modelli. Altri supportano l'inferenza usando l'API di inferenza del modello. Per altre informazioni sui singoli modelli, vedere le schede dei modelli nel catalogo dei modelli del Portal Foundry.

Cohere

La famiglia di modelli Cohere include diversi modelli ottimizzati per differenti casi d'uso, tra cui il rerank, i completamenti delle chat e i modelli di incorporazione.

Esempi di inferenza: comando e incorporamento Cohere

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Cohere.

Description Language Sample
Richieste Web Bash Command-RCommand-R+
cohere-embed.ipynb
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# C# Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript JavaScript Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python Python Link
SDK di OpenAI (sperimentale) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

Esempi di generazione aumentata da recupero (RAG) e di utilizzo degli strumenti: comando e incorporamento Cohere

Description Packages Sample
Creare un indice vettoriale FAISS (Facebook AI Similarity Search) locale utilizzando gli incorporamenti di Cohere - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale FAISS locale - Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale di AI Search - Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale di AI Search - Cohere SDK cohere, azure_search_documents cohere-aisearch-rag.ipynb
Chiamata di uno strumento/funzione Command R+ con LangChain cohere, langchain, langchain_cohere command_tools-langchain.ipynb

Rerank Cohere

Per eseguire l'inferenza con i modelli cohere rerank, è necessario usare le API di rerank personalizzate di Cohere. Per altre informazioni sul modello Cohere rerank e sulle relative funzionalità, vedere Rerank cohere.

Prezzi per i modelli di "Cohere rerank"

Le query, da non confondere con la query di un utente, è un contatore dei prezzi che fa riferimento al costo associato ai token usati come input per l'inferenza di un modello Cohere Rerank. Cohere conta una singola unità di ricerca come query con un massimo di 100 documenti da classificare. Documenti più lunghi di 500 token (per Cohere-rerank-v3.5) o più di 4096 token (per Cohere-rerank-v3-english e Cohere-rerank-v3-multilingual) quando inclusa la lunghezza della query di ricerca vengono suddivisi in più blocchi, in cui ogni blocco viene conteggiato come singolo documento.

Vedere la raccolta di modelli Cohere nel portale di Foundry.

Core42

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Jais.

Description Language Sample
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# C# Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript JavaScript Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python Python Link

DeepSeek

La famiglia di modelli DeepSeek include DeepSeek-R1, che eccelle nelle attività di ragionamento usando un processo di training dettagliato, ad esempio linguaggio, ragionamento scientifico e attività di codifica, DeepSeek-V3-0324, un modello linguistico Mix-of-Experts (MoE) e altro ancora.

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli DeepSeek.

Description Language Sample
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python Python Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript JavaScript Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# C# Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Java Java Link

Meta

I modelli e gli strumenti Meta Llama sono una raccolta di modelli di intelligenza artificiale generativa preaddestrati e perfezionati per il ragionamento su testo e immagini. La gamma di modelli Meta è progettata per includere:

  • Piccoli modelli linguistici (SLM), ad esempio modelli Base e Instruct 1B e 3B per l'inferenza su dispositivo ed edge
  • Modelli di linguaggio di medie dimensioni (LLMs) come i modelli 7B, 8B e i modelli 70B Base e Instruct.
  • Modelli ad alte prestazioni come Meta Llama 3.1-405B Instruct per la generazione di dati sintetici e i casi d'uso della distillazione.
  • Modelli multimodali ad alta prestazione nativi, Llama 4 Scout e Llama 4 Maverick, sfruttano un'architettura a miscela di esperti per offrire prestazioni leader del settore nella comprensione di testi e immagini.

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Meta Llama.

Description Language Sample
Richiesta CURL Bash Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# C# Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript JavaScript Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python Python Link
Richieste Web Python Python Link
SDK di OpenAI (sperimentale) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

I modelli Microsoft includono vari gruppi di modelli, ad esempio modelli MAI, modelli Phi, modelli di intelligenza artificiale per il settore sanitario e altro ancora. Per visualizzare tutti i modelli Microsoft disponibili, visualizzare la raccolta di modelli Microsoft nel portale foundry.

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Microsoft.

Description Language Sample
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# C# Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript JavaScript Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python Python Link
LangChain Python Link
Llama-Index Python Link

Vedere la raccolta di modelli Microsoft nel portale foundry.

Intelligenza artificiale Mistral

L'intelligenza artificiale mistrale offre due categorie di modelli, ovvero:

  • Modelli Premium: sono inclusi i modelli Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B e sono disponibili come API serverless con fatturazione basata su token con pagamento in base al consumo.
  • Modelli aperti: questi includono Mistral-small-2503, Codestral e Mistral Nemo (disponibili come API serverless con fatturazione basata su token con pagamento in base al consumo) e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01(disponibili per il download e l'esecuzione su endpoint gestiti self-hosted).

Nella tabella seguente vengono forniti collegamenti ad esempi di come usare i modelli Mistral.

Description Language Sample
Richiesta CURL Bash Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# C# Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript JavaScript Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python Python Link
Richieste Web Python Python Link
SDK di OpenAI (sperimentale) Python Mistral - Esempio di OpenAI SDK
LangChain Python Esempio di Mistral - LangChain
Intelligenza artificiale Mistral Python Mistral - Esempio di intelligenza artificiale mistrale
LiteLLM Python Mistral - Esempio LiteLLM

Nixtla

TimeGEN-1 di Nixtla è un modello generativo pre-addestrato per la previsione e il rilevamento di anomalie nei dati delle serie temporali. TimeGEN-1 può produrre previsioni accurate per le nuove serie temporali senza training, usando solo i valori cronologici e le covariate esogene come input.

Per eseguire l'inferenza, TimeGEN-1 richiede l'uso dell'API di inferenza personalizzata di Nixtla. Per altre informazioni sul modello TimeGEN-1 e sulle relative funzionalità, vedere Nixtla.

Stimare il numero di token necessari

Prima di creare una distribuzione TimeGEN-1, è utile stimare il numero di token che si prevede di utilizzare e fatturare. Un token corrisponde a un punto dati nel set di dati di input o nel set di dati di output.

Si supponga di avere il set di dati della serie temporale di input seguente:

Unique_id Timestamp Variabile di destinazione Variabile esogena 1 Variabile esogena 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

Per determinare il numero di token, moltiplicare il numero di righe (in questo esempio, due) e il numero di colonne usate per la previsione, senza contare le colonne unique_id e timestamp (in questo esempio, tre) per ottenere un totale di sei token.

Dato il set di dati di output seguente:

Unique_id Timestamp Variabile di destinazione prevista
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

È anche possibile determinare il numero di token conteggiando il numero di punti dati restituiti dopo la previsione dei dati. In questo esempio il numero di token è due.

Stimare i prezzi in base ai token

Ci sono quattro contatori dei prezzi che determinano il prezzo che si paga. Questi contatori sono i seguenti:

Contatore prezzi Description
paygo-inference-input-tokens Costi associati ai token usati come input per l'inferenza quando finetune_steps = 0
paygo-inference-output-tokens Costi associati ai token usati come output per l'inferenza quando finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Costi associati ai token usati come input per l'inferenza quando finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Costi associati ai token usati come output per l'inferenza quando finetune_steps> 0

Vedere la raccolta di modelli Nixtla nel portale di Foundry.

Stabilità dell'intelligenza artificiale

I modelli di IA di Stability distribuiti tramite API serverless implementano l'API di inferenza del modello nel percorso /image/generations. Per esempi di come usare i modelli di intelligenza artificiale per la stabilità, vedere gli esempi seguenti:

Gretel Navigator

Gretel Navigator usa un'architettura di intelligenza artificiale composta progettata appositamente per i dati sintetici, combinando i principali modelli di linguaggio di piccole dimensioni open source ottimizzati in più di 10 domini di settore. Questo sistema appositamente creato crea set di dati diversi e specifici del dominio su larga scala di centinaia a milioni di esempi. Il sistema mantiene anche relazioni statistiche complesse e offre una maggiore velocità e precisione rispetto alla creazione manuale dei dati.

Description Language Sample
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript JavaScript Link
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python Python Link