Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Il catalogo dei modelli di intelligenza artificiale di Azure offre una vasta gamma di modelli di Azure AI Foundry da un'ampia gamma di provider. Sono disponibili varie opzioni per la distribuzione di modelli dal catalogo dei modelli. Questo articolo elenca i modelli di Azure AI Foundry che possono essere distribuiti tramite la distribuzione standard. Per alcuni di questi modelli, è anche possibile ospitarli nell'infrastruttura per la distribuzione tramite calcolo gestito.
Importante
I modelli in anteprima vengono contrassegnati come anteprima nelle schede del modello nel catalogo dei modelli.
Per eseguire l'inferenza con i modelli, alcuni modelli come TimeGEN-1 di Nixtla e Cohere richiedono di utilizzare le API personalizzate fornite dai fornitori dei modelli. Altri supportano l'inferenza usando l'API di inferenza del modello. Per altre informazioni sui singoli modelli, vedere le schede dei modelli nel catalogo dei modelli per il portale di Azure AI Foundry.
AI21 Labs
I modelli della famiglia Jamba sono grandi modelli di linguaggio di livello di produzione di AI21 basati su Mamba, che utilizzano l'architettura ibrida Mamba-Transformer di AI21. Si tratta di una versione ottimizzata per istruzioni del modello Jamba Transformer SSM (State Space Model) strutturato ibrido di AI21. I modelli della famiglia Jamba sono stati progettati per un uso commerciale affidabile a livello di qualità e prestazioni.
Modello | TIPO | Capacità |
---|---|---|
AI21-Jamba-1.5-Mini | chat-completion | - Input: testo (262.144 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON, output strutturati |
AI21-Jamba-1.5-Large | chat-completion | - Input: testo (262.144 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON, output strutturati |
Vedere questa raccolta di modelli nel portale di Azure AI Foundry.
Azure OpenAI
Azure OpenAI in Foundry Models offre un set diversificato di modelli con funzionalità e punti di prezzo diversi. Questi modelli includono:
- Modelli all'avanguardia progettati per affrontare le attività di ragionamento e risoluzione dei problemi con maggiore attenzione e capacità
- Modelli che possono comprendere e generare codice e linguaggio naturale
- Modelli che possono trascrivere e tradurre la voce in testo
Modello | TIPO | Capacità |
---|---|---|
o3-mini | chat-completion | - Input: testo e immagine (200.000 token) - Output: testo (100.000 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON, output strutturati |
o1 | completamento della chat (con immagini) | - Input: testo e immagine (200.000 token) - Output: testo (100.000 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON, output strutturati |
o1-preview | chat-completion | - Input: testo (128.000 token) - Output: testo (32.768 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON, output strutturati |
o1-mini | chat-completion | - Input: testo (128.000 token) - Output: testo (65.536 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
gpt-4o-realtime-preview | tempo reale | - Input: controllo, testo e audio (131.072 token) - Output: testo e audio (16,384 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
gpt-4o | completamento della chat (con contenuto audio e immagine) | - Input: testo, immagine e audio (131.072 token) - Output: testo (16.384 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON, output strutturati |
gpt-4o-mini | completamento della chat (con contenuto audio e immagine) | - Input: testo, immagine e audio (131.072 token) - Output: testo (16.384 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON, output strutturati |
text-embedding-3-large | incorporamenti | - Input: testo (8.191 token) - Output: vettore (3.072 dim.) |
text-embedding-3-small | incorporamenti | - Input: testo (8.191 token) - Output: vettore (1.536 dim.) |
Vedere questa raccolta di modelli nel portale di Azure AI Foundry.
Cohere
La famiglia di modelli Cohere include diversi modelli ottimizzati per differenti casi d'uso, tra cui il rerank, i completamenti delle chat e i modelli di incorporazione.
Comando e incorporazione Cohere
La tabella seguente elenca i modelli Cohere che è possibile dedurre tramite l'API di inferenza del modello.
Modello | TIPO | Capacità |
---|---|---|
Cohere-command-A | chat-completion | - Input: testo (256.000 token) - Output: testo (8.000 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo |
Cohere-command-r-plus-08-2024 | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Cohere-command-r-08-2024 | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Cohere-command-r-plus (deprecato) |
chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Cohere-command-r (deprecato) |
chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Cohere-embed-v-4 | incorporamenti incorporamenti di immagini |
- Input: immagine, testo - Output: immagine, testo (128.000 token) - Chiamata dello strumento: Sì - Formati di risposta: immagine, testo |
Cohere-embed-v3-english | incorporamenti incorporamenti di immagini |
- Input: testo (512 token) - Output: vettore (1.024 dim.) |
Cohere-embed-v3-multilingual | incorporamenti incorporamenti di immagini |
- Input: testo (512 token) - Output: vettore (1.024 dim.) |
Esempi di inferenza: comando e incorporamento Cohere
Per altri esempi di come usare i modelli Cohere, vedere gli esempi seguenti:
Descrizione | Lingua | Esempio |
---|---|---|
Richieste Web | Bash | Command-RCommand-R+ cohere-embed.ipynb |
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Pitone | Collegamento |
SDK di OpenAI (sperimentale) | Pitone | Collegamento |
LangChain | Pitone | Collegamento |
Cohere SDK | Pitone | Comando Incorpora |
LiteLLM SDK | Pitone | Collegamento |
Esempi di generazione aumentata da recupero (RAG) e di utilizzo degli strumenti: comando e incorporamento Cohere
Descrizione | Pacchetti | Esempio |
---|---|---|
Creare un indice vettoriale FAISS (Facebook AI Similarity Search) locale utilizzando gli incorporamenti di Cohere - Langchain | langchain , langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale FAISS locale - Langchain | langchain , langchain_cohere |
command_faiss_langchain.ipynb |
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale di AI Search - Langchain | langchain , langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
Usare Cohere Command R/R+ per rispondere alle domande dai dati presenti nell'indice vettoriale di AI Search - Cohere SDK | cohere , azure_search_documents |
cohere-aisearch-rag.ipynb |
Chiamata di uno strumento/funzione Command R+ con LangChain | cohere , langchain , langchain_cohere |
command_tools-langchain.ipynb |
Rerank Cohere
Nella tabella seguente sono elencati i modelli rerank Cohere. Per eseguire l'inferenza con questi modelli rerank, è necessario usare le API di rerank personalizzate di Cohere elencate nella tabella.
Modello | TIPO | API di inferenza |
---|---|---|
Cohere-rerank-v3.5 | rerank classificazione del testo |
API v2/rerank di Cohere |
Cohere-rerank-v3-english (deprecato) |
rerank classificazione del testo |
API v2/rerank di Cohere API v1/rerank di Cohere |
Cohere-rerank-v3-multilingual (deprecato) |
rerank classificazione del testo |
API v2/rerank di Cohere API v1/rerank di Cohere |
Prezzi per i modelli di "Cohere rerank"
Le query, da non confondere con la query di un utente, è un contatore dei prezzi che fa riferimento al costo associato ai token usati come input per l'inferenza di un modello Cohere Rerank. Cohere conta una singola unità di ricerca come query con un massimo di 100 documenti da classificare. Documenti più lunghi di 500 token (per Cohere-rerank-v3.5) o più di 4096 token (per Cohere-rerank-v3-english e Cohere-rerank-v3-multilingual) quando inclusa la lunghezza della query di ricerca vengono suddivisi in più blocchi, in cui ogni blocco viene conteggiato come singolo documento.
Vedere la raccolta di modelli Cohere nel portale di Azure AI Foundry.
Core42
Core42 include LLM bidirezionali autoregressivi per arabo e inglese con funzionalità all'avanguardia in arabo.
Modello | TIPO | Capacità |
---|---|---|
jais-30b-chat | chat-completion | - Input: testo (8.192 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Vedere questa raccolta di modelli nel portale di Azure AI Foundry.
Esempi di inferenza: Core42
Per altri esempi di come usare i modelli Jais, vedere gli esempi seguenti:
Descrizione | Lingua | Esempio |
---|---|---|
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Pitone | Collegamento |
DeepSeek
La famiglia di modelli DeepSeek include DeepSeek-R1, che eccelle nelle attività di ragionamento usando un processo di training dettagliato, ad esempio linguaggio, ragionamento scientifico e attività di codifica, DeepSeek-V3-0324, un modello linguistico Mix-of-Experts (MoE) e altro ancora.
Modello | TIPO | Capacità |
---|---|---|
DeepSeek-R1-0528 |
completamento della chat con contenuto di ragionamento | - Input: testo (163.840 token) - Output: testo (163.840 token) - Lingue: en e zh - Chiamata dello strumento: no - Formati di risposta: Testo |
DeekSeek-V3-0324 | chat-completion | - Input: testo (131.072 token) - Output: (131.072 token) - Chiamata dello strumento: no - Formati di risposta: Testo, JSON |
DeepSeek-V3 (Legacy) |
chat-completion | - Input: testo (131.072 token) - Output: testo (131.072 token) - Chiamata dello strumento: no - Formati di risposta: Testo, JSON |
DeepSeek-R1 | completamento della chat con contenuto di ragionamento | - Input: testo (163.840 token) - Output: testo (163.840 token) - Chiamata dello strumento: no - Formati di risposta: testo. |
Per un'esercitazione su DeepSeek-R1, vedere Esercitazione: Introduzione al modello di ragionamento DeepSeek-R1 nei modelli Foundry.
Vedere questa raccolta di modelli nel portale di Azure AI Foundry.
Esempi di inferenza: DeepSeek
Per altri esempi di come usare i modelli DeepSeek, vedere gli esempi seguenti:
Descrizione | Lingua | Esempio |
---|---|---|
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Pitone | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per Java | Giava | Collegamento |
Meta
I modelli e gli strumenti Meta Llama sono una raccolta di modelli di intelligenza artificiale generativa preaddestrati e perfezionati per il ragionamento su testo e immagini. La gamma di modelli Meta è progettata per includere:
- Piccoli modelli linguistici (SLM), ad esempio modelli Base e Instruct 1B e 3B per l'inferenza su dispositivo ed edge
- Modelli di linguaggio di grandi dimensioni (LLM) di medie dimensioni come modelli Basic e Instruct 7B, 8B e 70B
- Modelli ad alte prestazioni come Meta Llama 3.1-405B Instruct per la generazione di dati sintetici e i casi d'uso della distillazione.
- Modelli multimodali ad alta prestazione nativi, Llama 4 Scout e Llama 4 Maverick, sfruttano un'architettura a miscela di esperti per offrire prestazioni leader del settore nella comprensione di testi e immagini.
Modello | TIPO | Capacità |
---|---|---|
Llama-4-Scout-17B-16E-Instruct | chat-completion | - Input: testo e immagine (128.000 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Llama 4-Maverick-17B-128E-Instruct-FP8 | chat-completion | - Input: testo e immagine (128.000 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Llama-3.3-70B-Instruct | chat-completion | - Input: testo (128.000 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Llama-3.2-90B-Vision-Instruct | completamento della chat (con immagini) | - Input: testo e immagine (128.000 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Llama-3.2-11B-Vision-Instruct | completamento della chat (con immagini) | - Input: testo e immagine (128.000 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Meta-Llama-3.1-8B-Instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Meta-Llama-3.1-405B-Instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Meta-Llama-3.1-70B-Instruct (deprecato) | chat-completion | - Input: testo (131.072 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Meta-Llama-3-8B-Instruct (deprecato) | chat-completion | - Input: testo (8.192 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Meta-Llama-3-70B-Instruct (deprecato) | chat-completion | - Input: testo (8.192 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Vedere questa raccolta di modelli nel portale di Azure AI Foundry.
Esempi di inferenza: Meta Llama
Per altri esempi di come usare i modelli Meta Llama, vedere gli esempi seguenti:
Descrizione | Lingua | Esempio |
---|---|---|
Richiesta CURL | Bash | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Pitone | Collegamento |
Richieste Web Python | Pitone | Collegamento |
SDK di OpenAI (sperimentale) | Pitone | Collegamento |
LangChain | Pitone | Collegamento |
LiteLLM | Pitone | Collegamento |
Microsoft
I modelli Microsoft includono vari gruppi di modelli, ad esempio modelli MAI, modelli Phi, modelli di intelligenza artificiale per il settore sanitario e altro ancora. Per visualizzare tutti i modelli Microsoft disponibili, visualizzare la raccolta di modelli Microsoft nel portale di Azure AI Foundry.
Modello | TIPO | Capacità |
---|---|---|
MAI-DS-R1 | completamento della chat con contenuto di ragionamento | - Input: testo (163.840 token) - Output: testo (163.840 token) - Chiamata dello strumento: no - Formati di risposta: testo. |
Phi-4-reasoning | completamento della chat con contenuto di ragionamento | - Input: testo (32768 token) - Output: testo (32768 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-4-mini-reasoning | completamento della chat con contenuto di ragionamento | - Input: testo (128.000 token) - Output: testo (128.000 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-4-multimodale-instruct | completamento della chat (con contenuto audio e immagine) | - Input: testo, immagini e audio (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-4-mini-instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-4 | chat-completion | - Input: testo (16.384 token) - Output: testo (16.384 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3.5-mini-instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3.5-MoE-instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3.5-vision-instruct | completamento della chat (con immagini) | - Input: testo e immagine (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3-mini-128k-instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3-mini-4k-instruct | chat-completion | - Input: testo (4.096 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3-small-128k-instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3-small-8k-instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3-medium-128k-instruct | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Phi-3-medium-4k-instruct | chat-completion | - Input: testo (4.096 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Esempi di inferenza: modelli Microsoft
Per altri esempi di come usare i modelli Microsoft, vedere gli esempi seguenti:
Descrizione | Lingua | Esempio |
---|---|---|
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Pitone | Collegamento |
LangChain | Pitone | Collegamento |
Llama-Index | Pitone | Collegamento |
Vedere la raccolta di modelli Microsoft nel portale di Azure AI Foundry.
Intelligenza artificiale Mistral
L'intelligenza artificiale mistrale offre due categorie di modelli, ovvero:
- Modelli Premium: sono inclusi i modelli Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B e sono disponibili come API serverless con fatturazione basata su token con pagamento in base al consumo.
- Modelli aperti: questi includono Mistral-small-2503, Codestral e Mistral Nemo (disponibili come API serverless con fatturazione basata su token con pagamento in base al consumo) e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01(disponibili per il download e l'esecuzione su endpoint gestiti self-hosted).
Modello | TIPO | Capacità |
---|---|---|
Codestral-2501 | chat-completion | - Input: testo (262.144 token) - Output: testo (4.096 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Ministral-3B | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Mistral-Nemo | chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Mistral-Large-2411 | chat-completion | - Input: testo (128.000 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Mistral-large-2407 (deprecato) |
chat-completion | - Input: testo (131.072 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Mistral-large (deprecato) |
chat-completion | - Input: testo (32.768 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Mistral-medium-2505 | chat-completion | - Input: testo (128.000 token), immagine - Output: testo (128.000 token) - Chiamata dello strumento: no - Formati di risposta: Testo, JSON |
Mistral-OCR-2503 | conversione da immagine a testo | - Input: immagini o pagine PDF (1.000 pagine, massimo 50 MB di file PDF) - Output: testo - Chiamata dello strumento: no - Formati di risposta: Text, JSON, Markdown |
Mistral-small-2503 | completamento della chat (con immagini) | - Input: testo e immagini (131.072 token), I token basati su immagine sono 16 px x 16 px blocchi delle immagini originali - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Mistral-small | chat-completion | - Input: testo (32.768 token) - Output: testo (4.096 token) - Chiamata dello strumento: Sì - Formati di risposta: Testo, JSON |
Vedere questa raccolta di modelli nel portale di Azure AI Foundry.
Esempi di inferenza: Mistral
Per altri esempi su come usare i modelli Mistral, vedere gli esempi e le esercitazioni seguenti:
Descrizione | Lingua | Esempio |
---|---|---|
Richiesta CURL | Bash | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per C# | C# | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per JavaScript | JavaScript | Collegamento |
Pacchetto di inferenza di Intelligenza artificiale di Azure per Python | Pitone | Collegamento |
Richieste Web Python | Pitone | Collegamento |
SDK di OpenAI (sperimentale) | Pitone | Mistral - Esempio di OpenAI SDK |
LangChain | Pitone | Esempio di Mistral - LangChain |
Intelligenza artificiale Mistral | Pitone | Mistral - Esempio di intelligenza artificiale mistrale |
LiteLLM | Pitone | Mistral - Esempio LiteLLM |
Nixtla
TimeGEN-1 di Nixtla è un modello generativo pre-addestrato per la previsione e il rilevamento di anomalie nei dati delle serie temporali. TimeGEN-1 può produrre previsioni accurate per le nuove serie temporali senza training, usando solo i valori cronologici e le covariate esogene come input.
Per eseguire l'inferenza, TimeGEN-1 richiede l'uso dell'API di inferenza personalizzata di Nixtla.
Modello | TIPO | Capacità | API di inferenza |
---|---|---|---|
TimeGEN-1 | Previsioni | - Immissione: Dati delle serie temporali come JSON o dataframe (con supporto per l'input multivariato) - Prodotto: Dati delle serie temporali come JSON - Chiamata dello strumento: no - Formati di risposta: JSON |
Prevedere che il client interagisca con l'API di Nixtla |
Stimare il numero di token necessari
Prima di creare una distribuzione TimeGEN-1, è utile stimare il numero di token che si prevede di utilizzare e fatturare. Un token corrisponde a un punto dati nel set di dati di input o nel set di dati di output.
Si supponga di avere il set di dati della serie temporale di input seguente:
ID unico | Marca temporale: | Variabile di destinazione | Variabile esogena 1 | Variabile esogena 2 |
---|---|---|---|---|
BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57.253,0 |
BE | 2016-10-22 01:00:00 | 37.10 | 46.073,0 | 51887,0 |
Per determinare il numero di token, moltiplicare il numero di righe (in questo esempio, due) e il numero di colonne usate per la previsione, senza contare le colonne unique_id e timestamp (in questo esempio, tre) per ottenere un totale di sei token.
Dato il set di dati di output seguente:
ID unico | Marca temporale: | Variabile di destinazione prevista |
---|---|---|
BE | 2016-10-22 02:00:00 | 46.57 |
BE | 2016-10-22 03:00:00 | 48.57 |
È anche possibile determinare il numero di token conteggiando il numero di punti dati restituiti dopo la previsione dei dati. In questo esempio il numero di token è due.
Stimare i prezzi in base ai token
Ci sono quattro contatori dei prezzi che determinano il prezzo che si paga. Questi contatori sono i seguenti:
Contatore prezzi | Descrizione |
---|---|
paygo-inference-input-tokens | Costi associati ai token usati come input per l'inferenza quando finetune_steps = 0 |
paygo-inference-output-tokens | Costi associati ai token usati come output per l'inferenza quando finetune_steps = 0 |
paygo-finetuned-model-inference-input-tokens | Costi associati ai token usati come input per l'inferenza quando finetune_steps> 0 |
paygo-finetuned-model-inference-output-tokens | Costi associati ai token usati come output per l'inferenza quando finetune_steps> 0 |
Vedere la raccolta di modelli Nixtla nel portale di Azure AI Foundry.
DATI NTT
tsuzumi è un trasformatore ottimizzato per il linguaggio autoregressivo. Le versioni ottimizzate usano l'ottimizzazione con supervisione (SFT). tsuzumi gestisce sia la lingua giapponese che quella inglese con un'elevata efficienza.
Modello | TIPO | Capacità |
---|---|---|
tsuzumi-7b | chat-completion | - Input: testo (8.192 token) - Output: testo (8.192 token) - Chiamata dello strumento: no - Formati di risposta: Testo |
Stabilità dell'intelligenza artificiale
La raccolta di stabilità IA di modelli di generazione immagini include Stable Image Core, Stable Image Ultra e Stable Diffusion 3.5 Large. Stable Diffusion 3.5 Large consente un'immagine e un input di testo.
Modello | TIPO | Capacità |
---|---|---|
Diffusione stabile 3.5 grande | Generazione di immagini | - Input: testo e immagine (1000 token e 1 immagine) - Output: 1 immagine - Chiamata dello strumento: no - Formati di risposta: Immagine (PNG e JPG) |
Core immagine stabile | Generazione di immagini | - Input: testo (1000 token) - Output: 1 immagine - Chiamata dello strumento: no - Formati di risposta: Immagine (PNG e JPG) |
Immagine stabile Ultra | Generazione di immagini | - Input: testo (1000 token) - Output: 1 immagine - Chiamata dello strumento: no - Formati di risposta: Immagine (PNG e JPG) |
xAI
I modelli Grok 3 e Grok 3 Mini di xAI sono progettati per eccellere in vari domini aziendali. Grok 3, un modello non logico pre-addestrato dal datacenter di Colossus, è personalizzato per i casi d'uso aziendali, come l'estrazione dati, la codifica e la sintesi testi, con eccezionali capacità di seguire istruzioni. Supporta una finestra di contesto di token di 131.072, che consente di gestire input estesi mantenendo coerenza e profondità ed è particolarmente abile nella creazione di connessioni tra domini e lingue. D'altra parte, Grok 3 Mini è un modello di ragionamento leggero addestrato per affrontare in autonomia problemi di codifica, matematica e scienza avanzata utilizzando il calcolo in fase di test. Supporta anche una finestra di contesto di token 131.072 per comprendere le codebase e i documenti aziendali ed eccelle nell'uso di strumenti per risolvere problemi logici complessi in nuovi ambienti, offrendo tracce di ragionamento non elaborate per l'ispezione degli utenti con budget di pensiero regolabili.
Modello | TIPO | Capacità |
---|---|---|
grok-3 | chat-completion | - Input: testo (131.072 token) - Output: testo (131.072 token) - Lingue: en - Utilizzo degli strumenti: sì - Formati di risposta: testo |
grok-3-mini | chat-completion | - Input: testo (131.072 token) - Output: testo (131.072 token) - Lingue: en - Utilizzo degli strumenti: sì - Formati di risposta: testo |
Esempi di inferenza: Stabilità dell'intelligenza artificiale
I modelli di Stability AI implementati tramite la distribuzione standard implementano l'API di inferenza del modello sul percorso /image/generations
.
Per esempi di come usare i modelli di intelligenza artificiale per la stabilità, vedere gli esempi seguenti:
- Usare OpenAI SDK con i modelli di Stability AI per le richieste di conversione da testo a immagine
- Usare la libreria Requests con i modelli di Stability AI per le richieste di conversione da testo a immagine
- Usare la libreria Requests con Stable Diffusion 3.5 Large per le richieste da immagine a immagine
- Esempio di risposta di generazione di immagini completamente codificate