Compartilhar via


Modelos do Azure AI Foundry disponíveis para implantação padrão

O catálogo de modelos de IA do Azure oferece uma grande seleção de modelos do Azure AI Foundry de uma ampla gama de provedores. Você tem várias opções para implantar modelos do catálogo de modelos. Este artigo lista os Modelos da Fábrica de IA do Azure que podem ser implantados por meio da implantação padrão. Para alguns desses modelos, você também pode hospedá-los em sua infraestrutura para implantação por meio de computação gerenciada.

Importante

Os modelos que estão em versão prévia são marcados como versão prévia em seus cartões de modelo no catálogo de modelos.

Para executar a inferência com os modelos, alguns modelos como TimeGEN-1 da Nixtla e Cohere rerank exigem que você use APIs personalizadas dos provedores de modelo. Outros dão suporte à inferência usando a API de Modelos do Foundry. Você pode encontrar mais detalhes sobre modelos individuais examinando seus cartões de modelo no catálogo de modelos do portal do Azure AI Foundry.

Uma animação mostrando a seção do catálogo de modelos do Azure AI Foundry e os modelos disponíveis.

Laboratórios AI21

Os modelos da família Jamba são do tipo LLM (grande modelo de linguagem) baseados em Mamba no nível de produção da AI21, que usam a arquitetura híbrida Mamba-Transformer da AI21. É uma versão ajustada por meio de instruções do modelo Jamba, que é um transformador híbrido do modelo de espaço de estado estruturado (SSM) do AI21. Os modelos da família Jamba são desenvolvidos para uso comercial confiável em termos de qualidade e desempenho.

Modelo Tipo Capacidades
AI21-Jamba-1.5-Mini finalização do chat - Entrada: texto (262.144 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
AI21-Jamba-1.5-Large finalização do chat - Entrada: texto (262.144 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Azure OpenAI

O Azure OpenAI em Modelos de Fundimento oferece um conjunto diversificado de modelos com diferentes funcionalidades e pontos de preço. Esses modelos incluem:

  • Os modelos de última geração projetados para lidar com tarefas de raciocínio e resolução de problemas com maior foco e capacidade
  • Modelos que podem entender e gerar linguagem natural e código
  • Modelos que podem transcrever e converter fala em texto
Modelo Tipo Capacidades
o3-mini finalização do chat - Entrada: texto e imagem (200.000 tokens)
- Saída: texto (100.000 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
o1 chat-completion (com imagens) - Entrada: texto e imagem (200.000 tokens)
- Saída: texto (100.000 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
o1-preview finalização do chat - Entrada: texto (128.000 tokens)
- Saída: texto (32,768 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
o1-mini finalização do chat - Entrada: texto (128.000 tokens)
- Saída: texto (65.536 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
gpt-4o-realtime-preview em tempo real - Entrada: controle, texto e áudio (131.072 tokens)
- Saída: texto e áudio (16.384 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
gpt-4o finalização de bate-papo (com conteúdo de imagem e áudio) - Entrada: texto, imagem e áudio (131.072 tokens)
- Saída: texto (16.384 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
gpt-4o-mini finalização de bate-papo (com conteúdo de imagem e áudio) - Entrada: texto, imagem e áudio (131.072 tokens)
- Saída: texto (16.384 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON, saídas estruturadas
text-embedding-3-large inserções - Entrada: texto (8.191 tokens)
- Saída: vetor (3.072 dim.)
text-embedding-3-small inserções - Entrada: texto (8.191 tokens)
- Saída: vetor (1.536 dim.)

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Coesão

A família de modelos Cohere inclui vários modelos otimizados para casos de uso diferentes, incluindo conclusões de chat e inserções.

Comando coerente e inserção

A tabela a seguir lista os modelos do Cohere que você pode inferir por meio da API de Modelos do Foundry.

Modelo Tipo Capacidades
Cohere-command-A finalização do chat - Entrada: texto (256.000 tokens)
- Saída: texto (8.000 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: texto
Cohere-command-r-plus-08-2024 finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Cohere-command-r-08-2024 finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Cohere-command-r-plus
(preterido)
finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Cohere-command-r
(preterido)
finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Cohere-inbed-v-4 inserções
incorporações de imagem
- Entrada: imagem, texto
- Saída: imagem, texto (128.000 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: imagem, texto
Cohere-embed-v3-English inserções
incorporações de imagem
- Entrada: texto (512 tokens)
- Saída: vetor (1.024 dim.)
Cohere-embed-v3-multilingual inserções
incorporações de imagem
- Entrada: texto (512 tokens)
- Saída: vetor (1.024 dim.)

Exemplos de inferência: comando coerente e inserção

Para obter mais exemplos de como usar modelos do Cohere, confira os seguintes exemplos:

Descrição Idioma Amostra
Solicitações da Web Bash (interpretador de comandos Unix) Command-RCommand-R+
cohere-embed.ipynb
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link
SDK do OpenAI (experimental) Python Link
LangChain Python Link
Kit de Desenvolvimento de Software (SDK) da Cohere Python Comando
Incorporar
SDK do LiteLLM Python Link

Geração Aumentada de Recuperação (RAG) e exemplos de uso da ferramenta: comando coerente e inserção

Descrição Pacotes Amostra
Crie um índice de vetor local da Pesquisa de Similaridade de IA do Facebook (FAISS), usando as inserções do Cohere - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Use o Comando Cohere R/R+ para responder às perguntas dos dados no índice de vetores FAISS local - Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Use o Cohere Command R/R+ para responder às perguntas utilizando dados em um índice vetorial de busca por IA do Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Use o Comando Cohere R/R+ para responder às perguntas dos dados no índice vetorial de pesquisa de IA - SDK do Cohere cohere, azure_search_documents cohere-aisearch-rag.ipynb
Comando R+ ferramenta/chamada de função, usando o LangChain coherelangchainlangchain_cohere command_tools-langchain.ipynb

Cohere rerank

A tabela a seguir lista os modelos reclassificados do Cohere. Para executar a inferência com esses modelos reclassificados, você precisará usar as APIs de reclassificado personalizadas do Cohere listadas na tabela.

Modelo Tipo API de inferência
Cohere-rerank-v3.5 reclassificar
classificação de texto
API v2/rerank do Cohere
Cohere-rerank-v3-english
(preterido)
reclassificar
classificação de texto
API v2/rerank do Cohere
API v1/rerank do Cohere
Cohere-rerank-v3-multilingual
(preterido)
reclassificar
classificação de texto
API v2/rerank do Cohere
API v1/rerank do Cohere

Preços de modelos reclassificados do Cohere

As consultas, para não serem confundidas com a consulta de um usuário, são um medidor de preços que se refere ao custo associado aos tokens usados como entrada para inferência de um modelo Cohere Rerank. Cohere conta uma única unidade de pesquisa como uma consulta com até 100 documentos a serem classificados. Documentos com mais de 500 tokens (para Cohere-rerank-v3.5) ou mais de 4.096 tokens (para Cohere-rerank-v3-English e Cohere-rerank-v3-multilingual) ao incluir o comprimento da consulta de pesquisa são divididos em várias partes, em que cada parte conta como um único documento.

Consulte a coleção de modelos Cohere no portal do Azure AI Foundry.

Core42

O Core42 inclui LLMs bilíngues autorregressivas para árabe e inglês com funcionalidades de última geração em árabe.

Modelo Tipo Capacidades
jais-30b-chat finalização do chat - Entrada: texto (8.192 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Exemplos de inferência: Core42

Para obter mais exemplos de como usar modelos de Jais, confira os seguintes exemplos:

Descrição Idioma Amostra
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link

DeepSeek

A família de modelos DeepSeek inclui o DeepSeek-R1, que se destaca em tarefas de raciocínio usando um processo de treinamento passo a passo, como linguagem, raciocínio científico e tarefas de codificação, DeepSeek-V3-0324, um modelo de linguagem MoE (Mistura de Especialistas) e muito mais.

Modelo Tipo Capacidades
DeepSeek-R1-0528
chat-completion com conteúdo de raciocínio - Entrada: texto (163.840 tokens)
- Saída: texto (163.840 tokens)
- Idiomas:en e zh
- Ferramenta de chamada: não
- Formatos de resposta: texto
DeekSeek-V3-0324 finalização do chat - Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: Texto, JSON
DeepSeek-V3
(Herdada)
finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: Texto, JSON
DeepSeek-R1 chat-completion com conteúdo de raciocínio - Entrada: texto (163.840 tokens)
- Saída: texto (163.840 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: Texto.

Para obter um tutorial sobre o DeepSeek-R1, consulte Tutorial: Comece com o modelo de raciocínio DeepSeek-R1 em Modelos Foundry.

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Exemplos de inferência: DeepSeek

Para obter mais exemplos de como usar modelos DeepSeek, confira os seguintes exemplos:

Descrição Idioma Amostra
Pacote de inferência da IA do Azure para Python Python Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência de IA do Azure para Java Java Link

Meta

Os modelos e ferramentas do Meta Llama são uma coleção de modelos gerativos de IA para raciocínio textual e visual, pré-treinados e ajustados. O intervalo de modelos Meta é dimensionado para incluir:

  • SLM (pequenos modelos de linguagem) como modelos base 1B e 3B e instrução para inferência no dispositivo e borda
  • LLM (grandes modelos de linguagem) de tamanho médio, como modelos de base e instrução de 7B, 8B e 70B
  • Modelos de alto desempenho, como o de Instrução Meta Llama 3.1-405B para casos de uso de destilação e geração de dados sintéticos.
  • Modelos nativamente multimodais de alto desempenho, Llama 4 Scout e Llama 4 Maverick, aproveitam uma arquitetura de mistura de especialistas para oferecer desempenho líder do setor na compreensão de texto e imagem.
Modelo Tipo Capacidades
Llama-4-Scout-17B-16E-Instruct finalização do chat - Entrada: texto e imagem (128.000 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Llama 4-Maverick-17B-128E-Instruct-FP8 finalização do chat - Entrada: texto e imagem (128.000 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Llama-3.3-70B-Instruct finalização do chat - Entrada: texto (128.000 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Llama-3.2-90B-Vision-Instruct chat-completion (com imagens) - Entrada: texto e imagem (128.000 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Llama-3.2-11B-Vision-Instruct chat-completion (com imagens) - Entrada: texto e imagem (128.000 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Meta-Llama-3.1-8B-Instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Meta-Llama-3.1-405B-Instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Meta-Llama-3.1-70B-Instruct (preterido) finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Meta-Llama-3-8B-Instruct (preterido) finalização do chat - Entrada: texto (8.192 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Meta-Llama-3-70B-Instruct (preterido) finalização do chat - Entrada: texto (8.192 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Exemplos de inferência: Meta Llama

Para obter mais exemplos de como usar modelos meta llama, confira os seguintes exemplos:

Descrição Idioma Amostra
Solicitação CURL Bash (interpretador de comandos Unix) Link
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link
Solicitações da Web do Python Python Link
SDK do OpenAI (experimental) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Os modelos da Microsoft incluem vários grupos de modelos, como modelos mai, modelos Phi, modelos de IA de serviços de saúde e muito mais. Para ver todos os modelos disponíveis da Microsoft, exiba a coleção de modelos da Microsoft no portal do Azure AI Foundry.

Modelo Tipo Capacidades
MAI-DS-R1 chat-completion com conteúdo de raciocínio - Entrada: texto (163.840 tokens)
- Saída: texto (163.840 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: Texto.
Raciocínio Phi-4 chat-completion com conteúdo de raciocínio - Entrada: texto (32768 tokens)
- Saída: texto (32768 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-4-mini-reasoning chat-completion com conteúdo de raciocínio - Entrada: texto (128.000 tokens)
- Saída: texto (128.000 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-4-multimodal-instruct finalização de bate-papo (com conteúdo de imagem e áudio) - Entrada: texto, imagens e áudio (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-4-mini-instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-4 finalização do chat - Entrada: texto (16.384 tokens)
- Saída: texto (16.384 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3.5-mini-instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3.5-MoE-instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3.5-vision-Instruct chat-completion (com imagens) - Entrada: texto e imagem (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3-mini-128k-instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3-mini-4k-instruct finalização do chat - Entrada: texto (4.096 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3-small-128k-instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3-small-8k-instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3-medium-128k-instruct finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Phi-3-medium-4k-instruct finalização do chat - Entrada: texto (4.096 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto

Exemplos de inferência: modelos da Microsoft

Para obter mais exemplos de como usar modelos da Microsoft, confira os seguintes exemplos:

Descrição Idioma Amostra
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link
LangChain Python Link
Llama-Index Python Link

Consulte a coleção de modelos da Microsoft no portal do Azure AI Foundry.

Mistral AI

O Mistral AI oferece duas categorias de modelos, especificamente:

  • Modelos Premium: incluem modelos Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B e estão disponíveis como APIs sem servidor com cobrança baseada em token paga conforme o uso.
  • Modelos abertos: Isso inclui Mistral-small-2503, Codestral e Mistral Nemo (que estão disponíveis como APIs sem servidor com cobrança baseada em tokens de pagamento conforme o uso) e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01 (que estão disponíveis para download e execução em endpoints gerenciados auto-hospedados).
Modelo Tipo Capacidades
Codestral-2501 finalização do chat - Entrada: texto (262.144 tokens)
- Saída: texto (4.096 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto
Ministral-3B finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral Nemo finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-Large-2411 finalização do chat - Entrada: texto (128.000 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-large-2407
(preterido)
finalização do chat - Entrada: texto (131.072 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-large
(preterido)
finalização do chat - Entrada: texto (32.768 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-medium-2505 finalização do chat - Entrada: texto (128.000 tokens), imagem
- Saída: texto (128.000 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: Texto, JSON
Mistral-OCR-2503 imagem para texto - Entrada: imagem ou páginas PDF (1.000 páginas, no máximo 50 MB de arquivo PDF)
- Saída: texto
- Ferramenta de chamada: não
- Formatos de resposta: Texto, JSON, Markdown
Mistral-small-2503 chat-completion (com imagens) - Entrada: texto e imagens (131.072 tokens),
tokens baseados em imagem são 16px x 16px
blocos das imagens originais
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
Mistral-small finalização do chat - Entrada: texto (32.768 tokens)
- Saída: texto (4.096 tokens)
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON

Consulte esta coleção de modelos no portal da Fábrica de IA do Azure.

Exemplos de inferência: Mistral

Para mais exemplos de como usar modelos Mistral, veja os seguintes exemplos e tutoriais:

Descrição Idioma Amostra
Solicitação CURL Bash (interpretador de comandos Unix) Link
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link
Solicitações da Web do Python Python Link
SDK do OpenAI (experimental) Python Exemplo de SDK do Mistral – OpenAI
LangChain Python Exemplo de Mistral – LangChain
Mistral AI Python Mistral – Exemplo de IA do Mistral
LiteLLM Python Exemplo de Mistral – LiteLLM

Nixtla

O TimeGEN-1 da Nixtla é um modelo de previsão e detecção de anomalias pré-treinado para dados de séries temporais. O TimeGEN-1 pode produzir previsões precisas para novas séries temporais sem treinamento, usando apenas valores históricos e covariáveis exógenas como entradas.

Para executar a inferência, o TimeGEN-1 exige que você use a API de inferência personalizada do Nixtla.

Modelo Tipo Capacidades API de inferência
TimeGEN-1 Previsão - Entrada: Dados de série temporal como JSON ou dataframes (com suporte para entrada multivariada)
- Saída: Dados de série temporal como JSON
- Ferramenta de chamada: não
- Formatos de resposta: JSON
Cliente de previsão para interagir com a API do Nixtla

Estimar o número de tokens necessários

Antes de criar uma implantação do TimeGEN-1, é útil estimar o número de tokens que você planeja consumir e pelos quais será faturado. Um token corresponde a um ponto de dados em seu conjunto de dados de entrada ou conjunto de dados de saída.

Suponha que você tenha o seguinte conjunto de dados de série temporal de entrada:

Identificador_único Carimbo de data/hora Variável de destino Variável exógena 1 Variável exógena 2
BE 2016-10-22 00:00:00 70.00 49593.0 57.253,0
BE 2016-10-22 01:00:00 37.10 46073.0 51887,0

Para determinar o número de tokens, multiplique o número de linhas (neste exemplo, duas) e o número de colunas usadas para previsão, sem contar as colunas unique_id e timestamp (neste exemplo, três) para obter um total de seis tokens.

Dado o seguinte conjunto de dados de saída:

Identificador_único Carimbo de data/hora Variável de destino prevista
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

Você também pode determinar o número de tokens contando o número de pontos de dados retornados após a previsão de dados. Neste exemplo, o número de tokens é dois.

Estimar preços com base em tokens

Há quatro medidores de preços que determinam o preço que você paga. Esses medidores são os seguintes:

Medidor de preços Descrição
paygo-inference-input-tokens Custos associados aos tokens usados como entrada para inferência quando finetune_steps = 0
paygo-inference-output-tokens Custos associados aos tokens usados como saída para inferência quando finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Custos associados aos tokens usados como entrada para inferência quando finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Custos associados aos tokens usados como saída para inferência quando finetune_steps> 0

Consulte a coleção de modelos nixtla no portal do Azure AI Foundry.

DADOS NTT

tsuzumi é um transformador otimizado para linguagem autoregressiva. As versões ajustadas usam ajuste fino supervisionado (SFT). tsuzumi manipula idioma japonês e inglês com alta eficiência.

Modelo Tipo Capacidades
tsuzumi-7b finalização do chat - Entrada: texto (8.192 tokens)
- Saída: texto (8.192 tokens)
- Ferramenta de chamada: não
- Formatos de resposta: texto

IA de estabilidade

A coleção de modelos de geração de imagem da Stability AI inclui Stable Image Core, Stable Image Ultra e Stable Diffusion 3.5 Large. Stable Diffusion 3.5 Large permite entrada de imagem e texto.

Modelo Tipo Capacidades
Difusão Estável 3.5 Grande Geração de imagem - Entrada: texto e imagem (1000 tokens e 1 imagem)
- Saída: 1 Imagem
- Ferramenta de chamada: não
- Formatos de resposta: Imagem (PNG e JPG)
Núcleo de Imagem Estável Geração de imagem - Entrada: texto (1000 símbolos)
- Saída: 1 Imagem
- Ferramenta de chamada: não
- Formatos de resposta: Imagem (PNG e JPG)
Imagem Estável Ultra Geração de imagem - Entrada: texto (1000 símbolos)
- Saída: 1 Imagem
- Ferramenta de chamada: não
- Formatos de resposta: Imagem (PNG e JPG)

xAI

Os modelos Grok 3 e Grok 3 Mini da xAI foram projetados para se destacar em vários domínios corporativos. Grok 3, um modelo que não realiza raciocínio independente, pré-treinado pelo datacenter Colossus, é adaptado para casos de uso empresarial, como extração de dados, codificação e resumo de texto, com capacidade excepcional de seguir instruções. Dá suporte a uma janela de contexto de 131.072 tokens, permitindo lidar com entradas extensas, mantendo a coerência e a profundidade e é especialmente hábil em estabelecer conexões entre domínios e idiomas. Por outro lado, o Grok 3 Mini é um modelo de raciocínio leve, treinado para enfrentar problemas com agentes autônomos, codificação, matemática e ciência avançada com computação em tempo de teste. Também dá suporte a uma janela de contexto de 131.072 tokens para reconhecer bases de código e documentos corporativos e destaca-se no uso de ferramentas para resolver problemas lógicos complexos em ambientes novos, oferecendo rastreamento de raciocínio bruto para inspeção do usuário com orçamentos de pensamento ajustáveis.

Modelo Tipo Capacidades
grok-3 chat_completion - Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
grok-3-mini chat_completion - Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto

Exemplos de inferência: Stability AI

Modelos de IA de estabilidade implantados por meio da implantação padrão implementam a API de Modelos do Foundry na rota /image/generations. Para obter exemplos de como usar modelos de IA de estabilidade, confira os seguintes exemplos: