Compartilhar via


Modelos de base com suporte na Plataforma de Modelos de IA do Mosaic

Este artigo descreve os modelos de base que você pode atender usando o Serviço de Modelo de IA do Mosaic.

Os modelos de base são redes neurais grandes e pré-treinadas que são treinadas em grandes e amplas variedades de dados. Esses modelos são projetados para aprender padrões gerais em linguagem, imagens ou outros tipos de dados e podem ser ajustados para tarefas específicas com treinamento adicional. O uso de determinados modelos de base está sujeito à licença do desenvolvedor do modelo e à política de uso aceitável. Consulte as licenças e os termos do desenvolvedor do modelo aplicável.

O Model Serving oferece opções flexíveis para hospedar e consultar modelos de base com base em suas necessidades:

  • Pagamento por token: modo ideal para experimentação e exploração rápida. Essa opção permite que você consulte endpoints pré-configurados em seu espaço de trabalho do Databricks sem compromissos iniciais de infraestrutura.
  • Funções de IA (inferência em lote): um subconjunto de modelos hospedados pelo Databricks é otimizado para o AI Functions. Você pode aplicar a IA aos seus dados e executar cargas de trabalho de produção de inferência em lotes em escala usando essas funções e seus modelos compatíveis.
  • Taxa de transferência provisionada: recomendado para casos de uso de produção que exigem garantias de desempenho. Essa opção permite a implantação de modelos fundamentais ajustados com pontos de extremidade de serviço otimizados.
  • Modelos externos: essa opção permite o acesso aos modelos de base hospedados fora do Databricks, como os fornecidos pelo OpenAI ou Antropic. Esses modelos podem ser gerenciados centralmente no Databricks para governança simplificada.

Modelos de fundação hospedados no Databricks

O Databricks hospeda modelos de base aberta de última geração, como Meta Llama. Esses modelos são disponibilizados usando APIs do Foundation Model.

A tabela a seguir resume quais famílias de modelos e modelos hospedados pelo Databricks têm suporte em cada região com base no recurso Model Serving.

Importante

  • O Anthropic Claude Opus 4.5 está hospedado em pontos de extremidade globais e exige que o roteamento intergeográfico seja habilitado para todas as regiões.

  • Antropic Claude 3.7 Sonnet será desativado em 10 de março de 2026. Consulte modelos desativados para obter o modelo de substituição recomendado e orientações sobre como migrar durante a depreciação.

  • O Meta Llama 4 Maverick está disponível para cargas de trabalho de taxa de transferência provisionadas por APIs do Foundation Model na Versão Prévia Pública.

  • A partir de 11 de dezembro de 2024, o Meta-Llama-3.3-70B-Instruct substitui o suporte para Meta-Llama-3.1-70B-Instruct nos endpoints de pagamento por token das APIs Foundation Model.

  • O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande abertamente disponível, criado e treinado pelo Meta e distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML.

    • A partir de 15 de fevereiro de 2026, Meta-Llama-3.1-405B-Instruct será desativado para cargas de trabalho pagas por token.
    • A partir de 15 de maio de 2026, Meta-Llama-3.1-405B-Instruct será desativado para cargas de trabalho de taxa de transferência provisionadas.
    • Consulte modelos desativados para obter o modelo de substituição recomendado e orientações sobre como migrar durante a depreciação.
  • A partir de 15 de fevereiro de 2026, os modelos associados às famílias de modelos a seguir são desativados e não estão mais disponíveis para uso em nenhuma das áreas de recursos do Model Serving. Consulte modelos desativados para obter modelos de substituição recomendados e diretrizes sobre como migrar durante a substituição.

    • Llama 3 70B
    • Llama 3 8B
    • Llama 2 70B
    • Llama 2 13B
    • Mistral 8x7B
    • Mixtral 8x7B
  • A partir de 19 de dezembro de 2025, os modelos associados às famílias de modelos a seguir são desativados e não estão mais disponíveis para uso em nenhuma das áreas de recursos do Model Serving. Consulte modelos desativados para obter modelos de substituição recomendados e diretrizes sobre como migrar durante a substituição.

    • DBRX
    • MPT 30B
    • MPT 7B
Região As APIs do Modelo de Base pagas por token Funções de IA (inferência em lote) Taxa de transferência provisionada das APIs do Modelo do Foundation
australiacentral Sem suporte Sem suporte Sem suporte
australiacentral2 Sem suporte Sem suporte Sem suporte
australiaeast Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick (versão prévia)*
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
australiasoutheast Sem suporte Sem suporte Sem suporte
brazilsouth Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (versão prévia)
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
    • GTE v1.5 (inglês)*
    • BGE v1.5 (inglês)*
canadacentral Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (versão prévia)
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
    • GTE v1.5 (inglês)*
    • BGE v1.5 (inglês)*
canadaeast Sem suporte Sem suporte Sem suporte
centralindia Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (versão prévia)
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
    • GTE v1.5 (inglês)*
    • BGE v1.5 (inglês)*
centralus Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
chinaeast2 Sem suporte Sem suporte Sem suporte
chinaeast3 Sem suporte Sem suporte Sem suporte
chinanorth2 Sem suporte Sem suporte Sem suporte
chinanorth3 Sem suporte Sem suporte Sem suporte
eastasia Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (versão prévia)
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
    • GTE v1.5 (inglês)*
    • BGE v1.5 (inglês)*
eastus Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
eastus2 Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
francecentral Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
germanywestcentral Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
japaneast Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (versão prévia)
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
    • GTE v1.5 (inglês)*
    • BGE v1.5 (inglês)*
japanwest Sem suporte Sem suporte Sem suporte
koreacentral Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick*
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
mexicocentral Sem suporte Sem suporte Sem suporte
northcentralus Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
northeurope Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
norwayeast Sem suporte Sem suporte Sem suporte
qatarcentral Sem suporte Sem suporte Sem suporte
southafricanorth Sem suporte Sem suporte Sem suporte
southcentralus Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
southeastasia Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (versão prévia)
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
    • GTE v1.5 (inglês)*
    • BGE v1.5 (inglês)*
southindia Sem suporte Sem suporte Sem suporte
swedencentral Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
switzerlandnorth Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
switzerlandwest Sem suporte Sem suporte Sem suporte
uaenorth Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (versão prévia)
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
    • GTE v1.5 (inglês)*
    • BGE v1.5 (inglês)*
uksouth Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (versão prévia)
    • Meta Llama 3.3*
    • Meta Llama 3.2 3B*
    • Meta Llama 3.2 1B*
    • Meta Llama 3.1*
    • GTE v1.5 (inglês)*
    • BGE v1.5 (inglês)*
ukwest Sem suporte Sem suporte Sem suporte
westcentralus Sem suporte Sem suporte Sem suporte
westeurope Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
westindia Sem suporte Sem suporte Sem suporte
westus Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
westus2 Os seguintes modelos têm suporte:
Os seguintes modelos têm suporte:
  • As seguintes famílias de modelos têm suporte para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B
    • Meta Llama 4 Maverick (versão prévia)
    • Meta Llama 3.3
    • Meta Llama 3.2 3B
    • Meta Llama 3.2 1B
    • Meta Llama 3.1
    • GTE v1.5 (inglês)
    • BGE v1.5 (inglês)
westus3 Sem suporte Sem suporte Sem suporte

* Esse modelo tem suporte com base na disponibilidade da GPU e requer que o roteamento entre geografias seja habilitado.

modelos de base do Access hospedados fora do Databricks

Os modelos de base criados por provedores LLM, como o OpenAI e Anthropic, também são acessíveis no Databricks usando os modelos externos. Esses modelos são hospedados fora do Databricks e você pode criar um ponto de extremidade para consultá-los. Esses endpoints podem ser gerenciados de forma centralizada a partir do Azure Databricks, o que simplifica o uso e a gestão de vários provedores de LLM em sua organização.

A tabela a seguir apresenta uma lista não exaustiva dos modelos com suporte e dos tipos de pontos de extremidade correspondentes. Você pode usar as associações de modelo listadas para ajudar você a configurar um ponto de extremidade para qualquer tipo de modelo recém-lançado à medida que se tornam disponíveis para um determinado provedor. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Observação

Com o rápido desenvolvimento de LLMs, não há garantia de que essa lista esteja atualizada o tempo todo. Normalmente, há suporte para novas versões de modelo do mesmo provedor, mesmo que não estejam na lista.

Provedor de modelos llm/v1/completions llm/v1/chat llm/v1/embeddings
OpenAI**
  • gpt-3.5-turbo-instruct
  • babbage-002
  • davinci-002
  • o1
  • o1-mini
  • o1-mini-2024-09-12
  • gpt-3.5-turbo
  • gpt-4
  • gpt-4-turbo
  • gpt-4-turbo-2024-04
  • gpt-4o
  • - gpt-4o-2024-05-13
  • gpt-4o-mini
  • text-embedding-ada-002
  • text-embedding-3-large
  • text-embedding-3-small
Azure OpenAI**
  • text-davinci-003
  • gpt-35-turbo-instruct
  • o1
  • o1-mini
  • gpt-35-turbo
  • gpt-35-turbo-16k
  • gpt-4
  • gpt-4-turbo
  • gpt-4-32k
  • gpt-4o
  • gpt-4o-mini
  • text-embedding-ada-002
  • text-embedding-3-large
  • text-embedding-3-small
Anthropic
  • claude-1
  • claude-1.3-100k
  • claude-2
  • claude-2.1
  • claude-2.0
  • claude-instant-1.2
  • claude-3-5-sonnet-latest
  • claude-3-5-haiku-latest
  • claude-3-5-opus-latest
  • claude-3-5-sonnet-20241022
  • claude-3-5-haiku-20241022
  • claude-3-5-sonnet-20240620
  • claude-3-haiku-20240307
  • claude-3-opus-20240229
  • claude-3-sonnet-20240229
Cohere**
  • comando
  • command-light
  • - command-r7b-12-2024
  • - command-r-plus-08-2024
  • - command-r-08-2024
  • - command-r-plus
  • comando-r
  • comando
  • command-light-nightly
  • command-light
  • command-nightly
  • embed-english-v2.0
  • embed-multilingual-v2.0
  • embed-english-light-v2.0
  • embed-english-v3.0
  • embed-english-light-v3.0
  • embed-multilingual-v3.0
  • embed-multilingual-light-v3.0
Serviço de Modelo de IA do Mosaic Ponto de extremidade de serviço do Databricks Ponto de extremidade de serviço do Databricks Ponto de extremidade de serviço do Databricks
Amazon Bedrock Anthropic:
  • claude-instant-v1
  • claude-v2

Cohere:
  • command-text-v14
  • command-light-text-v14

Laboratórios AI21:
  • j2-grande-instruct
  • j2-jumbo-instruct
  • j2-mid
  • j2-mid-v1
  • j2-ultra
  • j2-ultra-v1
Anthropic:
  • claude-3-5-sonnet-20241022-v2:0
  • claude-3-5-haiku-20241022-v1:0
  • claude-3-opus-20240229-v1:0
  • claude-3-sonnet-20240229-v1:0
  • claude-3-5-sonnet-20240620-v1:0

Cohere:
  • comando-r-plus-v1:0
  • command-r-v1:0

Amazona:
  • nova-lite-v1:0
  • nova-micro-v1:0
  • nova-pro-v1:0
Amazona:
  • titan-embed-text-v2:0
  • titan-embed-text-v1
  • titan-embed-g1-text-02

Cohere:
  • embed-english-v3
  • embed-multilingual-v3
Laboratórios AI21
  • j2-mid
  • j2-light
  • j2-ultra
IA do Vértice do Google Cloud text-bison
  • chat-bison
  • gemini-pro
  • gemini-1.0-pro
  • gemini-1.5-pro
  • gemini-1.5-flash
  • gemini-2.0-flash
  • text-embedding-004
  • text-embedding-005
  • textembedding-gecko

** O provedor de modelos dá suporte a modelos de preenchimento e chat ajustados. Para consultar um modelo ajustado, preencha o campo name da configuração de external model com o nome do modelo ajustado.

O provedor de modelos dá suporte a modelos de conclusão personalizados.

Criar pontos de extremidade do serviço de modelo de base

Para consultar e usar modelos fundamentais em seus aplicativos de IA, primeiro você deve criar um endpoint de serviço do modelo. O Serviço de Modelo usa uma API e uma interface do usuário unificadas para criar e atualizar os pontos de extremidade do serviço de modelo de base

Consultar pontos de extremidade do serviço de modelo de base

Depois de criar o ponto de extremidade do serviço, você poderá consultar seu modelo fundamental. O Model Serving usa uma API e um SDK compatíveis com OpenAI unificados para consultar modelos de base. Essa experiência unificada simplifica a forma como você experimenta e personaliza modelos de base para produção em nuvens e provedores com suporte.

Consulte Usar modelos de base.