Partilhar via


Modelo Limites de serviço e regiões

Este artigo resume as limitações e a disponibilidade da região para o Databricks Model Serving e os tipos de endpoint suportados.

Limitações

O Databricks Model Serving impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta Databricks.

A tabela a seguir resume as limitações de recursos e carga útil para pontos de extremidade de serviço de modelo.

Caraterística Granularidade Limite
Tamanho da carga útil Por pedido 16 MB
Consultas por segundo (QPS) Por espaço de trabalho 200, mas pode ser aumentado para 3000 ou mais entrando em contato com sua conta Databricks
Duração da execução do modelo Por pedido 120 segundos
Uso da memória do modelo de ponto de extremidade da CPU Por parâmetro de avaliação 4GB
Uso da memória do modelo de ponto de extremidade GPU Por parâmetro de avaliação Maior ou igual à memória GPU atribuída, depende do tamanho da carga de trabalho da GPU
Simultaneidade provisionada Por espaço de trabalho 200 simultaneidade. Pode ser aumentado entrando em contato com sua conta Databricks.
Latência de sobrecarga Por pedido Menos de 50 milissegundos
Limites de taxa das APIs do Modelo de Base (pagamento por token) Por espaço de trabalho Entre em contato com sua equipe de conta Databricks para aumentar os seguintes limites.

* O modelo DBRX Instruct tem um limite de 1 consulta por segundo.
* Outros modelos de chat e conclusão têm um limite de taxa padrão de 2 consultas por segundo.
* Os modelos de incorporação têm um padrão de 300 entradas de incorporação por segundo.
Limites de taxa de APIs do modelo básico (taxa de transferência provisionada) Por espaço de trabalho O mesmo que o limite de QPS de serviço do modelo listado acima.

Os pontos de extremidade do Model Serving são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de permissões de IP e Link Privado.

Existem também limitações adicionais:

  • É possível que um espaço de trabalho seja implantado em uma região suportada, mas seja servido por um plano de controle em uma região diferente. Esses espaços de trabalho não oferecem suporte ao Serviço de Modelo e resultam em uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
  • O Model Serving não suporta scripts init.
  • Por padrão, o Serviço de Modelo não oferece suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para esta funcionalidade é avaliado e implementado por região. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.

Limites das APIs do Modelo de Base

Nota

Como parte do fornecimento das APIs do Modelo de Base, o Databricks pode processar seus dados fora da região de origem dos dados, mas não fora da localização geográfica relevante.

A seguir estão os limites relevantes para cargas de trabalho de APIs do Modelo de Base:

  • A taxa de transferência provisionada suporta o perfil de conformidade com a HIPAA e deve ser usada para cargas de trabalho que exigem certificações de conformidade. As cargas de trabalho de pagamento por token não são compatíveis com HIPAA ou perfil de segurança de conformidade.
  • Para pontos de extremidade de APIs do Modelo de Base, apenas os administradores de espaço de trabalho podem alterar as configurações de governança, como os limites de taxa. Para alterar os limites de taxa, use as seguintes etapas:
    1. Abra a interface do usuário de serviço em seu espaço de trabalho para ver seus pontos de extremidade de serviço.
    2. No menu kebab no ponto de extremidade das APIs do Modelo de Fundação que você deseja editar, selecione Exibir detalhes.
    3. No menu kebab no lado superior direito da página de detalhes dos endpoints, selecione Alterar limite de taxa.
  • Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência provisionada, seu ponto de extremidade de serviço deve estar em uma das seguintes regiões:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Disponibilidade da região

Nota

Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Azure Databricks.

Para cargas de trabalho de taxa de transferência provisionadas que usam modelos DBRX, consulte Limites de APIs do Modelo de Base para disponibilidade de região.

País/Região Location Capacidade de serviço do modelo principal * APIs de modelo de base (provisionadas em todo o texto) ** APIs de modelo de base (pagamento por token) Modelos externos
australiacentral Austrália Central
australiacentral2 Austrália Central 2
australiaeast Leste da Austrália X X X
australiasoutheast Austrália Sudeste
brazilsouth Sul do Brasil X X X
canadacentral Canadá Central X X X
canadaeast Leste do Canadá
centralindia Índia Central X X X
centralus E.U.A. Central X X X X
chinaeast2 China Leste 2
chinaeast3 Leste da China 3
chinanorth2 China Norte 2
chinanorth3 Norte da China 3
eastasia Ásia Leste
eastus E.U.A. Leste X X X X
eastus2 E.U.A. Leste 2 X X X X
eastus2euap E.U.A. Leste 2 - EUAP
francecentral França Central
germanywestcentral Alemanha Centro-Oeste
japaneast Leste do Japão
japanwest Oeste do Japão
koreacentral Coreia do Sul Central
northcentralus E.U.A. Centro-Norte X X X
northeurope Europa do Norte X X X
norwayeast Leste da Noruega
qatarcentral Catar Central
southafricanorth Norte da África do Sul
southcentralus E.U.A. Centro-Sul
southeastasia Sudeste Asiático X X
southindia Sul da Índia
swedencentral Suécia Central
switzerlandnorth Norte da Suíça
switzerlandwest Oeste da Suíça
uaenorth Norte dos E.A.U.
uksouth Sul do Reino Unido
ukwest Oeste do Reino Unido
westcentralus E.U.A. Centro-Oeste
westeurope Europa Ocidental X X X
westindia Oeste da Índia
westus E.U.A. Oeste X X X X
westus2 E.U.A. Oeste 2 X X
westus3 EUA Oeste 3 X X
  • Apenas computação da CPU

** Inclui suporte a GPU