Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo resume as limitações e a disponibilidade regional para o Serviço de Modelos do Mosaic AI e os tipos de endpoints suportados.
Limites de recursos e carga
O Serviço de Modelo do Mosaic AI impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta do Databricks.
A tabela a seguir resume as limitações de conteúdo e recursos para pontos de extremidade de serviço de modelo.
Recurso | Granularidade | Limite |
---|---|---|
Tamanho da carga | Por solicitação | 16 MB. Para pontos de extremidade que atendem modelos de base, modelos externos ou agentes de IA, o limite é de 4 MB. |
Tamanho da solicitação/resposta | Por solicitação | Nenhuma solicitação/resposta acima de 1 MB não será registrada. |
Consultas por segundo (QPS) | Por área de trabalho | 200, mas pode ser aumentado para 25.000 ou mais entrando em contato com sua equipe de conta da Databricks. |
Duração da execução do modelo | Por solicitação | 120 segundos |
Uso de memória do modelo de ponto de extremidade da CPU | Por ponto de extremidade | 4 GB |
Uso de memória do modelo de ponto de extremidade da GPU | Por ponto de extremidade | Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU |
Concorrência provisionada | Por modelo e por espaço de trabalho | Simultaneidade de 200. Pode ser aumentado entrando em contato com sua equipe de conta do Databricks. |
Latência de sobrecarga | Por solicitação | Menos de 50 milissegundos |
Scripts de inicialização | Não há suporte para scripts de inicialização. | |
Limites de taxa das APIs de Modelos de Base (pagamento por token) | Por área de trabalho | Se os limites a seguir forem insuficientes para seu caso de uso, o Databricks recomenda usar o desempenho provisionado.
|
Limites de taxa das APIs do Modelo de Base (taxa de transferência provisionada) | Por área de trabalho | 200 consultas por segundo. |
Limitações de rede e segurança
- Os pontos de extremidade do Serviço de Modelo são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de IPs permitidos e Link Privado.
- A conectividade privada (como o Link Privado do Azure) só tem suporte para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que atendem a modelos personalizados.
- Por padrão, o Model Serving não dá suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.
- Model Serving não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização nas implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe da sua conta do Databricks para obter mais informações.
Padrões de perfil de segurança de conformidade: cargas de trabalho de CPU
A tabela a seguir lista os padrões de conformidade de perfil de segurança compatíveis para a funcionalidade central de Serviço de Modelos em cargas de trabalho de CPU.
Observação
Esses padrões de conformidade exigem que os contêineres em serviço sejam construídos nos últimos 30 dias. O Databricks recria automaticamente contêineres desatualizados em seu nome. No entanto, se esse trabalho automatizado falhar, uma mensagem de log de eventos como a seguinte aparecerá e fornecerá orientação sobre como garantir que seus endpoints permaneçam dentro dos requisitos de conformidade:
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
Região | Localização | HIPAA | HITRUST | PCI-DSS | IRAP | CCCS Medium (Protegido B) | Cyber Essentials Plus do Reino Unido |
---|---|---|---|---|---|---|---|
australiacentral |
AustraliaCentral | ||||||
australiacentral2 |
AustraliaCentral2 | ||||||
australiaeast |
AustraliaEast | ✓ | ✓ | ✓ | |||
australiasoutheast |
AustráliaSudeste | ||||||
brazilsouth |
BrasilSul | ✓ | ✓ | ✓ | |||
canadacentral |
Canadá Central | ✓ | ✓ | ✓ | |||
canadaeast |
CanadáLeste | ||||||
centralindia |
CentralIndia | ✓ | ✓ | ✓ | |||
centralus |
CentralUS | ✓ | ✓ | ✓ | |||
chinaeast2 |
ChinaEast2 | ||||||
chinaeast3 |
ChinaEast3 | ||||||
chinanorth2 |
ChinaNorth2 | ||||||
chinanorth3 |
ChinaNorth3 | ||||||
eastasia |
EastAsia | ✓ | ✓ | ✓ | |||
eastus |
EastUS | ✓ | ✓ | ✓ | |||
eastus2 |
EastUS2 | ✓ | ✓ | ✓ | |||
francecentral |
FranceCentral | ✓ | ✓ | ✓ | |||
germanywestcentral |
Alemanha Oeste Central | ✓ | ✓ | ✓ | |||
japaneast |
JapanEast | ✓ | ✓ | ✓ | |||
japanwest |
JapanWest | ||||||
koreacentral |
KoreaCentral | ✓ | ✓ | ✓ | |||
mexicocentral |
MexicoCentral | ||||||
northcentralus |
NorthCentralUS | ✓ | ✓ | ✓ | |||
northeurope |
NorthEurope | ✓ | ✓ | ✓ | |||
norwayeast |
NoruegaLeste | ||||||
qatarcentral |
QatarCentral | ||||||
southafricanorth |
África do Sul Norte | ||||||
southcentralus |
SouthCentralUS | ✓ | ✓ | ✓ | |||
southeastasia |
Sudeste Asiático | ✓ | ✓ | ✓ | |||
southindia |
Sul da Índia | ||||||
swedencentral |
SwedenCentral | ✓ | ✓ | ✓ | |||
switzerlandnorth |
SuíçaNorte | ✓ | ✓ | ✓ | |||
switzerlandwest |
SuíçaOeste | ||||||
uaenorth |
UaeNorth | ✓ | ✓ | ✓ | |||
uksouth |
UkSouth | ✓ | ✓ | ✓ | ✓ | ||
ukwest |
UKWest | ||||||
westcentralus |
WestCentralUS | ||||||
westeurope |
WestEurope | ✓ | ✓ | ✓ | |||
westindia |
WestIndia | ||||||
westus |
OesteEUA | ✓ | ✓ | ✓ | |||
westus2 |
WestUS2 | ✓ | ✓ | ✓ | |||
westus3 |
WestUS3 | ✓ | ✓ | ✓ |
Limites de taxa das APIs do Modelo de Base
Observação
Como parte do fornecimento das APIs do Foundation Model, a Databricks pode processar seus dados fora da região de origem dos dados, mas não fora da localização geográfica relevante.
Para cargas de trabalho pagas por token e de taxa de transferência provisionada:
- Somente os administradores do workspace podem alterar as configurações de governança, como os limites de taxa para pontos de extremidade de APIs do Modelo do Foundation. Para alterar os limites de taxa, use as seguintes etapas:
- Abra a interface do usuário de serviço em seu workspace para ver seus pontos de extremidade de serviço.
- No menu kebab no ponto de extremidade de APIs do Modelo do Foundation que você deseja editar, selecione Exibir detalhes.
- No menu kebab no lado superior direito da página de detalhes dos pontos de extremidade, selecione Alterar o limite de taxa.
- Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.
Limites de pagamento por token
Os seguintes são os limites relevantes para cargas de trabalho de pagamento por token das APIs do Modelo Fundamental.
-
Cargas de trabalho pagas por token são compatíveis com HIPAA.
- Para clientes com o Perfil de Segurança de Conformidade habilitado, as cargas de trabalho pagas por token estão disponíveis desde que o padrão de conformidade HIPAA ou None esteja selecionado. Não há suporte para outros padrões de conformidade para cargas de trabalho pagas por token.
- Os seguintes modelos de pagamento por token são compatíveis apenas com as APIs do Modelo de Base com suporte para pagamento por token nas regiões dos EUA:
- O Antrópico Claude Sonnet 4
- Antrópico Claude Opus 4
- Instrução Meta Llama 3.1 405B
- BGE Grande (En)
- O Antropic Claude 3.7 Sonnet está disponível em regiões com suporte de pagamento por token da UE e dos EUA. Se o workspace não estiver em uma região da UE ou dos EUA, mas estiver em uma região de Serviço de Modelos com suporte, você poderá habilitar o processamento de dados entre regiões geográficas para acessar esse modelo.
- Se o workspace estiver em uma região do Serviço de Modelo, mas não em uma região dos EUA ou da UE, seu workspace precisará ser habilitado para o processamento de dados entre geografias. Quando ativada, sua carga de trabalho de pagamento por token é roteada para os EUA. Databricks Geo. Para ver quais regiões geográficas processam cargas de trabalho pagas por token, consulte os Serviços Designados do Databricks.
Limites de taxa de transferência provisionados
Veja a seguir os limites relevantes para cargas de trabalho de taxa de transferência provisionadas de APIs do Modelo de Base:
A taxa de transferência provisionada dá suporte ao perfil de conformidade da HIPAA e é recomendada para cargas de trabalho que exigem certificações de conformidade.
Para implantar um modelo Meta Llama de
system.ai
no Catálogo do Unity, você deve escolher a versão de Instrução aplicável. Não há suporte para versões base dos modelos Meta Llama para implantação a partir do Unity Catalog. Consulte [Recomendado] Implantar modelos de base do Catálogo do Unity.Para as cargas de trabalho com taxa de transferência provisionada que usam Llama 4 Maverick:
- O suporte para esse modelo em cargas de trabalho de taxa de transferência provisionada está na Versão Prévia Pública.
- Não há suporte para dimensionamento automático.
- Não há suporte para painéis de métricas.
- Não há suporte para divisão de tráfego em um endpoint que serve o Llama 4 Maverick. Você não pode servir vários modelos em um endpoint que utiliza o Llama 4 Maverick.
Disponibilidade de região
Observação
Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com a equipe da sua conta do Azure Databricks.
Se o workspace for implantado em uma região que oferece suporte ao serviço de modelo, mas é atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao serviço de modelo. Se você tentar usar o serviço de modelo em tal espaço de trabalho, verá uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.
Para obter mais informações sobre a disponibilidade regional de cada recurso de Serviço de Modelo, consulte Modelo que atende à disponibilidade regional.
Para obter a disponibilidade da região do modelo de fundação hospedada pelo Databricks, consulte os modelos do Foundation hospedados no Databricks.