evento
Junte-se a nós na FabCon Vegas
31/03, 23 - 2/04, 23
O melhor evento liderado pela comunidade Microsoft Fabric, Power BI, SQL e AI. 31 de março a 2 de abril de 2025.
Registe-se hoje mesmoEste browser já não é suportado.
Atualize para o Microsoft Edge para tirar partido das mais recentes funcionalidades, atualizações de segurança e de suporte técnico.
Este artigo resume as limitações e a disponibilidade da região para o Mosaic AI Model Serving e os tipos de endpoint suportados.
O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta Databricks.
O table a seguir resume as limitações de recursos e carga útil para os pontos de extremidade de serviço de modelos.
Caraterística | Granularidade | Limit |
---|---|---|
Tamanho da carga útil | Por pedido | 16 MB. Para endpoints que servem modelos fundamentais, ou modelos externos, o limit é de 4 MB. |
Consultas por segundo (QPS) | Por espaço de trabalho | 200, mas pode ser aumentado para 25.000 ou mais entrando em contato com sua equipe de conta Databricks. |
Duração da execução do modelo | Por pedido | 120 segundos |
Uso da memória do modelo de ponto de extremidade da CPU | Por parâmetro de avaliação | 4GB |
Uso da memória do modelo de ponto de extremidade GPU | Por parâmetro de avaliação | Maior ou igual à memória GPU atribuída, depende do tamanho da carga de trabalho da GPU |
Simultaneidade provisionada | Por modelo e por espaço de trabalho | 200 simultaneidade. Pode ser aumentado entrando em contato com sua equipe de conta Databricks. |
Latência de sobrecarga | Por pedido | Menos de 50 milissegundos |
Scripts init | Não há suporte para scripts de inicialização. | |
Limites de taxa das APIs do Modelo de Base (pagamento por token) | Por espaço de trabalho | Se os limites a seguir forem insuficientes para seu caso de uso, o Databricks recomenda o uso da taxa de transferência provisionada. - O Llama 3.3 70B Instruct tem uma limit de 2 interrogações por segundo e 1200 interrogações por hora. - Llama 3.1 405B Instruct tem uma limit de 1 consulta por segundo e 1 200 consultas por hora. - O modelo DBRX Instruct tem uma limit de 1 consulta por segundo. - O Mixtral-8x 7B Instruct tem uma taxa padrão limit de 2 consultas por segundo. - GTE Large (En) tem uma taxa limit de 150 consultas por segundo - BGE Large (En) tem uma taxa limit de 600 consultas por segundo. |
Limites de taxa de APIs do modelo básico (taxa de transferência provisionada) | Por espaço de trabalho | 200 |
Nota
Como parte do fornecimento das APIs do Modelo Fundamental, o Databricks pode processar os seus dados fora da região where a partir da qual os dados foram originados, mas não fora da localização geográfica relevante.
Para cargas de trabalho de pagamento por token e taxa de transferência provisionada:
A seguir estão os limites relevantes para cargas de trabalho de pagamento por token de APIs do Modelo de Base:
A seguir estão os limites relevantes para cargas de trabalho de taxa de transferência provisionadas de APIs do Modelo de Base:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Variante do modelo Meta Llama | Regiões |
---|---|
meta-lama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-8B-Instruir | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-lama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-lama/Llama-3.1-70B-Instruir | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-lama/Llama-3.1-405B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B-Instruir | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-lama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-lama/Llama-3.2-1B-Instruir | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-lama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B-Instruir | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.3-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
Nota
Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Azure Databricks.
Se o espaço de trabalho for implantado em uma região que ofereça suporte ao serviço de modelo, mas seja servido por um plano de controle em uma região sem suporte, o espaço de trabalho não suportará o serviço de modelo. Se você tentar usar o serviço de modelo em tal espaço de trabalho, você verá em uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
Para obter mais informações sobre a disponibilidade regional de recursos, consulte Modelo que serve a disponibilidade regional.
evento
Junte-se a nós na FabCon Vegas
31/03, 23 - 2/04, 23
O melhor evento liderado pela comunidade Microsoft Fabric, Power BI, SQL e AI. 31 de março a 2 de abril de 2025.
Registe-se hoje mesmo