Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página descreve os limites e cotas para cargas de trabalho de APIs do Databricks Foundation Model.
As APIs do Databricks Foundation Model impõem limites de taxa para garantir um desempenho confiável e uma alocação justa de recursos em todos os usuários. Esses limites variam de acordo com o nível da plataforma de espaço de trabalho, o tipo de modelo fundacional e como implementa o seu modelo fundacional.
Limites de taxa de endpoint de pagamento por token
Os endpoints pagos por token são regidos por limites de taxa de utilização baseados em tokens e em consultas. Os limites de taxa baseados em tokens controlam o número máximo de tokens que podem ser processados por minuto e são aplicados separadamente para tokens de entrada e saída.
- Tokens de entrada por minuto (ITPM): o número máximo de tokens de entrada (dos seus prompts) que podem ser processados numa janela temporal de 60 segundos. Um limite de taxa ITPM controla a taxa de transferência do token de entrada de um ponto de extremidade.
- Tokens de saída por minuto (OTPM): O número máximo de tokens de saída (das respostas do modelo) que podem ser gerados num intervalo de 60 segundos. Um limite de taxa OTPM controla a taxa de transferência do token de saída de um ponto de extremidade.
- Consultas por hora: o número máximo de consultas ou solicitações que podem ser processadas dentro de uma janela de 60 minutos. Para aplicações de produção com padrões de uso sustentados, a Databricks recomenda endpoints de taxa de transferência provisionada, que fornecem capacidade garantida.
Como os limites são rastreados e aplicados
O limite de taxa mais restritivo (ITPM, OTPM, QPH) aplica-se a qualquer momento. Por exemplo, mesmo que você não tenha atingido seu limite ITPM, você ainda poderá ter uma taxa limitada se exceder o limite QPH ou OTPM. Quando o limite ITPM ou OTPM é atingido, as solicitações subsequentes recebem um erro 429 que indica que muitas solicitações foram recebidas. Esta mensagem persiste até que a janela de limite de taxa seja redefinida.
O Databricks rastreia e impõe limites de taxa de tokens por minuto (TPM) usando os seguintes recursos:
| Característica | Detalhes |
|---|---|
| Contabilidade simbólica e controlos pré-admissão |
|
| Capacidade de estouro e suavização |
|
Segue-se um exemplo de como funciona a verificação pré-admissão e o comportamento de devolução de crédito.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Limites de taxa por modelo
As tabelas abaixo resumem os limites de taxa de ITPM, OTPM e QPH para pontos finais da API do Modelo de Base com pagamento por token para espaços de trabalho da camada Enterprise:
Observação
A partir de 15 de fevereiro de 2026, a Meta-Llama-3.1-405B-Instruct será descontinuada. Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.
| Modelos linguísticos de grande dimensão | Limite ITPM | Limite OTPM | Limite QPH | Observações |
|---|---|---|---|---|
| Qwen3-Next 80B A3B Instruct (Beta) | 200,000 | 10,000 | LLM de uso geral | |
| GPT OSS 120B | 200,000 | 10,000 | LLM de uso geral | |
| GPT OSS 20B | 200,000 | 10,000 | Variante GPT menor | |
| Gemma 3 12B | 200,000 | 10,000 | 7 200 | Modelo Gemma do Google |
| Lama 4 Maverick | 200,000 | 10,000 | 2,400 | Última versão do Llama |
| "Llama 3.3 70B Instruct" | 200,000 | 10,000 | 2,400 | Modelo de Llama de tamanho médio |
| Lama 3.1 8B Instruir | 200,000 | 10,000 | 7,200 | O modelo Llama leve |
| Llama 3.1 405B Instruir | 5.000 | 500 | 1200 |
|
| Modelos antrópicos de Claude | Limite ITPM | Limite OTPM | Observações |
|---|---|---|---|
| Claude 3.7 Soneto | 50,000 | 5.000 | Modelo Claude equilibrado |
| Claude Soneto 4 | 50,000 | 5.000 | |
| Claude Opus 4,1 | 50,000 | 5.000 | |
| Claude Opus 4.6 | 200,000 | 20,000 | Versão mais recente do Opus |
| Claude Opus 4.5 | 200,000 | 20,000 | |
| Claude Soneto 4.6 | 200,000 | 20,000 | Versão mais recente do Sonnet |
| Claude Soneto 4,5 | 50,000 | 5.000 | |
| Claude Haiku 4,5 | 50,000 | 5.000 | Última versão do Haiku |
| Incorporação de modelos | Limite ITPM | Limite OTPM | Limite QPH | Observações |
|---|---|---|---|---|
| Qwen3-Embedding-0.6B | N/A | N/A | 2,160,000 | Modelo compacto de incorporação de texto multilíngue |
| GTE Grande (Inglês) | N/A | N/A | 540.000 | Modelo de incorporação de texto - não gera incorporações normalizadas |
| BGE Grande (En) | N/A | N/A | 2,160,000 | Modelo de incorporação de texto |
Gerenciar as práticas recomendadas de limites de taxa de TPM
Passo 1. Monitorar o uso do token
Acompanhe as contagens de tokens de entrada e saída separadamente em seus aplicativos:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Passo 2. Implementar lógica de reintento
Adicione recuo exponencial quando encontrar erros de limite de taxa:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Passo 3. Otimize o uso do token
- Minimizar o tamanho do prompt: use prompts concisos e bem estruturados
-
Controle o tamanho da saída: utilize o parâmetro
max_tokenspara limitar o tamanho da resposta -
Defina max_tokens explicitamente para Claude Sonnet 4: Sempre especifique
max_tokensao usar Claude Sonnet 4 para evitar o limite padrão de 1.000 tokens - Agrupe de forma eficiente: Agrupe solicitações relacionadas quando possível, mantendo-se dentro dos limites
Passo 4. Considere a seleção de modelos
- Modelos menores para tarefas de alto volume: use modelos como Llama 3.1 8B para tarefas que exigem maior taxa de transferência
- Modelos grandes para tarefas complexas: Reserve Llama 3.1 405B para tarefas que exigem capacidade máxima
Monitorizar e resolver problemas
Monitore seus padrões de uso de token para otimizar o desempenho:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Lidar com erros de limitação de taxa
Quando você excede os limites de taxa, a API retorna um 429 Too Many Requests erro:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
A resposta de erro inclui:
-
limit_type: Qual limite específico foi excedido (ITPM, OTPM, QPS ou QPH) -
limit: O valor limite configurado -
current: Seu uso atual -
retry_after: Tempo de espera sugerido em segundos
Problemas e soluções comuns
| Questão | Solução |
|---|---|
| Erros 429 frequentes | Implemente o backoff exponencial, diminua a frequência de solicitações e solicite limites de taxa mais elevados |
| Limite de ITPM atingido | Otimizar o comprimento do prompt |
| Limite de OTPM atingido | Use max_tokens para limitar o comprimento da resposta |
| Limite QPH atingido | Distribua as solicitações de forma mais uniforme ao longo do tempo |
Limites de taxa de transferência provisionada
Para cargas de trabalho de produção que exigem limites mais altos, os pontos de extremidade de taxa de transferência provisionados oferecem:
- Sem restrições TPM: capacidade de processamento com base em recursos provisionados
- Limites de taxa mais altos: até 200 consultas por segundo por espaço de trabalho
- Desempenho previsível: recursos dedicados garantem latência consistente
Limites de token de saída
Observação
A partir de 15 de maio de 2026, a Meta-Llama-3.1-405B-Instruct será descontinuada. Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.
A tabela a seguir resume os limites de token de saída para cada modelo suportado:
| Modelo | Limite de token de saída |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| Gemma 3 12B | 8,192 |
| Lama 4 Maverick | 8,192 |
| Llama 3.1 405B | 4,096 |
| Llama 3,1 70B | 8,192 |
| Lama 3,1 8B | 8,192 |
Limites adicionais
A seguir estão as limitações para trabalhos com taxas de transferência provisionadas:
- Para implantar um modelo
system.aiMeta Llama no Unity Catalog, você deve escolher a versão Instruct aplicável. As versões base dos modelos Meta Llama não são suportadas para implantação a partir do Unity Catalog. Consulte Implantar pontos de extremidade de taxa de transferência provisionados. - Para cargas de trabalho com largura de banda provisionada que utilizam Llama 4 Maverick:
- O suporte para este modelo em cargas de trabalho de largura de banda provisionada está em Visualização pública.
- O dimensionamento automático não é suportado.
- Os painéis de métricas não são suportados.
- A divisão de tráfego não é suportada em um endpoint que oferece suporte ao Llama 4 Maverick. Você não pode servir vários modelos num endpoint que serve Llama 4 Maverick.
Disponibilidade regional e processamento de dados
Para obter a disponibilidade da região do modelo de base hospedado pelo Databricks, consulte Visão geral do modelo de fundação.
Para obter detalhes sobre processamento de dados e residência, consulte Processamento de dados e residência.