Limites e cotas das APIs do Modelo de Base

Esta página descreve os limites e cotas para cargas de trabalho de APIs do Databricks Foundation Model.

As APIs do Databricks Foundation Model impõem limites de taxa para garantir um desempenho confiável e uma alocação justa de recursos em todos os usuários. Esses limites variam de acordo com o nível da plataforma de espaço de trabalho, o tipo de modelo fundacional e como implementa o seu modelo fundacional.

Limites de taxa de endpoint de pagamento por token

Os endpoints pagos por token são regidos por limites de taxa de utilização baseados em tokens e em consultas. Os limites de taxa baseados em tokens controlam o número máximo de tokens que podem ser processados por minuto e são aplicados separadamente para tokens de entrada e saída.

Tokens de entrada por minuto (ITPM): o número máximo de tokens de entrada (dos seus prompts) que podem ser processados numa janela temporal de 60 segundos. Um limite de taxa ITPM controla a taxa de transferência do token de entrada de um ponto de extremidade.
Tokens de saída por minuto (OTPM): O número máximo de tokens de saída (das respostas do modelo) que podem ser gerados num intervalo de 60 segundos. Um limite de taxa OTPM controla a taxa de transferência do token de saída de um ponto de extremidade.
Consultas por hora: o número máximo de consultas ou solicitações que podem ser processadas dentro de uma janela de 60 minutos. Para aplicações de produção com padrões de uso sustentados, a Databricks recomenda endpoints de taxa de transferência provisionada, que fornecem capacidade garantida.

Como os limites são rastreados e aplicados

O limite de taxa mais restritivo (ITPM, OTPM, QPH) aplica-se a qualquer momento. Por exemplo, mesmo que você não tenha atingido seu limite ITPM, você ainda poderá ter uma taxa limitada se exceder o limite QPH ou OTPM. Quando o limite ITPM ou OTPM é atingido, as solicitações subsequentes recebem um erro 429 que indica que muitas solicitações foram recebidas. Esta mensagem persiste até que a janela de limite de taxa seja redefinida.

O Databricks rastreia e impõe limites de taxa de tokens por minuto (TPM) usando os seguintes recursos:

Característica Detalhes

Contabilidade simbólica e controlos pré-admissão

Característica	Detalhes
Contabilidade simbólica e controlos pré-admissão	Contagem de tokens de entrada: os tokens de entrada são contados a partir do seu prompt real no momento da solicitação. Estimativa de token de saída: Se você fornecer `max_tokens` em sua solicitação, o Databricks usará esse valor para estimar e reservar a capacidade do token de saída antes que a solicitação seja admitida para processamento. Validação pré-admissão: o Databricks verifica se sua solicitação excederia os limites ITPM ou OTPM antes do início do processamento. Se `max_tokens` fizer com que você exceda os limites OTPM, o Databricks rejeita a solicitação imediatamente com um erro 429. Saída real vs estimada: Depois que a resposta é gerada, os tokens de saída reais são contados. É importante ressaltar que, se o uso real do token for menor do que o reservado `max_tokens`, o Databricks credita a diferença de volta à sua franquia de limite de taxa, tornando esses tokens imediatamente disponíveis para outras solicitações. Nenhum max_tokens especificado: Se você não especificar `max_tokens`, o Databricks usará uma reserva padrão e a contagem real de tokens será reconciliada após a geração. Observação: O Claude Sonnet 4, em circunstâncias específicas, padroniza para 1.000 tokens de saída quando `max_tokens` não está definido, retornando "motivo de término: comprimento" quando atingido. Este não é o comprimento máximo de contexto do modelo. Claude 3.7 Sonnet não possui tal padrão.
Capacidade de estouro e suavização	Buffer de intermitência: O limitador de taxa inclui um pequeno buffer para acomodar pequenas rajadas de tráfego acima da taxa nominal. Janela deslizante: o consumo de tokens é rastreado usando um algoritmo de janela deslizante que fornece limites de taxa mais suaves do que limites rígidos por minuto. Token bucket algorithm: o Databricks usa uma implementação de token bucket que permite alguma capacidade de explosão, mantendo o limite de taxa média ao longo do tempo.

Contagem de tokens de entrada: os tokens de entrada são contados a partir do seu prompt real no momento da solicitação.
Estimativa de token de saída: Se você fornecer max_tokens em sua solicitação, o Databricks usará esse valor para estimar e reservar a capacidade do token de saída antes que a solicitação seja admitida para processamento.
Validação pré-admissão: o Databricks verifica se sua solicitação excederia os limites ITPM ou OTPM antes do início do processamento. Se max_tokens fizer com que você exceda os limites OTPM, o Databricks rejeita a solicitação imediatamente com um erro 429.
Saída real vs estimada: Depois que a resposta é gerada, os tokens de saída reais são contados. É importante ressaltar que, se o uso real do token for menor do que o reservado max_tokens, o Databricks credita a diferença de volta à sua franquia de limite de taxa, tornando esses tokens imediatamente disponíveis para outras solicitações.
Nenhum max_tokens especificado: Se você não especificar max_tokens, o Databricks usará uma reserva padrão e a contagem real de tokens será reconciliada após a geração. Observação: O Claude Sonnet 4, em circunstâncias específicas, padroniza para 1.000 tokens de saída quando max_tokens não está definido, retornando "motivo de término: comprimento" quando atingido. Este não é o comprimento máximo de contexto do modelo. Claude 3.7 Sonnet não possui tal padrão.

Capacidade de estouro e suavização

Buffer de intermitência: O limitador de taxa inclui um pequeno buffer para acomodar pequenas rajadas de tráfego acima da taxa nominal.
Janela deslizante: o consumo de tokens é rastreado usando um algoritmo de janela deslizante que fornece limites de taxa mais suaves do que limites rígidos por minuto.
Token bucket algorithm: o Databricks usa uma implementação de token bucket que permite alguma capacidade de explosão, mantendo o limite de taxa média ao longo do tempo.

Segue-se um exemplo de como funciona a verificação pré-admissão e o comportamento de devolução de crédito.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Limites de taxa por modelo

As tabelas abaixo resumem os limites de taxa de ITPM, OTPM e QPH para pontos finais da API do Modelo de Base com pagamento por token para espaços de trabalho da camada Enterprise:

Observação

A partir de 15 de fevereiro de 2026, a Meta-Llama-3.1-405B-Instruct será descontinuada. Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.

Modelos linguísticos de grande dimensão	Limite ITPM	Limite OTPM	Limite QPH	Observações
Qwen3-Next 80B A3B Instruct (Beta)	200,000	10,000		LLM de uso geral
GPT OSS 120B	200,000	10,000		LLM de uso geral
GPT OSS 20B	200,000	10,000		Variante GPT menor
Gemma 3 12B	200,000	10,000	7 200	Modelo Gemma do Google
Lama 4 Maverick	200,000	10,000	2,400	Última versão do Llama
"Llama 3.3 70B Instruct"	200,000	10,000	2,400	Modelo de Llama de tamanho médio
Lama 3.1 8B Instruir	200,000	10,000	7,200	O modelo Llama leve
Llama 3.1 405B Instruir	5.000	500	1200	Maior modelo Llama - limites reduzidos por causa do tamanho

Modelos antrópicos de Claude	Limite ITPM	Limite OTPM	Observações
Claude 3.7 Soneto	50,000	5.000	Modelo Claude equilibrado
Claude Soneto 4	50,000	5.000
Claude Opus 4,1	50,000	5.000
Claude Opus 4.6	200,000	20,000	Versão mais recente do Opus
Claude Opus 4.5	200,000	20,000
Claude Soneto 4.6	200,000	20,000	Versão mais recente do Sonnet
Claude Soneto 4,5	50,000	5.000
Claude Haiku 4,5	50,000	5.000	Última versão do Haiku

Incorporação de modelos	Limite ITPM	Limite OTPM	Limite QPH	Observações
Qwen3-Embedding-0.6B	N/A	N/A	2,160,000	Modelo compacto de incorporação de texto multilíngue
GTE Grande (Inglês)	N/A	N/A	540.000	Modelo de incorporação de texto - não gera incorporações normalizadas
BGE Grande (En)	N/A	N/A	2,160,000	Modelo de incorporação de texto

Gerenciar as práticas recomendadas de limites de taxa de TPM

Passo 1. Monitorar o uso do token

Acompanhe as contagens de tokens de entrada e saída separadamente em seus aplicativos:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Passo 2. Implementar lógica de reintento

Adicione recuo exponencial quando encontrar erros de limite de taxa:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Passo 3. Otimize o uso do token

Minimizar o tamanho do prompt: use prompts concisos e bem estruturados
Controle o tamanho da saída: utilize o parâmetro max_tokens para limitar o tamanho da resposta
Defina max_tokens explicitamente para Claude Sonnet 4: Sempre especifique max_tokens ao usar Claude Sonnet 4 para evitar o limite padrão de 1.000 tokens
Agrupe de forma eficiente: Agrupe solicitações relacionadas quando possível, mantendo-se dentro dos limites

Passo 4. Considere a seleção de modelos

Modelos menores para tarefas de alto volume: use modelos como Llama 3.1 8B para tarefas que exigem maior taxa de transferência
Modelos grandes para tarefas complexas: Reserve Llama 3.1 405B para tarefas que exigem capacidade máxima

Monitorizar e resolver problemas

Monitore seus padrões de uso de token para otimizar o desempenho:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Lidar com erros de limitação de taxa

Quando você excede os limites de taxa, a API retorna um 429 Too Many Requests erro:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

A resposta de erro inclui:

limit_type: Qual limite específico foi excedido (ITPM, OTPM, QPS ou QPH)
limit: O valor limite configurado
current: Seu uso atual
retry_after: Tempo de espera sugerido em segundos

Problemas e soluções comuns

Questão	Solução
Erros 429 frequentes	Implemente o backoff exponencial, diminua a frequência de solicitações e solicite limites de taxa mais elevados
Limite de ITPM atingido	Otimizar o comprimento do prompt
Limite de OTPM atingido	Use `max_tokens` para limitar o comprimento da resposta
Limite QPH atingido	Distribua as solicitações de forma mais uniforme ao longo do tempo

Limites de taxa de transferência provisionada

Para cargas de trabalho de produção que exigem limites mais altos, os pontos de extremidade de taxa de transferência provisionados oferecem:

Sem restrições TPM: capacidade de processamento com base em recursos provisionados
Limites de taxa mais altos: até 200 consultas por segundo por espaço de trabalho
Desempenho previsível: recursos dedicados garantem latência consistente

Limites de token de saída

Observação

A partir de 15 de maio de 2026, a Meta-Llama-3.1-405B-Instruct será descontinuada. Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.

A tabela a seguir resume os limites de token de saída para cada modelo suportado:

Modelo	Limite de token de saída
GPT OSS 120B	25,000
GPT OSS 20B	25,000
Gemma 3 12B	8,192
Lama 4 Maverick	8,192
Llama 3.1 405B	4,096
Llama 3,1 70B	8,192
Lama 3,1 8B	8,192

Limites adicionais

A seguir estão as limitações para trabalhos com taxas de transferência provisionadas:

Para implantar um modelo system.ai Meta Llama no Unity Catalog, você deve escolher a versão Instruct aplicável. As versões base dos modelos Meta Llama não são suportadas para implantação a partir do Unity Catalog. Consulte Implantar pontos de extremidade de taxa de transferência provisionados.
Para cargas de trabalho com largura de banda provisionada que utilizam Llama 4 Maverick:
- O suporte para este modelo em cargas de trabalho de largura de banda provisionada está em Visualização pública.
- O dimensionamento automático não é suportado.
- Os painéis de métricas não são suportados.
- A divisão de tráfego não é suportada em um endpoint que oferece suporte ao Llama 4 Maverick. Você não pode servir vários modelos num endpoint que serve Llama 4 Maverick.

Disponibilidade regional e processamento de dados

Para obter a disponibilidade da região do modelo de base hospedado pelo Databricks, consulte Visão geral do modelo de fundação.

Para obter detalhes sobre processamento de dados e residência, consulte Processamento de dados e residência.

Recursos adicionais

Comentários

Esta página foi útil?

Last updated on 2026-02-21

Partilhar via

Limites e cotas das APIs do Modelo de Base

Limites de taxa de endpoint de pagamento por token

Como os limites são rastreados e aplicados

Limites de taxa por modelo

Gerenciar as práticas recomendadas de limites de taxa de TPM

Passo 1. Monitorar o uso do token

Passo 2. Implementar lógica de reintento

Passo 3. Otimize o uso do token

Passo 4. Considere a seleção de modelos

Monitorizar e resolver problemas

Lidar com erros de limitação de taxa

Problemas e soluções comuns

Limites de taxa de transferência provisionada

Limites de token de saída

Limites adicionais

Disponibilidade regional e processamento de dados

Recursos adicionais

Comentários

Recursos adicionais