Поделиться через


Ограничения и квоты api модели Foundation

На этой странице описываются ограничения и квоты для рабочих нагрузок API модели Databricks Foundation.

API модели Databricks Foundation применяют ограничения скорости, чтобы обеспечить надежную производительность и справедливое распределение ресурсов для всех пользователей. Эти ограничения зависят от уровня платформы рабочей области, типа базовой модели и способа развертывания базовой модели.

Ограничения скорости конечной точки для оплаты за токен

Конечные точки с оплатой за токены управляются ограничениями на основе маркеров и ограничениями на основе запросов. Ограничения скорости на основе маркеров управляют максимальным количеством маркеров, которые могут обрабатываться в минуту и применяются отдельно для маркеров ввода и вывода.

  • Маркеры ввода в минуту (ITPM) — максимальное количество входных маркеров (из запросов), которые можно обрабатывать в 60-секундном окне. Ограничение скорости ITPM управляет пропускной способностью входных маркеров конечной точки.
  • Маркеры вывода в минуту (OTPM) — максимальное количество выходных маркеров (из ответов модели), которое можно создать в 60-секундном окне. Ограничение скорости OTPM управляет пропускной способностью выходных маркеров конечной точки.
  • Запросы в час: максимальное количество запросов или запросов, которые могут обрабатываться в течение 60 минут. Для рабочих приложений с устойчивыми шаблонами использования Databricks рекомендует подготовленные конечные точки пропускной способности, которые обеспечивают гарантированную емкость.

Отслеживание и применение ограничений

Самое строгое ограничение скорости (ITPM, OTPM, QPH) применяется в любое время. Например, даже если вы не достигли предела ITPM, вы по-прежнему будете ограничены скоростью, если превышено ограничение QPH или OTPM. По достижении ограничения ITPM или OTPM последующие запросы получают ошибку 429, указывающую на получение слишком большого количества запросов. Это сообщение сохраняется до сброса окна ограничения скорости.

Databricks отслеживает и применяет ограничения скорости маркеров в минуту (TPM) с помощью следующих функций:

Функция Сведения
Проверка учета маркеров и предварительного приема
  • Подсчет входных маркеров: входные маркеры учитываются из фактического запроса во время запроса.
  • Оценка выходных маркеров. Если вы указали max_tokens в запросе, Databricks использует это значение для оценки и резервирования емкости выходных маркеров до того, как запрос будет принят для обработки.
  • Проверка перед приемом: Databricks проверяет, превысит ли запрос ограничения ITPM или OTPM перед началом обработки. Если max_tokens превышение ограничений OTPM, Databricks отклоняет запрос немедленно с ошибкой 429.
  • Фактические и предполагаемые выходные данные: после создания ответа учитываются фактические выходные маркеры. Важно отметить, что если фактическое использование токенов меньше зарезервированного max_tokens, Databricks кредитует разницу обратно в ограничение ставки, что делает эти маркеры немедленно доступными для других запросов.
  • Нет max_tokens указано: если не указать max_tokens, Databricks использует резервирование по умолчанию, а фактическое число маркеров сверяется после создания. Заметка: Claude Sonnet 4 специально по умолчанию использует 1000 выходных маркеров, если max_tokens не задано, возвращая причину завершения "длина" при достижении. Это не максимальная длина контекста модели. Клод 3.7 Sonnet не имеет такого значения по умолчанию.
Ускорение емкости и сглаживание
  • Буфер всплеска: ограничение скорости включает небольшой буфер для размещения коротких всплесков трафика выше номинальной скорости.
  • Скользящее окно: использование маркеров отслеживается с помощью алгоритма скользящего окна, который обеспечивает более плавное ограничение скорости, чем жесткие границы в минуту.
  • Алгоритм контейнера токенов: Databricks использует реализацию контейнера маркеров, которая позволяет использовать некоторую емкость с ускорением при сохранении среднего ограничения скорости с течением времени.

Ниже приведен пример того, как выполняется проверка перед приемом и поведение обратной кредитоспособности.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Ограничения скорости по модели

В следующих таблицах приведены сведения об ограничениях частоты ITPM, OTPM и QPH для конечных точек API модели модели токенов для рабочих областей уровня enterprise:

Замечание

Начиная с 15 февраля 2026 г., Meta-Llama-3.1-405B-Instruct будет прекращен. Ознакомьтесь с моделями, снятыми с производства для получения рекомендаций по выбору модели замены и миграции в процессе вывода из эксплуатации.

Большие языковые модели Ограничение ITPM Ограничение OTPM Ограничение QPH Примечания.
Qwen3-Next 80B A3B Instruct (бета-версия) 200,000 10 000 LLM общего назначения
GPT OSS 120B 200,000 10 000 LLM общего назначения
GPT OSS 20B 200,000 10 000 Меньший вариант GPT
Джемма 3 12B 200,000 10 000 7,200 Модель Google Gemma
Лама 4 Маверрик 200,000 10 000 2,400 Последний выпуск Llama
Лама 3.3 70B Инструктаж 200,000 10 000 2,400 Модель Ламы среднего размера
Указание Ламы 3.1 8B 200,000 10 000 7,200 Упрощенная модель Ламы
Лама 3.1 405B Инструкция 5,000 500 1,200
  • Самая большая модель Ламы — уменьшенные ограничения из-за размера
Anthropic Claude models Ограничение ITPM Ограничение OTPM Примечания.
Клод 3.7 Соннет 50,000 5,000 Сбалансированная модель Claude
Клод Соннет 4 50,000 5,000
Клод Opus 4.1 50,000 5,000
Клод Opus 4.5 200,000 20,000 Последняя версия Opus
Клод Соннет 4.5 50,000 5,000 Последняя версия Sonnet
Клод Хайку 4.5 50,000 5,000 Последняя версия Haiku
Внедрение моделей Ограничение ITPM Ограничение OTPM Ограничение QPH Примечания.
GTE large (en) N/A N/A 540,000 Модель внедрения текста — не создает нормализованные внедрения
BGE Large (en) N/A N/A 2,160,000 Модель внедрения текста

Рекомендации по управлению ограничениями скорости доверенного платформенного модуля

Шаг 1. Мониторинг использования маркеров

Отслеживайте количество входных и выходных маркеров отдельно в приложениях:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Шаг 2. Реализация логики повторных попыток

Добавьте экспоненциальный откат при возникновении ошибок ограничения скорости:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Шаг 3. Оптимизация использования маркеров

  • Свести к минимуму длину запроса: используйте краткие, хорошо структурированные запросы
  • Контроль длины выходных данных: используйте max_tokens параметр для ограничения размера ответа
  • Задать max_tokens явно для Claude Sonnet 4: всегда указывать max_tokens при использовании Claude Sonnet 4, чтобы избежать ограничения маркера по умолчанию 1000
  • Пакет эффективно: группировать связанные запросы, если это возможно при сохранении в пределах ограничений

Шаг 4. Рассмотрите возможность выбора модели

  • Небольшие модели для задач с большим объемом: используйте такие модели, как Llama 3.1 8B для задач с более высокой пропускной способностью.
  • Большие модели для сложных задач: резервная резервная система Ллома 3.1 405B для задач, требующих максимальной возможности

Мониторинг и устранение неполадок

Отслеживайте шаблоны использования маркеров, чтобы оптимизировать производительность:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Обработка ошибок ограничения скорости

При превышении ограничений скорости API возвращает ошибку 429 Too Many Requests :

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Ответ на ошибку включает:

  • limit_type: какой предел был превышен (ITPM, OTPM, QPS или QPH)
  • limit: настроенное значение ограничения
  • current: текущее использование
  • retry_after: предлагаемое время ожидания в секундах

Распространенные проблемы и решения

Проблема Solution
Частые ошибки 429 Реализуйте экспоненциальную обратную передачу, сокращение частоты запросов и ограничения более высокой скорости запроса
Достигнуто ограничение ITPM Оптимизация длины запроса
Достигнуто ограничение OTPM Использование max_tokens для ограничения длины ответа
Достигнуто ограничение QPH Равномерное распределение запросов с течением времени

Ограничения подготовленной пропускной способности

Для рабочих нагрузок, требующих более высоких ограничений, предложение подготовленных конечных точек пропускной способности:

  • Нет ограничений TPM: емкость обработки на основе подготовленных ресурсов
  • Более высокие ограничения скорости: до 200 запросов в секунду на рабочую область
  • Прогнозируемая производительность. Выделенные ресурсы обеспечивают согласованную задержку

Ограничения на токены вывода

Замечание

Начиная с 15 мая 2026 г. Meta-Llama-3.1-405B-Instruct будет выведен из эксплуатации. Ознакомьтесь с моделями, снятыми с производства для получения рекомендаций по выбору модели замены и миграции в процессе вывода из эксплуатации.

В следующей таблице перечислены ограничения выходных маркеров для каждой поддерживаемой модели:

Модель Ограничение токена на вывод
GPT OSS 120B 25,000
GPT OSS 20B 25,000
Джемма 3 12B 8,192
Лама 4 Маверрик 8,192
Лама 3.1 405B 4,096
Лама 3.1 70B 8,192
Лама 3.1 8B 8,192

Дополнительные ограничения

Ниже приведены ограничения для рабочих нагрузок с выделенной пропускной способностью:

  • Чтобы развернуть модель Meta Llama из system.ai каталога Unity, необходимо выбрать соответствующую версию инструкции . Базовые версии моделей Meta Llama не поддерживаются для развертывания из каталога Unity. См. статью "Развертывание подготовленных конечных точек пропускной способности".
  • Для подготовленных рабочих нагрузок пропускной способности, использующих Llama 4 Maverick:
    • Поддержка этой модели для подготовленных рабочих нагрузок пропускной способности доступна в общедоступной предварительной версии.
    • Автомасштабирование не поддерживается.
    • Панели метрик не поддерживаются.
    • Разделение трафика не поддерживается в конечной точке, которая обслуживает Llama 4 Maverick. Вы не можете обслуживать несколько моделей в конечной точке, которая обслуживает Llama 4 Maverick.

Региональная доступность и обработка данных

Сведения о доступности региона модели, размещенной в Databricks, см. в обзоре модели Foundation.

Сведения об обработке и местонахождении данных см. в разделе "Обработка и размещение данных".

Дополнительные ресурсы