Ограничения и квоты api модели Foundation

На этой странице описываются ограничения и квоты для рабочих нагрузок API модели Databricks Foundation.

API модели Databricks Foundation применяют ограничения скорости, чтобы обеспечить надежную производительность и справедливое распределение ресурсов для всех пользователей. Эти ограничения зависят от уровня платформы рабочей области, типа базовой модели и способа развертывания базовой модели.

Ограничения скорости конечной точки для оплаты за токен

Конечные точки с оплатой за токены управляются ограничениями на основе маркеров и ограничениями на основе запросов. Ограничения скорости на основе маркеров управляют максимальным количеством маркеров, которые могут обрабатываться в минуту и применяются отдельно для маркеров ввода и вывода.

Маркеры ввода в минуту (ITPM) — максимальное количество входных маркеров (из запросов), которые можно обрабатывать в 60-секундном окне. Ограничение скорости ITPM управляет пропускной способностью входных маркеров конечной точки.
Маркеры вывода в минуту (OTPM) — максимальное количество выходных маркеров (из ответов модели), которое можно создать в 60-секундном окне. Ограничение скорости OTPM управляет пропускной способностью выходных маркеров конечной точки.
Запросы в час: максимальное количество запросов или запросов, которые могут обрабатываться в течение 60 минут. Для рабочих приложений с устойчивыми шаблонами использования Databricks рекомендует подготовленные конечные точки пропускной способности, которые обеспечивают гарантированную емкость.

Отслеживание и применение ограничений

Самое строгое ограничение скорости (ITPM, OTPM, QPH) применяется в любое время. Например, даже если вы не достигли предела ITPM, вы по-прежнему будете ограничены скоростью, если превышено ограничение QPH или OTPM. По достижении ограничения ITPM или OTPM последующие запросы получают ошибку 429, указывающую на получение слишком большого количества запросов. Это сообщение сохраняется до сброса окна ограничения скорости.

Databricks отслеживает и применяет ограничения скорости маркеров в минуту (TPM) с помощью следующих функций:

Функция Сведения

Проверка учета маркеров и предварительного приема

Функция	Сведения
Проверка учета маркеров и предварительного приема	Подсчет входных маркеров: входные маркеры учитываются из фактического запроса во время запроса. Оценка выходных маркеров. Если вы указали `max_tokens` в запросе, Databricks использует это значение для оценки и резервирования емкости выходных маркеров до того, как запрос будет принят для обработки. Проверка перед приемом: Databricks проверяет, превысит ли запрос ограничения ITPM или OTPM перед началом обработки. Если `max_tokens` превышение ограничений OTPM, Databricks отклоняет запрос немедленно с ошибкой 429. Фактические и предполагаемые выходные данные: после создания ответа учитываются фактические выходные маркеры. Важно отметить, что если фактическое использование токенов меньше зарезервированного `max_tokens`, Databricks кредитует разницу обратно в ограничение ставки, что делает эти маркеры немедленно доступными для других запросов. Нет max_tokens указано: если не указать `max_tokens`, Databricks использует резервирование по умолчанию, а фактическое число маркеров сверяется после создания. Заметка: Claude Sonnet 4 специально по умолчанию использует 1000 выходных маркеров, если `max_tokens` не задано, возвращая причину завершения "длина" при достижении. Это не максимальная длина контекста модели. Клод 3.7 Sonnet не имеет такого значения по умолчанию.
Ускорение емкости и сглаживание	Буфер всплеска: ограничение скорости включает небольшой буфер для размещения коротких всплесков трафика выше номинальной скорости. Скользящее окно: использование маркеров отслеживается с помощью алгоритма скользящего окна, который обеспечивает более плавное ограничение скорости, чем жесткие границы в минуту. Алгоритм контейнера токенов: Databricks использует реализацию контейнера маркеров, которая позволяет использовать некоторую емкость с ускорением при сохранении среднего ограничения скорости с течением времени.

Подсчет входных маркеров: входные маркеры учитываются из фактического запроса во время запроса.
Оценка выходных маркеров. Если вы указали max_tokens в запросе, Databricks использует это значение для оценки и резервирования емкости выходных маркеров до того, как запрос будет принят для обработки.
Проверка перед приемом: Databricks проверяет, превысит ли запрос ограничения ITPM или OTPM перед началом обработки. Если max_tokens превышение ограничений OTPM, Databricks отклоняет запрос немедленно с ошибкой 429.
Фактические и предполагаемые выходные данные: после создания ответа учитываются фактические выходные маркеры. Важно отметить, что если фактическое использование токенов меньше зарезервированного max_tokens, Databricks кредитует разницу обратно в ограничение ставки, что делает эти маркеры немедленно доступными для других запросов.
Нет max_tokens указано: если не указать max_tokens, Databricks использует резервирование по умолчанию, а фактическое число маркеров сверяется после создания. Заметка: Claude Sonnet 4 специально по умолчанию использует 1000 выходных маркеров, если max_tokens не задано, возвращая причину завершения "длина" при достижении. Это не максимальная длина контекста модели. Клод 3.7 Sonnet не имеет такого значения по умолчанию.

Ускорение емкости и сглаживание

Буфер всплеска: ограничение скорости включает небольшой буфер для размещения коротких всплесков трафика выше номинальной скорости.
Скользящее окно: использование маркеров отслеживается с помощью алгоритма скользящего окна, который обеспечивает более плавное ограничение скорости, чем жесткие границы в минуту.
Алгоритм контейнера токенов: Databricks использует реализацию контейнера маркеров, которая позволяет использовать некоторую емкость с ускорением при сохранении среднего ограничения скорости с течением времени.

Ниже приведен пример того, как выполняется проверка перед приемом и поведение обратной кредитоспособности.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Ограничения скорости по модели

В следующих таблицах приведены сведения об ограничениях частоты ITPM, OTPM и QPH для конечных точек API модели модели токенов для рабочих областей уровня enterprise:

Замечание

Начиная с 15 февраля 2026 г., Meta-Llama-3.1-405B-Instruct будет прекращен. Ознакомьтесь с моделями, снятыми с производства для получения рекомендаций по выбору модели замены и миграции в процессе вывода из эксплуатации.

Большие языковые модели	Ограничение ITPM	Ограничение OTPM	Ограничение QPH	Примечания.
Qwen3-Next 80B A3B Instruct (бета-версия)	200,000	10 000		LLM общего назначения
GPT OSS 120B	200,000	10 000		LLM общего назначения
GPT OSS 20B	200,000	10 000		Меньший вариант GPT
Джемма 3 12B	200,000	10 000	7,200	Модель Google Gemma
Лама 4 Маверрик	200,000	10 000	2,400	Последний выпуск Llama
Лама 3.3 70B Инструктаж	200,000	10 000	2,400	Модель Ламы среднего размера
Указание Ламы 3.1 8B	200,000	10 000	7,200	Упрощенная модель Ламы
Лама 3.1 405B Инструкция	5,000	500	1,200	Самая большая модель Ламы — уменьшенные ограничения из-за размера

Anthropic Claude models	Ограничение ITPM	Ограничение OTPM	Примечания.
Клод 3.7 Соннет	50,000	5,000	Сбалансированная модель Claude
Клод Соннет 4	50,000	5,000
Клод Opus 4.1	50,000	5,000
Клод Opus 4.5	200,000	20,000	Последняя версия Opus
Клод Соннет 4.5	50,000	5,000	Последняя версия Sonnet
Клод Хайку 4.5	50,000	5,000	Последняя версия Haiku

Внедрение моделей	Ограничение ITPM	Ограничение OTPM	Ограничение QPH	Примечания.
GTE large (en)	N/A	N/A	540,000	Модель внедрения текста — не создает нормализованные внедрения
BGE Large (en)	N/A	N/A	2,160,000	Модель внедрения текста

Мониторинг и устранение неполадок

Отслеживайте шаблоны использования маркеров, чтобы оптимизировать производительность:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Обработка ошибок ограничения скорости

При превышении ограничений скорости API возвращает ошибку 429 Too Many Requests :

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Ответ на ошибку включает:

limit_type: какой предел был превышен (ITPM, OTPM, QPS или QPH)
limit: настроенное значение ограничения
current: текущее использование
retry_after: предлагаемое время ожидания в секундах

Распространенные проблемы и решения

Проблема	Solution
Частые ошибки 429	Реализуйте экспоненциальную обратную передачу, сокращение частоты запросов и ограничения более высокой скорости запроса
Достигнуто ограничение ITPM	Оптимизация длины запроса
Достигнуто ограничение OTPM	Использование `max_tokens` для ограничения длины ответа
Достигнуто ограничение QPH	Равномерное распределение запросов с течением времени

Ограничения подготовленной пропускной способности

Для рабочих нагрузок, требующих более высоких ограничений, предложение подготовленных конечных точек пропускной способности:

Нет ограничений TPM: емкость обработки на основе подготовленных ресурсов
Более высокие ограничения скорости: до 200 запросов в секунду на рабочую область
Прогнозируемая производительность. Выделенные ресурсы обеспечивают согласованную задержку

Ограничения на токены вывода

Замечание

Начиная с 15 мая 2026 г. Meta-Llama-3.1-405B-Instruct будет выведен из эксплуатации. Ознакомьтесь с моделями, снятыми с производства для получения рекомендаций по выбору модели замены и миграции в процессе вывода из эксплуатации.

В следующей таблице перечислены ограничения выходных маркеров для каждой поддерживаемой модели:

Модель	Ограничение токена на вывод
GPT OSS 120B	25,000
GPT OSS 20B	25,000
Джемма 3 12B	8,192
Лама 4 Маверрик	8,192
Лама 3.1 405B	4,096
Лама 3.1 70B	8,192
Лама 3.1 8B	8,192

Дополнительные ограничения

Ниже приведены ограничения для рабочих нагрузок с выделенной пропускной способностью:

Чтобы развернуть модель Meta Llama из system.ai каталога Unity, необходимо выбрать соответствующую версию инструкции . Базовые версии моделей Meta Llama не поддерживаются для развертывания из каталога Unity. См. статью "Развертывание подготовленных конечных точек пропускной способности".
Для подготовленных рабочих нагрузок пропускной способности, использующих Llama 4 Maverick:
- Поддержка этой модели для подготовленных рабочих нагрузок пропускной способности доступна в общедоступной предварительной версии.
- Автомасштабирование не поддерживается.
- Панели метрик не поддерживаются.
- Разделение трафика не поддерживается в конечной точке, которая обслуживает Llama 4 Maverick. Вы не можете обслуживать несколько моделей в конечной точке, которая обслуживает Llama 4 Maverick.

Региональная доступность и обработка данных

Сведения о доступности региона модели, размещенной в Databricks, см. в обзоре модели Foundation.

Сведения об обработке и местонахождении данных см. в разделе "Обработка и размещение данных".

Дополнительные ресурсы

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-07

Поделиться через

Ограничения и квоты api модели Foundation

Ограничения скорости конечной точки для оплаты за токен

Отслеживание и применение ограничений

Ограничения скорости по модели

Рекомендации по управлению ограничениями скорости доверенного платформенного модуля

Шаг 1. Мониторинг использования маркеров

Шаг 2. Реализация логики повторных попыток

Шаг 3. Оптимизация использования маркеров

Шаг 4. Рассмотрите возможность выбора модели

Мониторинг и устранение неполадок

Обработка ошибок ограничения скорости

Распространенные проблемы и решения

Ограничения подготовленной пропускной способности

Ограничения на токены вывода

Дополнительные ограничения

Региональная доступность и обработка данных

Дополнительные ресурсы

Обратная связь

Дополнительные ресурсы