Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
На этой странице описываются ограничения и квоты для рабочих нагрузок API модели Databricks Foundation.
API модели Databricks Foundation применяют ограничения скорости, чтобы обеспечить надежную производительность и справедливое распределение ресурсов для всех пользователей. Эти ограничения зависят от уровня платформы рабочей области, типа базовой модели и способа развертывания базовой модели.
Ограничения скорости конечной точки для оплаты за токен
Конечные точки с оплатой за токены управляются ограничениями на основе маркеров и ограничениями на основе запросов. Ограничения скорости на основе маркеров управляют максимальным количеством маркеров, которые могут обрабатываться в минуту и применяются отдельно для маркеров ввода и вывода.
- Маркеры ввода в минуту (ITPM) — максимальное количество входных маркеров (из запросов), которые можно обрабатывать в 60-секундном окне. Ограничение скорости ITPM управляет пропускной способностью входных маркеров конечной точки.
- Маркеры вывода в минуту (OTPM) — максимальное количество выходных маркеров (из ответов модели), которое можно создать в 60-секундном окне. Ограничение скорости OTPM управляет пропускной способностью выходных маркеров конечной точки.
- Запросы в час: максимальное количество запросов или запросов, которые могут обрабатываться в течение 60 минут. Для рабочих приложений с устойчивыми шаблонами использования Databricks рекомендует подготовленные конечные точки пропускной способности, которые обеспечивают гарантированную емкость.
Отслеживание и применение ограничений
Самое строгое ограничение скорости (ITPM, OTPM, QPH) применяется в любое время. Например, даже если вы не достигли предела ITPM, вы по-прежнему будете ограничены скоростью, если превышено ограничение QPH или OTPM. По достижении ограничения ITPM или OTPM последующие запросы получают ошибку 429, указывающую на получение слишком большого количества запросов. Это сообщение сохраняется до сброса окна ограничения скорости.
Databricks отслеживает и применяет ограничения скорости маркеров в минуту (TPM) с помощью следующих функций:
| Функция | Сведения |
|---|---|
| Проверка учета маркеров и предварительного приема |
|
| Ускорение емкости и сглаживание |
|
Ниже приведен пример того, как выполняется проверка перед приемом и поведение обратной кредитоспособности.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Ограничения скорости по модели
В следующих таблицах приведены сведения об ограничениях частоты ITPM, OTPM и QPH для конечных точек API модели модели токенов для рабочих областей уровня enterprise:
Замечание
Начиная с 15 февраля 2026 г., Meta-Llama-3.1-405B-Instruct будет прекращен. Ознакомьтесь с моделями, снятыми с производства для получения рекомендаций по выбору модели замены и миграции в процессе вывода из эксплуатации.
| Большие языковые модели | Ограничение ITPM | Ограничение OTPM | Ограничение QPH | Примечания. |
|---|---|---|---|---|
| Qwen3-Next 80B A3B Instruct (бета-версия) | 200,000 | 10 000 | LLM общего назначения | |
| GPT OSS 120B | 200,000 | 10 000 | LLM общего назначения | |
| GPT OSS 20B | 200,000 | 10 000 | Меньший вариант GPT | |
| Джемма 3 12B | 200,000 | 10 000 | 7,200 | Модель Google Gemma |
| Лама 4 Маверрик | 200,000 | 10 000 | 2,400 | Последний выпуск Llama |
| Лама 3.3 70B Инструктаж | 200,000 | 10 000 | 2,400 | Модель Ламы среднего размера |
| Указание Ламы 3.1 8B | 200,000 | 10 000 | 7,200 | Упрощенная модель Ламы |
| Лама 3.1 405B Инструкция | 5,000 | 500 | 1,200 |
|
| Anthropic Claude models | Ограничение ITPM | Ограничение OTPM | Примечания. |
|---|---|---|---|
| Клод 3.7 Соннет | 50,000 | 5,000 | Сбалансированная модель Claude |
| Клод Соннет 4 | 50,000 | 5,000 | |
| Клод Opus 4.1 | 50,000 | 5,000 | |
| Клод Opus 4.5 | 200,000 | 20,000 | Последняя версия Opus |
| Клод Соннет 4.5 | 50,000 | 5,000 | Последняя версия Sonnet |
| Клод Хайку 4.5 | 50,000 | 5,000 | Последняя версия Haiku |
| Внедрение моделей | Ограничение ITPM | Ограничение OTPM | Ограничение QPH | Примечания. |
|---|---|---|---|---|
| GTE large (en) | N/A | N/A | 540,000 | Модель внедрения текста — не создает нормализованные внедрения |
| BGE Large (en) | N/A | N/A | 2,160,000 | Модель внедрения текста |
Рекомендации по управлению ограничениями скорости доверенного платформенного модуля
Шаг 1. Мониторинг использования маркеров
Отслеживайте количество входных и выходных маркеров отдельно в приложениях:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Шаг 2. Реализация логики повторных попыток
Добавьте экспоненциальный откат при возникновении ошибок ограничения скорости:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Шаг 3. Оптимизация использования маркеров
- Свести к минимуму длину запроса: используйте краткие, хорошо структурированные запросы
-
Контроль длины выходных данных: используйте
max_tokensпараметр для ограничения размера ответа -
Задать max_tokens явно для Claude Sonnet 4: всегда указывать
max_tokensпри использовании Claude Sonnet 4, чтобы избежать ограничения маркера по умолчанию 1000 - Пакет эффективно: группировать связанные запросы, если это возможно при сохранении в пределах ограничений
Шаг 4. Рассмотрите возможность выбора модели
- Небольшие модели для задач с большим объемом: используйте такие модели, как Llama 3.1 8B для задач с более высокой пропускной способностью.
- Большие модели для сложных задач: резервная резервная система Ллома 3.1 405B для задач, требующих максимальной возможности
Мониторинг и устранение неполадок
Отслеживайте шаблоны использования маркеров, чтобы оптимизировать производительность:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Обработка ошибок ограничения скорости
При превышении ограничений скорости API возвращает ошибку 429 Too Many Requests :
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
Ответ на ошибку включает:
-
limit_type: какой предел был превышен (ITPM, OTPM, QPS или QPH) -
limit: настроенное значение ограничения -
current: текущее использование -
retry_after: предлагаемое время ожидания в секундах
Распространенные проблемы и решения
| Проблема | Solution |
|---|---|
| Частые ошибки 429 | Реализуйте экспоненциальную обратную передачу, сокращение частоты запросов и ограничения более высокой скорости запроса |
| Достигнуто ограничение ITPM | Оптимизация длины запроса |
| Достигнуто ограничение OTPM | Использование max_tokens для ограничения длины ответа |
| Достигнуто ограничение QPH | Равномерное распределение запросов с течением времени |
Ограничения подготовленной пропускной способности
Для рабочих нагрузок, требующих более высоких ограничений, предложение подготовленных конечных точек пропускной способности:
- Нет ограничений TPM: емкость обработки на основе подготовленных ресурсов
- Более высокие ограничения скорости: до 200 запросов в секунду на рабочую область
- Прогнозируемая производительность. Выделенные ресурсы обеспечивают согласованную задержку
Ограничения на токены вывода
Замечание
Начиная с 15 мая 2026 г. Meta-Llama-3.1-405B-Instruct будет выведен из эксплуатации. Ознакомьтесь с моделями, снятыми с производства для получения рекомендаций по выбору модели замены и миграции в процессе вывода из эксплуатации.
В следующей таблице перечислены ограничения выходных маркеров для каждой поддерживаемой модели:
| Модель | Ограничение токена на вывод |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| Джемма 3 12B | 8,192 |
| Лама 4 Маверрик | 8,192 |
| Лама 3.1 405B | 4,096 |
| Лама 3.1 70B | 8,192 |
| Лама 3.1 8B | 8,192 |
Дополнительные ограничения
Ниже приведены ограничения для рабочих нагрузок с выделенной пропускной способностью:
- Чтобы развернуть модель Meta Llama из
system.aiкаталога Unity, необходимо выбрать соответствующую версию инструкции . Базовые версии моделей Meta Llama не поддерживаются для развертывания из каталога Unity. См. статью "Развертывание подготовленных конечных точек пропускной способности". - Для подготовленных рабочих нагрузок пропускной способности, использующих Llama 4 Maverick:
- Поддержка этой модели для подготовленных рабочих нагрузок пропускной способности доступна в общедоступной предварительной версии.
- Автомасштабирование не поддерживается.
- Панели метрик не поддерживаются.
- Разделение трафика не поддерживается в конечной точке, которая обслуживает Llama 4 Maverick. Вы не можете обслуживать несколько моделей в конечной точке, которая обслуживает Llama 4 Maverick.
Региональная доступность и обработка данных
Сведения о доступности региона модели, размещенной в Databricks, см. в обзоре модели Foundation.
Сведения об обработке и местонахождении данных см. в разделе "Обработка и размещение данных".