Квоты и ограничения службы речи

2025-07-15

В этой статье содержится краткий справочник и подробное описание квот и ограничений для службы "Речь" в службах ИИ Azure. Эти сведения верны для всех ценовых категорий службы. Она также содержит некоторые рекомендации по предотвращению ограничения количества запросов.

Для ценового уровня бесплатного (F0) также смотрите ежемесячные лимиты на странице с ценами.

Справочник по квотам и ограничениям

В следующих разделах представлено краткое руководство по квотам и ограничениям, применяемым к службе распознавания речи.

Для получения информации о настраиваемых квотах для ресурсов "Речь Стандартный" (S0) обратитесь к дополнительным объяснениям, рекомендациям и инструкциям по корректировке. Квоты и лимиты для ресурсов категории "Свободная речь" (F0) не подлежат настройке.

Внимание

Если вы переключите ресурс AI Foundry для распознавания речи с ценовой категории "Бесплатный" (F0) на "Стандартный" (S0), изменение соответствующих квот может занять до нескольких часов.

Квоты и ограничения речи на текст для каждого ресурса

В этом разделе описываются квоты и ограничения на преобразование речи в текст для каждого ресурса "Речь". Если иное не указано, ограничения не изменяются.

Преобразование речи в текст и перевод речи в режиме реального времени

Вы можете использовать преобразование речи в текст в режиме реального времени с помощью Speech SDK или REST API для распознавания коротких аудиофайлов.

Внимание

Эти ограничения применяются к одновременному выполнению запросов на преобразование речи в текст и запросов на перевод речи в реальном времени, в сочетании. Например, если у вас есть 60 одновременных речевых запросов и 40 одновременных запросов на перевод речи, вы достигнете предела в 100 одновременных запросов.

Квота	Бесплатный (F0)	Standard (S0)
Ограничение на количество одновременных запросов — конечная точка базовой модели	1 Это ограничение не настраивается.	100 (значение по умолчанию) Скорость настраивается для ресурсов Стандартного уровня (S0). Дополнительные объяснения, рекомендации и инструкции по корректировке.
Ограничение на количество одновременных запросов — пользовательская конечная точка	1 Это ограничение не настраивается.	100 (значение по умолчанию) Скорость настраивается для ресурсов Стандартного уровня (S0). Дополнительные объяснения, рекомендации и инструкции по корректировке.
Максимальная длина звука для диаризации в режиме реального времени.	Н/П	240 минут на файл

Быстрое транскрибирование

Квота	Бесплатный (F0)	Standard (S0)
Максимальный размер входного аудиофайла	Н/П	< 300 МБ
Максимальная длина звука	Н/П	< 120 минут на файл
Максимальное количество запросов в минуту	Н/П	600

Пакетное транскрибирование

Квота	Бесплатный (F0)	Standard (S0)
Ограничение REST API преобразования речи в текст	Недоступно для F0	100 запросов в 10 секунд (600 запросов в минуту)
Максимальный размер входного аудиофайла	Н/П	1 ГБ
Максимальное количество объектов Blob в контейнере	Н/П	10 000
Максимальное количество файлов в одном запросе на транскрибирование (при использовании нескольких URL-адресов содержимого в качестве входных данных).	Н/П	1000
Максимальная длительность аудиозаписи для транскрипции с включенной диаризацией.	Н/П	240 минут на файл

Настройка модели

Ограничения в этой таблице применяются к ресурсу службы "Речь" при создании пользовательской модели речи.

Квота	Бесплатный (F0)	Standard (S0)
Ограничение REST API	100 запросов в 10 секунд (600 запросов в минуту)	100 запросов в 10 секунд (600 запросов в минуту)
Максимальное количество развертываний пользовательской модели на ресурсе распознавания речи.	1	50
Максимальное количество наборов речевых данных	2	500
Максимальный размер файла набора акустических данных для импорта данных	2 ГБ	2 ГБ
Максимальный размер файла набора языковых данных для импорта данных	200 МБ	1.5 ГБ
Максимальный размер файла набора данных произношения для импорта данных	1 КБ	1 МБ
Максимальный `text` размер текста при использовании параметра в запросе API Models_Create	200 КБ	500 КБ

Квоты и ограничения на преобразование текста в речь для каждого ресурса

В этом разделе описаны квоты на преобразование текста в речь и ограничения для каждого ресурса преобразования текста в речь.

Текст в режиме реального времени для речи

Вы можете использовать текст в режиме реального времени для речи с помощью пакета SDK службы "Речь" или REST API преобразования текста в речь. Если иное не указано, ограничения не изменяются.

Квота	Бесплатный (F0)	Standard (S0)
Максимальное количество транзакций в период времени для стандартных голосов и пользовательских голосов.	20 транзакций за 60 секунд Это ограничение не настраивается.	200 транзакций в секунду (TPS) (значение по умолчанию). Скорость настраивается до 1000 TPS для ресурсов standard (S0). Дополнительные объяснения, рекомендации и инструкции по корректировке.
Максимальная длина созданной аудиозаписи для одного запроса	10 мин.	10 мин.
Макс. совокупное количество различных тегов `<voice>` и `<audio>` в SSML	50	50
Максимальный размер сообщения SSML за один запрос для веб-сокета	64 КБ	64 КБ

Пакетный синтез

Эти ограничения не настраиваются. Дополнительные сведения о задержке пакетного синтеза см. в задержке пакетного синтеза и лучших практиках.

Квота	Бесплатный (F0)	Standard (S0)
Ограничение REST API	Недоступно для F0	100 запросов в 10 секунд
Максимально допустимый размер полезной нагрузки JSON для создания задания синтеза	Н/П	2 мегабайта
Одновременные активные задания синтеза	Н/П	Без ограничений
Максимальное число текстовых входных данных на задание синтеза	Н/П	10 000
Максимальное время жизни для задания синтеза с момента его нахождения в финальном состоянии	Н/П	До 31 дней (указано с помощью свойств)

Пользовательский голос — профессиональный

Ограничения, указанные в этой таблице, применяются к ресурсу службы "Речь" при создании профессионального голоса.

Квота	Бесплатный (F0)	Standard (S0)
Максимальное число транзакций в секунду (TPS)	Недоступно для F0	200 транзакций в секунду (TPS) (значение по умолчанию).
Максимальное количество наборов данных	Н/П	500
Максимальное число одновременных отправки набора данных	Н/П	5
Максимальный размер файла для импорта данных в набор данных	Н/П	2 ГБ
Отправка длинного звука или звука без скрипта	Н/П	Да
Максимальное число одновременных обучения моделей	Н/П	4
Максимальное количество пользовательских конечных точек	Н/П	50

Пользовательский голос — личный голос

Ограничения в этой таблице применяются к ресурсу "Речь" при создании личного голоса.

Квота	Бесплатный (F0)	Standard (S0)
Ограничение REST API (не включая синтез речи)	Недоступно для F0	50 запросов в 10 секунд
Максимальное число транзакций в секунду (TPS) для синтеза речи	Недоступно для F0	200 транзакций в секунду (TPS) (значение по умолчанию).

Пакетный текст для аватара речи

Квота	Бесплатный (F0)	Standard (S0)
Ограничение REST API	Недоступно для F0	2 запроса в минуту

Текст в режиме реального времени для аватара речи

Квота	Бесплатный (F0)	Standard (S0)
Новые подключения в минуту	Недоступно для F0	2 новых подключения в минуту
Максимальная длительность подключения с речью	Недоступно для F0	30 минут¹
Максимальная длительность подключения с состоянием простоя	Недоступно для F0	5 мин

¹ . Чтобы обеспечить непрерывную работу аватара в режиме реального времени более 30 минут, можно включить автоматическое повторное подключение. Сведения о настройке автоматического повторного подключения см. в этом примере кода (поиск "автоматическое повторное подключение").

Средство создания аудиосодержимого

Квота	Бесплатный (F0)	Standard (S0)
Размер файла (обычный текст в SSML)¹	3,000 символов на один файл	20 000 символов на один файл
Размер файла (лексиконный файл)²	30 КБ на файл	100 КБ на файл
Учитываемые символы в SSML	15 000 символов на файл	100 000 символов на файл
Экспорт в аудио-библиотеку	1 одновременная задача	Н/П

¹ Ограничение применяется только к обычному тексту в SSML и не включает теги.

² Символы файла словаря не загружаются. Только элементы лексикона в SSML учитываются как оплачиваемые символы. См. подлежащие оплате символы для получения дополнительной информации.

Квоты распознавания говорящего и ограничения для каждого ресурса

Распознавание говорящего ограничено 20 транзакциями в секунду (TPS).

Подробное описание, корректировка квот и рекомендации

Некоторые квоты службы "Речь" настраиваются. В этом разделе приведены дополнительные объяснения, рекомендации и инструкции по корректировке.

Следующие квоты настраиваются для ресурсов Standard (S0). Ограничения на бесплатный запрос (F0) не настраиваются.

Ограничение одновременных запросов для преобразования речи в текст для конечной точки базовой модели и пользовательской конечной точки
Максимальное количество транзакций за определенный период времени для систем преобразования текста в речь для стандартных и пользовательских голосов
Ограничение на количество одновременных запросов на перевод речи

Прежде чем запрашивать увеличение квоты (если применимо), проверьте текущие TPS (транзакции в секунду) и убедитесь, что необходимо увеличить квоту. Служба "Речь" использует технологии автоматического масштабирования для предоставления требуемых вычислительных ресурсов в режиме по требованию. В то же время служба "Речь" пытается снизить затраты, не сохраняя чрезмерное количество аппаратных ресурсов.

Давайте рассмотрим пример. Предположим, что приложение получает код ответа 429, указывающий на слишком большое число запросов. Ваше приложение получает этот ответ, даже если рабочая нагрузка находится в рамках лимитов, указанных в справочнике по квотам и ограничениям. Скорее всего, причина в том, что служба "Речь" находится в процессе масштабирования для удовлетворения вашей потребности и еще не достигла требуемого масштаба. Поэтому служба не может моментально предоставить достаточно ресурсов для обслуживания запроса. В таких случаях увеличение квоты не поможет. В большинстве случаев служба Речь вскоре масштабируется, и проблема, вызывающая код ответа 429, будет решена.

Общие рекомендации по предотвращению ограничения во время автомасштабирования

Чтобы снизить количество проблем, связанных с регулированием, рекомендуется использовать следующие методы:

Реализуйте в приложении логику повторных попыток.
Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно. Например, предположим, что приложение использует текст для речи, а текущая рабочая нагрузка составляет 5 TPS. В следующую секунду вы увеличиваете нагрузку до 20 TPS (то есть в четыре раза). Служба речи немедленно начинает масштабирование, чтобы удовлетворить новую нагрузку, но не удается масштабироваться так, как необходимо, за одну секунду. Некоторые запросы получают код ответа 429 (слишком много запросов).
Протестируйте различные шаблоны увеличения нагрузки. Дополнительные сведения см. в примере шаблона рабочей нагрузки.
Создайте дополнительные ресурсы службы "Речь" в разных регионах и распределите рабочую нагрузку между ними. (Создание нескольких ресурсов службы "Речь" в одном регионе не влияет на производительность, так как все ресурсы обслуживаются тем же серверным кластером).

В следующих разделах описаны конкретные случаи настройки квот.

Речь в тексте: увеличение объема речи в режиме реального времени до ограничения параллельного запроса на текст

По умолчанию общее количество одновременных запросов на преобразование речи в текст и перевод речи в режиме реального времени ограничено 100 на ресурс в базовой модели и 100 на пользовательскую конечную точку в пользовательской модели. Для ценовой категории "Стандартный" это значение можно увеличить. Перед отправкой запроса убедитесь, что вы знакомы с материалами, обсуждаемыми ранее в этой статье, такими как лучшие практики по снижению ограничения.

Примечание.

Ограничения на число одновременных запросов для базовой и пользовательской моделей необходимо корректировать отдельно. У вас может быть ресурс службы речевого распознавания, который связан со множеством пользовательских конечных точек, где развернуто множество пользовательских моделей. По мере необходимости необходимо запросить корректировки ограничений на пользовательскую конечную точку отдельно.

Увеличение предельного количества одновременных запросов не влияет на затраты напрямую. Служба распознавания речи использует модель оплаты, требующую оплаты только за то, что вы используете. Ограничение определяет, насколько служба может масштабироваться, прежде чем начнется ограничение скорости ваших запросов.

Существующее значение максимального числа одновременных запросов нельзя просмотреть на портале Azure, в средствах командной строки или запросах API. Чтобы проверить имеющееся значение, отправьте запрос в службу поддержки Azure.

Примечание.

Контейнерам службы "Речь" не требуется увеличение максимального количества одновременных запросов, так как в этом они зависят только от ограничений ЦП оборудования, на котором размещены. Однако контейнеры службы "Речь" имеют собственные ограничения емкости, которые следует учитывать. Дополнительные сведения см. в разделе вопросов и ответов по контейнерам службы "Речь".

Подготовьте необходимые сведения

Для базовой модели:
- Идентификатор ресурса "Речь"
- Область/регион
Для пользовательской модели:
- Область/регион
- Пользовательский идентификатор конечной точки

Как получить сведения для базовой модели:

Переход на портал Azure.
Выберите ресурс службы речевых технологий, для которого вы хотите повысить лимит на количество одновременных запросов.
Откройте группу Управление ресурсами и выберите элемент Свойства.
Скопируйте и сохраните значения следующих полей:
- Идентификатор ресурса
- Расположение (регион конечной точки)

Как получить информацию для пользовательской модели:

Перейдите на портал Speech Studio.
При необходимости войдите в систему и перейдите к Пользовательская речь.
Выберите свой проект и перейдите к разделу Развертывание.
Выберите требуемую конечную точку.
Скопируйте и сохраните значения следующих полей:
- Регион службы (регион конечной точки)
- Идентификатор конечной точки

Создание и отправка запроса на поддержку

Инициируйте увеличение максимального количества одновременных запросов для своего ресурса или, если необходимо, проверьте текущее ограничение путем отправки запроса на поддержку. Это делается следующим образом:

Убедитесь, что у вас есть необходимые сведения, указанные в предыдущем разделе.
Переход на портал Azure.
Выберите ресурс службы "Речь", для которого требуется увеличить (или проверить) ограничение на число одновременных запросов.
В группе Поддержка и устранение неполадок выберите Новый запрос на поддержку. Откроется новое окно с автоматически заполненными сведениями о подписке Azure и ресурсе Azure.
В Сводке опишите, что вы хотите (например, "Увеличение лимита на параллельные запросы для преобразования голоса в текст").
В поле Тип проблемы выберите Проблемы с квотой или подпиской.
В подтипе проблемы выберите один из следующих вариантов:
- Увеличение квоты или числа одновременных запросов способствует увеличению запроса.
- Проверка квоты или использования — для проверки существующего ограничения.
По завершении перейдите в раздел Далее: решения. Продолжайте создание запроса.
На вкладке "Сведения" в поле "Описание" введите следующее:
- Обратите внимание, что запрос касается квоты на преобразование речи в текст.
- Выберите базовую или пользовательскую модель.
- Сведения о ресурсах Azure, собранные ранее.
- Другие необходимые сведения.
На вкладке Проверить и создать выберите Создать.
Запишите номер запроса на поддержку в уведомлениях на портале Azure. Вам скоро свяжутся по вашему запросу.

Пример рекомендованного шаблона рабочей нагрузки

Ниже приведен общий пример правильного подхода. Он предлагается только как шаблон, который при необходимости можно настроить для собственного использования.

Предположим, что для ресурса службы "Речь" установлено ограничение на число одновременных запросов, равное 300. Запустите рабочую нагрузку с 20 одновременными подключениями и увеличивайте ее на 20 одновременных подключений каждые 90–120 секунд. Контролируйте отклики службы и реализуйте логику отката (сокращения нагрузки) при слишком большом количестве запросов (код отклика 429). Через одну минуту снова увеличьте нагрузку. Если это не поможет, повторите попытку через две минуты. Для интервалов используется шаблон 1-2-4-4 минуты.

Как правило, рекомендуется протестировать рабочую нагрузку и её шаблоны перед переходом в продуктивную среду.

Синтез речи: увеличение лимита одновременных запросов

Для ценовой категории "Стандартный" это значение можно увеличить. Перед отправкой запроса убедитесь, что вы знакомы с материалами, обсуждаемыми ранее в этой статье, такими как лучшие практики по снижению ограничения.

Увеличение предельного количества одновременных запросов не влияет на затраты напрямую. Служба "Речь" использует модель оплаты, согласно которой вы платите только за фактическое использование. Ограничение определяет, насколько служба может масштабироваться, прежде чем начнется ограничение скорости ваших запросов.

Примечание.

Подготовка необходимых сведений

Чтобы создать запрос на увеличение, необходимо указать сведения.

Для стандартного голоса:
- Идентификатор ресурса "Речь"
- Область/регион
Для пользовательского голоса:
- Регион развертывания
- Пользовательский идентификатор конечной точки

Как получить информацию для стандартного голоса:

Переход на портал Azure.
Выберите ресурс службы речевых технологий, для которого вы хотите повысить лимит на количество одновременных запросов.
Откройте группу Управление ресурсами и выберите элемент Свойства.
Скопируйте и сохраните значения следующих полей:
- Идентификатор ресурса
- Расположение (регион конечной точки)

Как получить сведения для пользовательского голоса:

Перейдите на портал Speech Studio.
При необходимости войдите в систему и перейдите к пользовательскому голосу.
Выберите проект и перейдите к модели развертывания.
Выберите требуемую конечную точку.
Скопируйте и сохраните значения следующих полей:
- Регион службы (регион конечной точки)
- Идентификатор конечной точки

Создание и отправка запроса на поддержку

Убедитесь, что у вас есть необходимые сведения, указанные в предыдущем разделе.
Переход на портал Azure.
Выберите ресурс службы "Речь", для которого требуется увеличить (или проверить) ограничение на число одновременных запросов.
В группе Поддержка и устранение неполадок выберите Новый запрос на поддержку. Откроется новое окно с автоматически заполненными сведениями о подписке Azure и ресурсе Azure.
В сводке опишите, чего вы хотите (например, "Увеличить ограничение на количество одновременных запросов для преобразования текста в речь").
В поле Тип проблемы выберите Проблемы с квотой или подпиской.
В подтипе проблемы выберите один из следующих вариантов:
- Увеличение квоты или числа одновременных запросов способствует увеличению запроса.
- Проверка квоты или использования — для проверки существующего ограничения.
На вкладке "Рекомендуемое решение " нажмите кнопку "Далее".
На вкладке "Дополнительные сведения" введите все необходимые элементы. В поле "Сведения" введите следующее:
- Обратите внимание, что запрос относится к квоте на преобразование текста в речь.
- Выберите стандартный голос или пользовательский голос.
- Сведения о ресурсах Azure, собранные ранее.
- Другие необходимые сведения.
На вкладке Проверить и создать выберите Создать.
Запишите номер запроса на поддержку в уведомлениях на портале Azure. Вам скоро свяжутся по вашему запросу.

Аватар преобразования текста в речь: увеличение ограничения новых подключений

Чтобы увеличить ограничение новых подключений в минуту для текстовой озвучки аватара, обратитесь к представителю по продажам, чтобы создать заявку со следующими сведениями:

URI речевого ресурса
Запрошено новое ограничение для увеличения
Обоснование увеличения
Дата начала увеличения
Дата окончания увеличения
Стандартный аватар или настраиваемый аватар

Поделиться через

Квоты и ограничения службы речи

Справочник по квотам и ограничениям

Квоты и ограничения речи на текст для каждого ресурса

Преобразование речи в текст и перевод речи в режиме реального времени

Быстрое транскрибирование

Пакетное транскрибирование

Настройка модели

Квоты и ограничения на преобразование текста в речь для каждого ресурса

Текст в режиме реального времени для речи

Пакетный синтез

Пользовательский голос — профессиональный

Пользовательский голос — личный голос

Пакетный текст для аватара речи

Текст в режиме реального времени для аватара речи

Средство создания аудиосодержимого

Квоты распознавания говорящего и ограничения для каждого ресурса

Подробное описание, корректировка квот и рекомендации

Общие рекомендации по предотвращению ограничения во время автомасштабирования

Речь в тексте: увеличение объема речи в режиме реального времени до ограничения параллельного запроса на текст

Подготовьте необходимые сведения

Создание и отправка запроса на поддержку

Пример рекомендованного шаблона рабочей нагрузки

Синтез речи: увеличение лимита одновременных запросов

Подготовка необходимых сведений

Создание и отправка запроса на поддержку

Аватар преобразования текста в речь: увеличение ограничения новых подключений

Обратная связь

Дополнительные ресурсы