Перенос кода из API Long Audio в API пакетного синтеза

Статья
04/04/2024

API пакетного синтеза обеспечивает асинхронный синтез длинного текста в речь. В этой статье описаны преимущества обновления API long Audio до API пакетного синтеза и сведения о том, как это сделать.

Внимание

API пакетного синтеза общедоступен. API long Audio будет прекращен 1 апреля 2027 г.

Базовый путь и версия

Обновите конечную точку из https://YourSpeechRegion.customvoice.api.speech.microsoft.comhttps://YourSpeechRegion.api.cognitive.microsoft.com или можно использовать личный домен. https://{customDomainName}.cognitiveservices.azure.com/

Обновите базовый путь в коде./texttospeech/v3.0/longaudiosynthesis/texttospeech/batchsyntheses

Обновите версию из базового пути к строке /texttospeech/v3.0/longaudiosynthesis?api-version=2024-04-01запроса.

Например, чтобы перечислить задания синтеза для ресурса "Речь" в регионе eastus , используйте https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 вместо https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesisнего.

Регионы и конечные точки

API пакетного синтеза доступен в дополнительных регионах распознавания речи.

API long Audio ограничен следующими регионами:

Область/регион	Конечная точка
Восточная Австралия	`https://australiaeast.customvoice.api.speech.microsoft.com`
Восточная часть США	`https://eastus.customvoice.api.speech.microsoft.com`
Центральная Индия	`https://centralindia.customvoice.api.speech.microsoft.com`
Центрально-южная часть США	`https://southcentralus.customvoice.api.speech.microsoft.com`
Юго-Восточная Азия	`https://southeastasia.customvoice.api.speech.microsoft.com`
южная часть Соединенного Королевства	`https://uksouth.customvoice.api.speech.microsoft.com`
Западная Европа	`https://westeurope.customvoice.api.speech.microsoft.com`

Список голосов

API пакетного синтеза поддерживает все тексты для голосов и стилей речи.

API long Audio ограничен набором голосов, возвращаемых запросом https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voicesGET.

Текстовые входные данные

Входные данные текстового синтеза пакетной службы отправляются в полезные данные JSON размером до 2 мегабайт.

Текстовые входные данные API длинных аудиофайла передаются из файла, соответствующего следующим требованиям:

Один обычный текст (.txt) или текстовый файл SSML (.txt) в кодировке UTF-8 с меткой порядка байтов (BOM). Не используйте сжатые файлы, такие как ZIP. Если у вас несколько входных файлов, необходимо отправить несколько запросов.
содержит более 400 символов обычного текста или 400 оплачиваемых символов текста SSML и менее 10 000 абзацев; Для обычного текста каждый абзац отделяется новой строкой. в тексте SSML каждая часть SSML считается абзацем; части SSML должны быть разделены с помощью различных абзацев

С помощью API синтеза пакетной службы можно использовать любой из поддерживаемых элементов SSML, включая audioэлементы , mstts:backgroundaudioи lexicon элементы. Длинный API аудио не поддерживает audiomstts:backgroundaudioэлементы и lexicon элементы.

Форматы вывода аудио

API пакетного синтеза поддерживает все форматы вывода звука в речь.

API long Audio ограничен следующим набором форматов выходных данных звука. Частота выборки для длинных звуковых голосов составляет 24 кГц, а не 48kГц. Другие показатели выборки можно получить с помощью upsampling или downsampling при синтезе.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Получение результатов

С ПОМОЩЬЮ API пакетного синтеза используйте URL-адрес из outputs.result свойства ответа синтеза пакетной службы HTTP GET. Результаты находятся в ZIP-файле, который содержит звук (например0001.wav, сводку и сведения об отладке).

Длинные текстовые входные данные и результаты API аудио возвращаются с помощью двух отдельных URL-адресов содержимого, как показано в следующем примере. Файл с "kind": "LongAudioSynthesisScript" — это отправленный входной сценарий. Файл с "kind": "LongAudioSynthesisResult" — это результат данного запроса. Оба ZIP-файла можно скачать из URL-адреса в своем links.contentUrl свойстве.

Очистка ресурсов

API синтеза пакетной службы поддерживает до 300 заданий пакетного синтеза, которые не имеют состояния "Успешно" или "Не удалось". Служба "Речь" сохраняет каждый журнал синтеза до 31 дней или длительность свойства запроса timeToLiveInHours , в зависимости от того, что происходит раньше. Дата и время автоматического удаления (для заданий синтеза с состоянием "Успешно" или "Сбой") равно свойствам lastActionDateTime + timeToLiveInHours .

API long Audio ограничен 20 000 запросов для каждой учетной записи подписки Azure. Служба "Речь" не удаляет журнал заданий автоматически. Перед выполнением новых запросов, превышающих ограничение, необходимо удалить предыдущий журнал выполнения задания.