Migrar código da API de áudio longo para a API de síntese em lotes

Artigo
04/04/2024

A API de síntese em lote fornece síntese assíncrona de texto para fala de formato longo. Este artigo descreve os benefícios da atualização da API de áudio longo para a API de síntese em lote e detalhes sobre como fazer isso.

Importante

A API de síntese em lote está disponível para o público em geral. a API Long Audio será aposentada em 1º de abril de 2027.

Caminho e versão base

Atualize o ponto de extremidade de https://YourSpeechRegion.customvoice.api.speech.microsoft.com para https://YourSpeechRegion.api.cognitive.microsoft.com ou você pode usar o domínio personalizado em vez disso: https://{customDomainName}.cognitiveservices.azure.com/.

Atualize o caminho base em seu código de /texttospeech/v3.0/longaudiosynthesis para /texttospeech/batchsyntheses.

Atualize a versão do caminho base para a cadeia de caracteres /texttospeech/v3.0/longaudiosynthesis de consulta para ?api-version=2024-04-01.

Por exemplo, para listar trabalhos de síntese para o recurso de Fala na eastus região, use https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 em vez de https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Regiões e endpoints

A API de síntese em lote está disponível em mais regiões de fala.

A API de Áudio Longo é limitada às seguintes regiões:

Região	Ponto de extremidade
Leste da Austrália	`https://australiaeast.customvoice.api.speech.microsoft.com`
Leste dos EUA	`https://eastus.customvoice.api.speech.microsoft.com`
Centro da Índia	`https://centralindia.customvoice.api.speech.microsoft.com`
Centro-Sul dos Estados Unidos	`https://southcentralus.customvoice.api.speech.microsoft.com`
Sudeste Asiático	`https://southeastasia.customvoice.api.speech.microsoft.com`
Sul do Reino Unido	`https://uksouth.customvoice.api.speech.microsoft.com`
Europa Ocidental	`https://westeurope.customvoice.api.speech.microsoft.com`

Lista de vozes

A API de síntese em lotes dá suporte a todos os estilos e vozes de conversão de texto em fala.

A API de Áudio Longo é limitada ao conjunto de vozes retornado por uma solicitação GET para https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Entradas de texto

As entradas de texto de síntese em lote são enviadas em uma carga JSON de até 2 megabytes.

Entradas de texto da API de Áudio Longo são carregadas de um arquivo que atende aos seguintes requisitos:

Um arquivo de texto sem formatação (.txt) ou texto SSML (.txt) codificado como UTF-8 com BOM (marca de ordem de byte). Não use arquivos compactados, como ZIP. Se houver mais de um arquivo de entrada, será necessário enviar várias solicitações.
Contém mais de 400 caracteres de texto sem formatação ou 400 caracteres faturáveis de texto SSML e menos de dez mil parágrafos. No texto sem formatação, cada parágrafo é separado por uma nova linha. No texto SSML, cada parte é considerado um parágrafo. Separe as partes SSML por parágrafos diferentes.

Com a API de síntese em lotes, você pode usar qualquer um dos elementos SSML compatíveis, incluindo os elementos audio, mstts:backgroundaudio e lexicon. A API de áudio longa não oferece suporte aos audioelementos , mstts:backgroundaudioe lexicon .

Formatos de saída de áudio

A API de síntese em lotes dá suporte a todos os formatos de saída de áudio de conversão de texto em fala.

A API de Áudio Longo é limitada ao conjunto de formatos de saída de áudio a seguir. A taxa de amostragem para vozes de áudio longas é de 24kHz, não 48kHz. Outras taxas de amostragem podem ser obtidas por meio do aumento ou diminuição da taxa de amostragem ao sintetizar.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Obtendo resultados

Com a API de síntese em lote, use a outputs.result URL da propriedade da resposta de síntese em lote HTTP GET. Os resultados estão em um arquivo ZIP que contém o áudio (como 0001.wav), um resumo e os detalhes de depuração.

As entradas e resultados de texto da API de Áudio Longo são retornados por meio de duas URLs de conteúdo separadas, conforme mostrado no exemplo a seguir. Aquele com "kind": "LongAudioSynthesisScript" é o script de entrada enviado. O outro, com "kind": "LongAudioSynthesisResult", é o resultado dessa solicitação. Os dois arquivos zip estão disponíveis para download na URL que aparece na propriedade links.contentUrl deles.

Limpando recursos

A API de síntese em lote suporta até 300 trabalhos de síntese em lote que não têm um status de "Bem-sucedido" ou "Falhou". O serviço de Fala mantém cada histórico de síntese por até 31 dias ou a duração da propriedade de solicitação timeToLiveInHours , o que ocorrer primeiro. A data e a hora da exclusão automática (para trabalhos de síntese com um status de "Êxito" ou "Falha") é igual às propriedades lastActionDateTime + timeToLiveInHours.

A API de Áudio Longo é limitada a 20.000 solicitações para cada conta de assinatura do Azure. O serviço de Fala não remove o histórico de trabalho automaticamente. Você precisa remover o histórico de execução de trabalho anterior antes de fazer novas solicitações que, de outra forma, excederiam o limite.