Migrar código da API de áudio longo para a API de síntese em lote

Artigo
04/04/2024

A API de síntese em lote fornece síntese assíncrona de texto de forma longa para fala. Este artigo descreve os benefícios da atualização da API de áudio longo para a API de síntese em lote e detalhes sobre como fazer isso.

Importante

A API de síntese em lote está geralmente disponível. a API Long Audio será desativada em 1º de abril de 2027.

Caminho e versão base

Atualize o ponto de extremidade de https://YourSpeechRegion.customvoice.api.speech.microsoft.com para https://YourSpeechRegion.api.cognitive.microsoft.com ou você pode usar o domínio personalizado em vez disso: https://{customDomainName}.cognitiveservices.azure.com/.

Atualize o caminho base em seu código de /texttospeech/v3.0/longaudiosynthesis para /texttospeech/batchsyntheses.

Atualize a versão do caminho base para a cadeia de caracteres de consulta /texttospeech/v3.0/longaudiosynthesis para ?api-version=2024-04-01.

Por exemplo, para listar trabalhos de síntese para seu recurso de fala na eastus região, use https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 em vez de https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Regiões e parâmetros de avaliação

A API de síntese em lote está disponível em mais regiões de fala.

A API de áudio longo está limitada às seguintes regiões:

País/Região	Ponto final
Leste da Austrália	`https://australiaeast.customvoice.api.speech.microsoft.com`
E.U.A. Leste	`https://eastus.customvoice.api.speech.microsoft.com`
Índia Central	`https://centralindia.customvoice.api.speech.microsoft.com`
E.U.A. Centro-Sul	`https://southcentralus.customvoice.api.speech.microsoft.com`
Sudeste Asiático	`https://southeastasia.customvoice.api.speech.microsoft.com`
Sul do Reino Unido	`https://uksouth.customvoice.api.speech.microsoft.com`
Europa Ocidental	`https://westeurope.customvoice.api.speech.microsoft.com`

Lista de vozes

A API de síntese em lote suporta todas as vozes e estilos de texto para fala.

A API Long Audio é limitada ao conjunto de vozes retornadas por uma solicitação GET para https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Entradas de texto

As entradas de texto de síntese em lote são enviadas em uma carga JSON de até 2 megabytes.

As entradas de texto longas da API de áudio são carregadas de um arquivo que atende aos seguintes requisitos:

Um ficheiro de texto simples (.txt) ou texto SSML (.txt) codificado como UTF-8 com marca de ordem de bytes (BOM). Não use arquivos compactados, como ZIP. Se você tiver mais de um arquivo de entrada, deverá enviar várias solicitações.
Contém mais de 400 caracteres para texto sem formatação ou 400 caracteres faturáveis para texto SSML e menos de 10.000 parágrafos. Para texto sem formatação, cada parágrafo é separado por uma nova linha. Para texto SSML, cada peça SSML é considerada um parágrafo. Separe as partes do SSML por parágrafos diferentes.

Com a API de síntese em lote, você pode usar qualquer um dos elementos SSML suportados, incluindo os audioelementos , mstts:backgroundaudioe .lexicon A API de áudio longo não suporta os audioelementos , mstts:backgroundaudioe lexicon .

Formatos de saída de áudio

A API de síntese em lote suporta todos os formatos de saída de áudio de texto para fala.

A API Long Audio está limitada ao seguinte conjunto de formatos de saída de áudio. A taxa de amostragem para vozes de áudio longas é de 24kHz, não de 48kHz. Outras taxas de amostragem podem ser obtidas através de amostragem ascendente ou descendente durante a síntese.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
áudio-16kHz-32Kbitrate-mono-mp3
áudio-16khz-64kbitrate-mono-mp3
áudio-16khz-128kbitrate-mono-mp3
áudio-24khz-48kbitrate-mono-mp3
áudio-24khz-96kbitrate-mono-mp3
áudio-24khz-160kbitrate-mono-mp3

Obter resultados

Com a API de síntese em lote, use a URL da outputs.result propriedade da resposta de síntese em lote HTTP GET. Os resultados estão em um arquivo ZIP que contém o áudio (como 0001.wav), resumo e detalhes de depuração.

As entradas de texto e os resultados da API de áudio longa são retornados por meio de duas URLs de conteúdo separadas, conforme mostrado no exemplo a seguir. O único com "kind": "LongAudioSynthesisScript" é o script de entrada enviado. O outro com "kind": "LongAudioSynthesisResult" é o resultado deste pedido. Ambos os arquivos ZIP podem ser baixados do URL em sua links.contentUrl propriedade.

Limpar os recursos

A API de síntese em lote suporta até 300 trabalhos de síntese em lote que não têm o status "Aprovado" ou "Falhado". O serviço de Fala mantém cada histórico de síntese por até 31 dias, ou a duração da propriedade de solicitação timeToLiveInHours , o que ocorrer primeiro. A data e a hora da exclusão automática (para trabalhos de síntese com um status de "Aprovado" ou "Reprovado") são iguais às lastActionDateTime + timeToLiveInHours propriedades.

A API de Áudio Longo está limitada a 20.000 solicitações para cada conta de assinatura do Azure. O serviço de Fala não remove o histórico de trabalhos automaticamente. Você deve remover o histórico de execução de trabalho anterior antes de fazer novas solicitações que, de outra forma, excederiam o limite.