Migrar código da API de áudio longo para a API de síntese em lote

A API de síntese em lote fornece síntese assíncrona de texto de forma longa para fala. Este artigo descreve os benefícios da atualização da API de áudio longo para a API de síntese em lote e detalhes sobre como fazer isso.

Importante

A API de síntese em lote está geralmente disponível. a API Long Audio será desativada em 1º de abril de 2027.

Caminho e versão base

Atualize o ponto de extremidade de https://YourSpeechRegion.customvoice.api.speech.microsoft.com para https://YourSpeechRegion.api.cognitive.microsoft.com ou você pode usar o domínio personalizado em vez disso: https://{customDomainName}.cognitiveservices.azure.com/.

Atualize o caminho base em seu código de /texttospeech/v3.0/longaudiosynthesis para /texttospeech/batchsyntheses.

Atualize a versão do caminho base para a cadeia de caracteres de consulta /texttospeech/v3.0/longaudiosynthesis para ?api-version=2024-04-01.

Por exemplo, para listar trabalhos de síntese para seu recurso de fala na eastus região, use https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 em vez de https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Regiões e parâmetros de avaliação

A API de síntese em lote está disponível em mais regiões de fala.

A API de áudio longo está limitada às seguintes regiões:

País/Região Ponto final
Leste da Austrália https://australiaeast.customvoice.api.speech.microsoft.com
E.U.A. Leste https://eastus.customvoice.api.speech.microsoft.com
Índia Central https://centralindia.customvoice.api.speech.microsoft.com
E.U.A. Centro-Sul https://southcentralus.customvoice.api.speech.microsoft.com
Sudeste Asiático https://southeastasia.customvoice.api.speech.microsoft.com
Sul do Reino Unido https://uksouth.customvoice.api.speech.microsoft.com
Europa Ocidental https://westeurope.customvoice.api.speech.microsoft.com

Lista de vozes

A API de síntese em lote suporta todas as vozes e estilos de texto para fala.

A API Long Audio é limitada ao conjunto de vozes retornadas por uma solicitação GET para https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Entradas de texto

As entradas de texto de síntese em lote são enviadas em uma carga JSON de até 2 megabytes.

As entradas de texto longas da API de áudio são carregadas de um arquivo que atende aos seguintes requisitos:

  • Um ficheiro de texto simples (.txt) ou texto SSML (.txt) codificado como UTF-8 com marca de ordem de bytes (BOM). Não use arquivos compactados, como ZIP. Se você tiver mais de um arquivo de entrada, deverá enviar várias solicitações.
  • Contém mais de 400 caracteres para texto sem formatação ou 400 caracteres faturáveis para texto SSML e menos de 10.000 parágrafos. Para texto sem formatação, cada parágrafo é separado por uma nova linha. Para texto SSML, cada peça SSML é considerada um parágrafo. Separe as partes do SSML por parágrafos diferentes.

Com a API de síntese em lote, você pode usar qualquer um dos elementos SSML suportados, incluindo os audioelementos , mstts:backgroundaudioe .lexicon A API de áudio longo não suporta os audioelementos , mstts:backgroundaudioe lexicon .

Formatos de saída de áudio

A API de síntese em lote suporta todos os formatos de saída de áudio de texto para fala.

A API Long Audio está limitada ao seguinte conjunto de formatos de saída de áudio. A taxa de amostragem para vozes de áudio longas é de 24kHz, não de 48kHz. Outras taxas de amostragem podem ser obtidas através de amostragem ascendente ou descendente durante a síntese.

  • riff-8khz-16bit-mono-pcm
  • riff-16khz-16bit-mono-pcm
  • riff-24khz-16bit-mono-pcm
  • riff-48khz-16bit-mono-pcm
  • áudio-16kHz-32Kbitrate-mono-mp3
  • áudio-16khz-64kbitrate-mono-mp3
  • áudio-16khz-128kbitrate-mono-mp3
  • áudio-24khz-48kbitrate-mono-mp3
  • áudio-24khz-96kbitrate-mono-mp3
  • áudio-24khz-160kbitrate-mono-mp3

Obter resultados

Com a API de síntese em lote, use a URL da outputs.result propriedade da resposta de síntese em lote HTTP GET. Os resultados estão em um arquivo ZIP que contém o áudio (como 0001.wav), resumo e detalhes de depuração.

As entradas de texto e os resultados da API de áudio longa são retornados por meio de duas URLs de conteúdo separadas, conforme mostrado no exemplo a seguir. O único com "kind": "LongAudioSynthesisScript" é o script de entrada enviado. O outro com "kind": "LongAudioSynthesisResult" é o resultado deste pedido. Ambos os arquivos ZIP podem ser baixados do URL em sua links.contentUrl propriedade.

Limpar os recursos

A API de síntese em lote suporta até 300 trabalhos de síntese em lote que não têm o status "Aprovado" ou "Falhado". O serviço de Fala mantém cada histórico de síntese por até 31 dias, ou a duração da propriedade de solicitação timeToLiveInHours , o que ocorrer primeiro. A data e a hora da exclusão automática (para trabalhos de síntese com um status de "Aprovado" ou "Reprovado") são iguais às lastActionDateTime + timeToLiveInHours propriedades.

A API de Áudio Longo está limitada a 20.000 solicitações para cada conta de assinatura do Azure. O serviço de Fala não remove o histórico de trabalhos automaticamente. Você deve remover o histórico de execução de trabalho anterior antes de fazer novas solicitações que, de outra forma, excederiam o limite.

Próximos passos