Propriedades de síntese em lote para o avatar de conversão de texto em fala

2025-04-28

As propriedades de síntese em lote podem ser agrupadas como: propriedades relacionadas ao avatar, propriedades relacionadas ao trabalho em lote e propriedades relacionadas da conversão de texto em fala, que são descritas nas tabelas a seguir.

Algumas propriedades no formato JSON são necessárias quando você cria um novo trabalho de síntese em lote. Outras propriedades são opcionais. A resposta de síntese em lote inclui outras propriedades para fornecer informações sobre o status e os resultados da síntese. Por exemplo, a propriedade outputs.result contém o local de onde você pode baixar um arquivo de vídeo que contém o vídeo de avatar. A partir de outputs.summary, você pode acessar o resumo e os detalhes de depuração.

Propriedades de avatar

A tabela a seguir descreve as propriedades do avatar.

Propriedade	Descrição
avatarConfig.talkingAvatarCharacter	O nome do personagem do avatar falante. Os personagens de avatar com suporte podem ser encontrados aqui. Esta propriedade é obrigatória.
avatarConfig.talkingAvatarStyle	O nome do estilo do avatar falante. Os estilos de avatar com suporte podem ser encontrados aqui. Essa propriedade é necessária para o avatar padrão e opcional para o avatar personalizado.
avatarConfig.customized	Um valor bool que indica se o avatar a ser usado é um avatar personalizado ou não. True para avatar personalizado e falso para avatar padrão. Essa propriedade é opcional e o valor padrão é `false`.
avatarConfig.videoFormat	O formato do arquivo de vídeo de saída pode ser mp4 ou webm. O formato `webm` é necessário para plano de fundo transparente. Essa propriedade é opcional e o valor padrão é mp4.
avatarConfig.videoCodec	O codec do vídeo de saída pode ser h264, hevc, vp9 ou av1. Vp9 é necessário para plano de fundo transparente. A velocidade de síntese é mais lenta com o codec vp9, pois a codificação vp9 é mais lenta. Essa propriedade é opcional e o valor padrão é hevc.
avatarConfig.bitrateKbps	A taxa de bits para o vídeo de saída, que é um valor inteiro, com kbps de unidade. Essa propriedade é opcional e o valor padrão é 2000.
avatarConfig.videoCrop	Essa propriedade permite que você corte a saída do vídeo, o que significa gerar uma subárea em retângulo do vídeo original. Essa propriedade tem dois campos, que definem o vértice superior esquerdo e o vértice inferior direito do retângulo. Essa propriedade é opcional e o comportamento padrão é gerar o vídeo completo.
avatarConfig.videoCrop.topLeft	O vértice superior esquerdo do retângulo para corte de vídeo. Essa propriedade tem dois campos x e y, para definir a posição horizontal e vertical do vértice. Essa propriedade é necessária quando properties.videoCrop está definido.
avatarConfig.videoCrop.bottomRight	O vértice inferior direito do retângulo para corte de vídeo. Essa propriedade tem dois campos x e y, para definir a posição horizontal e vertical do vértice. Essa propriedade é necessária quando properties.videoCrop está definido.
avatarConfig.subtitleType	O tipo de subtítulo do arquivo de vídeo do avatar pode ser `external_file`, `soft_embedded`, `hard_embedded` ou `none`. Essa propriedade é opcional e o valor padrão é `soft_embedded`.
avatarConfig.backgroundImage	Adicione uma imagem de plano de fundo usando a propriedade `avatarConfig.backgroundImage`. O valor da propriedade deve ser uma URL apontando para a imagem desejada. Essa propriedade é opcional.
avatarConfig.backgroundColor	Cor da tela de fundo do vídeo de avatar, que é uma cadeia de caracteres no formato #RRGGBBAA. Nesta cadeia de caracteres: RR, GG, BB e AA significam os canais vermelho, verde, azul e alfa, com intervalo de valor hexadecimal 00~FF. O canal Alfa controla a transparência, com o valor 00 para transparente, o valor FF para não transparente e o valor entre 00 e FF para semitransparente. Essa propriedade é opcional e o valor padrão é #FFFFFFFF (branco).
outputs.result	O local do arquivo de resultado da síntese em lote, que é um arquivo de vídeo que contém o avatar sintetizado. Esta propriedade é somente para leitura.
properties.DurationInMilliseconds	A duração da saída do vídeo em milissegundos. Esta propriedade é somente para leitura.

Propriedades do trabalho de síntese do lote

A tabela a seguir descreve as propriedades do trabalho de síntese em lote.

Propriedade	Descrição
createdDateTime	A data e a hora em que o trabalho de síntese em lotes foi criado. Esta propriedade é somente para leitura.
descrição	A descrição da síntese em lotes. Essa propriedade é opcional.
Número de Identificação	A ID do trabalho de síntese em lotes. Esta propriedade é somente para leitura.
lastActionDateTime	A data e a hora mais recentes em que o valor da propriedade foi alterado. Esta propriedade é somente para leitura.
propriedades	Um conjunto definido de configurações opcionais de síntese em lotes.
properties.destinationContainerUrl	Os resultados da síntese em lotes podem ser armazenados em um contêiner gravável do Azure. Quando você não especifica um URI de contêiner com SAS (Assinaturas de Acesso Compartilhado), o Serviço de Fala armazena os resultados em um contêiner gerenciado pela Microsoft. Não há suporte para a SAS com políticas de acesso armazenadas. Quando o trabalho de síntese é excluído, o mesmo ocorre com os dados de resultado. Essa propriedade opcional não é incluída na resposta quando você obtém o trabalho de síntese.
properties.timeToLiveInHours	Uma duração em horas após a criação do trabalho de síntese, quando os resultados da síntese serão excluídos automaticamente. O tempo máximo de vida útil é de 744 horas. A data e a hora da exclusão automática para trabalhos de síntese com um status de "Êxito" ou "Falha" é calculada como a soma das propriedades lastActionDateTime e timeToLive. Caso contrário, você pode chamar o método de síntese delete para remover o trabalho mais cedo.
estado	O status de processamento de síntese em lotes. O status deve progredir de "NotStarted" para "Em execução" e, por fim, para "Êxito" ou "Falha". Esta propriedade é somente para leitura.

Propriedades de conversão de texto em fala

A tabela a seguir descreve as propriedades de conversão de texto em fala.

Propriedade	Descrição
vozes personalizadas	Uma voz personalizada é associada a um nome e sua ID de implantação, como esta: "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"} Você pode usar o nome da voz no seu `synthesisConfig.voice` quando `inputKind` estiver definido como "PlainText" ou no texto SSML de entradas quando `inputKind` estiver definido como "SSML". Essa propriedade é necessária para usar uma voz personalizada. Se você tentar usar uma voz personalizada que não está definida aqui, o serviço retornará um erro.
entradas	O texto sem formatação ou SSML a ser sintetizado. Quando o inputKind estiver definido como "PlainText", forneça texto sem formatação, conforme mostrado aqui: "entradas": [{"content": "O arco-íris tem sete cores."}]. Quando o inputKind for definido como "SSML", forneça texto na Linguagem de Marcação de Síntese de Fala (SSML), conforme mostrado aqui: "inputs": [{"content": "<speak version=''1.0''' xml:lang=''en-US'''><voice xml:lang=''en-US''' xml:gender=''Female''' name=''en-US-AvaMultilingualNeural'''>The rainbow has seven colors."}]. Inclua até 1.000 objetos de texto se desejar vários arquivos de saída de áudio. Veja um exemplo de texto de entrada que deve ser sintetizado para dois arquivos de saída de vídeo: "inputs": [{"content": "sintetizar isso em outro arquivo"},{"content": "sintetizar isso em outro arquivo"}]. Você não precisa de entradas de texto separadas para novos parágrafos. Em qualquer uma das entradas de texto (até 1.000), você pode especificar novos parágrafos usando a cadeia de caracteres "\r\n" (nova linha). Veja um exemplo de texto de entrada com dois parágrafos que devem ser sintetizados para o mesmo arquivo de saída de áudio: "inputs": [{"content": "sintetizar isso para um arquivo\r\nsintetizar isso para outro parágrafo no mesmo arquivo"}] Essa propriedade é necessária quando você cria um novo trabalho de síntese em lotes. Essa propriedade não é incluída na resposta quando você obtém o trabalho de síntese.
properties.billingDetails	O número de palavras que foram processadas e cobradas por `customNeural` (voz personalizada) versus `neural` (voz padrão). Esta propriedade é somente para leitura.
synthesisConfig	As definições de configuração a serem usadas para síntese em lotes de texto sem formatação. Essa propriedade só é aplicável quando inputKind é definido como "PlainText".
synthesisConfig.pitch	O tom da saída de áudio. Para obter informações sobre os valores aceitos, consulte a tabela ajustar prosódia na documentação do SSML (Linguagem de Marcação de Sintetização de Voz). Valores inválidos são ignorados. Essa propriedade opcional só é aplicável quando inputKind é definido como "PlainText".
synthesisConfig.rate	A taxa da saída de áudio. Para obter informações sobre os valores aceitos, consulte a tabela ajustar prosódia na documentação do SSML (Linguagem de Marcação de Sintetização de Voz). Valores inválidos são ignorados. Essa propriedade opcional só é aplicável quando inputKind é definido como "PlainText".
synthesisConfig.style	Para algumas vozes, é possível ajustar o estilo de fala para expressar emoções diferentes como alegria, empatia e tranquilidade. Também é possível otimizar a voz para cenários diferentes, como atendimento ao cliente, noticiário e assistente de voz. Para obter informações sobre os estilos disponíveis por voz, confira estilos de voz e funções. Essa propriedade opcional só é aplicável quando inputKind é definido como "PlainText".
synthesisConfig.voice	A voz que fala a saída de áudio. Para obter informações sobre as vozes padrão disponíveis, veja suporte de idiomas e vozes. Para usar uma voz personalizada, você precisa especificar um mapeamento válido de ID de implantação e voz personalizada na propriedade customVoices. Essa propriedade é necessária quando inputKind é definido como "PlainText".
synthesisConfig.volume	O volume da saída de áudio. Para obter informações sobre os valores aceitos, consulte a tabela ajustar prosódia na documentação do SSML (Linguagem de Marcação de Sintetização de Voz). Valores inválidos são ignorados. Essa propriedade opcional só é aplicável quando inputKind é definido como "PlainText".
inputKind	Indica se a propriedade de texto deve ser texto sem formatação ou SSML. Os valores possíveis que não diferenciam maiúsculas de minúsculas são "PlainText" e "SSML". Quando o inputKind é definido como "PlainText", você também deve definir a propriedade de voz synthesisConfig. Esta propriedade é obrigatória.

Como editar a tela de fundo

Atualmente, a API de síntese do lote do avatar não dá suporte à configuração de vídeos em segundo plano; ele só dá suporte a imagens de plano de fundo estáticas. No entanto, se você quiser adicionar um plano de fundo para o vídeo durante a pós-produção, poderá gerar vídeos com uma tela de fundo transparente.

Para definir uma imagem de plano de fundo estática, use a propriedade avatarConfig.backgroundImage e especifique uma URL apontando para a imagem desejada. Além disso, você pode definir a cor da tela de fundo do vídeo avatar usando a propriedade avatarConfig.backgroundColor.

Para gerar um vídeo transparente em segundo plano, você deve definir as seguintes propriedades para os valores necessários na solicitação de síntese em lote:

Propriedade	Valores necessários para transparência em segundo plano
properties.videoFormat	webm
properties.videoCodec	vp9
properties.backgroundColor	#00000000 (ou `transparent`)

O Clipchamp é um exemplo de uma ferramenta de edição de vídeo que dá suporte ao vídeo transparente em segundo plano gerado pela API de síntese em lote.

Alguns softwares de edição de vídeo não dão suporte diretamente ao formato e só dão suporte à webm entrada transparente de vídeo em segundo plano, como o Adobe Premiere Pro. Nesses casos, primeiro você precisa converter o formato de vídeo de webm para .mov com uma ferramenta como o FFMPEG.

Linha de comando do FFMPEG:

ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>

O FFMPEG pode ser baixado em ffmpeg.org. Substitua <input.webm> e <output.mov> por seu caminho local e nome de arquivo na linha de comando.

Compartilhar via

Propriedades de síntese em lote para o avatar de conversão de texto em fala

Propriedades de avatar

Propriedades do trabalho de síntese do lote

Propriedades de conversão de texto em fala

Como editar a tela de fundo

Próximas etapas

Comentários

Recursos adicionais