Como usar avatar de texto para fala com síntese em tempo real

2025-05-20

Neste guia prático, vai aprender a usar o avatar de texto para voz com síntese em tempo real. O vídeo do avatar sintético será gerado quase em tempo real depois que o sistema receber a entrada de texto.

Pré-requisitos

Para começar, certifique-se de que tem os seguintes pré-requisitos:

Subscrição do Azure:Crie uma gratuitamente.
Recurso de fala:Criar um recurso de fala no portal do Azure. Selecione o nível de preço "Standard S0" se quiser criar um recurso de fala para acessar o avatar.
Sua chave de recurso de fala e região: Após a implantação do recurso de Fala, selecione Ir para o recurso para visualizar e gerir as chaves.

Configurar ambiente

Para síntese de avatar em tempo real, você precisa instalar o SDK de fala para JavaScript para usar com uma página da Web. Para obter as instruções de instalação, consulte Instalar o SDK de fala.

Aqui está a compatibilidade do avatar em tempo real em diferentes plataformas e navegadores:

Plataforma	Cromado	Microsoft Edge	Safári	Firefox	Ópera
Windows	Y	Y	N/A	Y¹	Y
Androide	Y	Y	N/A	Y¹²	N
iOS	Y	Y	Y	Y	Y
macOS	Y	Y	Y	Y¹	Y

¹ Não funciona com o servidor ICE do Serviço de Comunicação, mas funciona com o Coturn.

² A transparência de fundo não funciona.

Selecionar texto para idioma de fala e voz

O recurso de conversão de texto em fala no serviço de fala suporta um amplo portfólio de idiomas e vozes. Pode obter a lista completa ou experimentá-los na Galeria de Vozes.

Para corresponder ao texto de entrada e usar a voz especificada, você pode definir as SpeechSynthesisLanguage propriedades ou SpeechSynthesisVoiceName no SpeechConfig objeto. O trecho de código a seguir mostra como essa técnica funciona:

const speechConfig = SpeechSDK.SpeechConfig.fromSubscription("YourSpeechKey", "YourSpeechRegion");
// Set either the `SpeechSynthesisVoiceName` or `SpeechSynthesisLanguage`.
speechConfig.speechSynthesisLanguage = "en-US";
speechConfig.speechSynthesisVoiceName = "en-US-AvaMultilingualNeural";

Todas as vozes neurais são multilingues e fluentes em seu próprio idioma e inglês. Por exemplo, se o texto de entrada em inglês for "Estou animado para tentar conversão de texto em fala" e você selecionar es-ES-ElviraNeural, o texto será falado em inglês com sotaque espanhol.

Se a voz não falar o idioma do texto de entrada, o serviço de Fala não criará áudio sintetizado. Para obter uma lista completa das vozes neurais suportadas, consulte Suporte de idioma e voz para o serviço de fala.

A voz padrão é a primeira voz retornada por localidade da API da lista de vozes. A ordem de prioridade para falar é a seguinte:

Se você não definir SpeechSynthesisVoiceName ou SpeechSynthesisLanguage, a voz padrão em en-US fala.
Se tu definires apenas SpeechSynthesisLanguage, a voz padrão na localidade especificada fala.
Se SpeechSynthesisVoiceName e SpeechSynthesisLanguage estiverem ambos definidos, SpeechSynthesisLanguage configuração será ignorada. A voz que você especifica usando SpeechSynthesisVoiceName fala.
Se o elemento voice for definido usando SSML (Speech Synthesis Markup Language), as definições SpeechSynthesisVoiceName e SpeechSynthesisLanguage são ignoradas.

Selecione o personagem e o estilo do avatar

Os personagens e estilos de avatar suportados podem ser encontrados aqui.

O trecho de código a seguir mostra como definir o personagem e o estilo do avatar:

const avatarConfig = new SpeechSDK.AvatarConfig(
    "lisa", // Set avatar character here.
    "casual-sitting", // Set avatar style here.
);

Configurar a ligação ao avatar em tempo real

O avatar em tempo real usa o protocolo WebRTC para produzir o fluxo de vídeo do avatar. Você precisa configurar a conexão com o serviço de avatar através da conexão de pares WebRTC.

Primeiro, é necessário criar um objeto de ligação peer-to-peer WebRTC. WebRTC é um protocolo P2P, que depende do servidor ICE para retransmissão de rede. O serviço de fala fornece função de retransmissão de rede e expõe uma API REST para emitir as informações do servidor ICE. Portanto, recomendamos que busques o servidor ICE do serviço de reconhecimento de fala. Você também pode optar por usar seu próprio servidor ICE.

Aqui está um pedido de exemplo para buscar informações ICE do endpoint do serviço de fala.

GET /cognitiveservices/avatar/relay/token/v1 HTTP/1.1

Host: westus2.tts.speech.microsoft.com
Ocp-Apim-Subscription-Key: YOUR_RESOURCE_KEY

O trecho de código a seguir mostra como criar a conexão peer-to-peer WebRTC. A URL do servidor ICE, o nome de usuário do servidor ICE e a credencial do servidor ICE podem ser obtidos da carga da solicitação HTTP anterior.

// Create WebRTC peer connection
peerConnection = new RTCPeerConnection({
    iceServers: [{
        urls: [ "Your ICE server URL" ],
        username: "Your ICE server username",
        credential: "Your ICE server credential"
    }]
})

Observação

A URL do servidor ICE tem dois tipos: um com prefixo turn (como turn:relay.communication.microsoft.com:3478), e outro com prefixo stun (como stun:relay.communication.microsoft.com:3478). No cenário de exemplo anterior, só urls necessita de incluir uma URL com o prefixo turn.

Em segundo lugar, você precisa configurar os elementos de player de vídeo e áudio na ontrack função de retorno de chamada da conexão de mesmo nível. Este retorno de chamada é invocado duas vezes durante a conexão, uma para a faixa de vídeo e outra para a faixa de áudio. Você precisa criar elementos de player de vídeo e áudio na função de retorno de chamada.

O trecho de código a seguir mostra como fazer isso:

// Fetch WebRTC video/audio streams and mount them to HTML video/audio player elements
peerConnection.ontrack = function (event) {
    if (event.track.kind === 'video') {
        const videoElement = document.createElement(event.track.kind)
        videoElement.id = 'videoPlayer'
        videoElement.srcObject = event.streams[0]
        videoElement.autoplay = true
    }

    if (event.track.kind === 'audio') {
        const audioElement = document.createElement(event.track.kind)
        audioElement.id = 'audioPlayer'
        audioElement.srcObject = event.streams[0]
        audioElement.autoplay = true
    }
}

// Offer to receive one video track, and one audio track
peerConnection.addTransceiver('video', { direction: 'sendrecv' })
peerConnection.addTransceiver('audio', { direction: 'sendrecv' })

Em terceiro lugar, você precisa invocar o SDK de fala para criar um sintetizador de avatar e se conectar ao serviço de avatar, com a conexão peer como parâmetro.

// Create avatar synthesizer
var avatarSynthesizer = new SpeechSDK.AvatarSynthesizer(speechConfig, avatarConfig)

// Start avatar and establish WebRTC connection
avatarSynthesizer.startAvatarAsync(peerConnection).then(
    (r) => { console.log("Avatar started.") }
).catch(
    (error) => { console.log("Avatar failed to start. Error: " + error) }
);

Nossa API em tempo real se desconecta após 5 minutos do estado ocioso do avatar. Mesmo que o avatar não esteja ocioso e funcionando normalmente, a API em tempo real será desconectada após uma conexão de 30 minutos. Para garantir a operação contínua do avatar em tempo real por mais de 30 minutos, você pode ativar a reconexão automática. Para obter informações sobre como configurar a reconexão automática, consulte este código de exemplo JavaScript (pesquise "reconexão automática").

Sintetize o vídeo do avatar falante a partir da entrada de texto

Após as etapas anteriores, você verá o vídeo do avatar sendo reproduzido no navegador da web. O avatar está ativo, com piscar os olhos e leve movimento corporal, mas ainda não fala. O avatar está esperando a entrada de texto para começar a falar.

O trecho de código a seguir mostra como enviar texto para o sintetizador de avatar e deixar o avatar falar:

var spokenText = "I'm excited to try text to speech avatar."
avatarSynthesizer.speakTextAsync(spokenText).then(
    (result) => {
        if (result.reason === SpeechSDK.ResultReason.SynthesizingAudioCompleted) {
            console.log("Speech and avatar synthesized to video stream.")
        } else {
            console.log("Unable to speak. Result ID: " + result.resultId)
            if (result.reason === SpeechSDK.ResultReason.Canceled) {
                let cancellationDetails = SpeechSDK.CancellationDetails.fromResult(result)
                console.log(cancellationDetails.reason)
                if (cancellationDetails.reason === SpeechSDK.CancellationReason.Error) {
                    console.log(cancellationDetails.errorDetails)
                }
            }
        }
}).catch((error) => {
    console.log(error)
    avatarSynthesizer.close()
});

Feche a conexão de avatar em tempo real

Para evitar custos desnecessários depois de terminar de usar o avatar em tempo real, é importante fechar a conexão. Há várias maneiras de fechar a conexão:

Quando a página da web do navegador é fechada, o objeto de conexão entre pares do lado do cliente WebRTC é liberado. Em seguida, a conexão do avatar é fechada automaticamente após alguns segundos.
A conexão é fechada automaticamente se o avatar permanecer ocioso por 5 minutos.
Você pode fechar proativamente a conexão do avatar executando o seguinte código:
```
avatarSynthesizer.close()
```

Editar plano de fundo

Definir cor de fundo

Você pode definir a cor de fundo do vídeo avatar através da backgroundColor propriedade do AvatarConfig objeto. O trecho de código a seguir mostra como definir a cor do plano de fundo:

const avatarConfig = new SpeechSDK.AvatarConfig(
    "lisa", // Set avatar character here.
    "casual-sitting", // Set avatar style here.
)
avatarConfig.backgroundColor = '#00FF00FF' // Set background color to green

Observação

A cadeia de cores deve estar no formato #RRGGBBAA. E o canal alfa (AA parte) é sempre ignorado, pois não suportamos fundo transparente para avatar em tempo real.

Definir imagem de fundo

Você pode definir a imagem de fundo do vídeo avatar através da backgroundImage propriedade do AvatarConfig objeto. Você precisa carregar a imagem para um URL acessível ao público e, em seguida, atribuir o URL à backgroundImage propriedade. O trecho de código a seguir mostra como definir a imagem de plano de fundo:

const avatarConfig = new SpeechSDK.AvatarConfig(
    "lisa", // Set avatar character here.
    "casual-sitting", // Set avatar style here.
)
avatarConfig.backgroundImage = "https://www.example.com/1920-1080-image.jpg" // A public accessiable URL of the image.

Definir vídeo de fundo

A API de síntese em tempo real do avatar atualmente não suporta a configuração de vídeo em segundo plano diretamente. No entanto, há uma maneira alternativa de implementar a personalização em segundo plano no lado do cliente, seguindo estas diretrizes:

Defina a cor de fundo para verde (para facilitar o recorte), que é suportado pela API de síntese em tempo real do avatar.
Crie um elemento de tela com o mesmo tamanho do vídeo do avatar.
Capture cada quadro do vídeo do avatar e aplique um cálculo pixel a pixel para definir o pixel verde como transparente e desenhe o quadro recalculado na tela.
Oculte o vídeo original.

Com essa abordagem, você pode obter uma tela animada que é reproduzida como um vídeo, que tem um fundo transparente. Aqui está o código de exemplo JavaScript para demonstrar essa abordagem.

Depois de ter um avatar de fundo transparente, você pode definir o plano de fundo para qualquer conteúdo dinâmico (como um vídeo) colocando o conteúdo dinâmico atrás da tela.

Cortar vídeo

O vídeo do avatar está por padrão em uma proporção de 16:9. Se quiser cortar o vídeo para uma proporção diferente, você pode cortá-lo para uma subárea retangular do vídeo original. Você precisa especificar a área do retângulo fornecendo as coordenadas de seu vértice superior esquerdo e vértice inferior-direito. O trecho de código a seguir mostra como cortar o vídeo:

const videoFormat = new SpeechSDK.AvatarVideoFormat()
const topLeftCoordinate = new SpeechSDK.Coordinate(640, 0) // coordinate of top-left vertex, with X=640, Y=0
const bottomRightCoordinate = new SpeechSDK.Coordinate(1320, 1080) // coordinate of bottom-right vertex, with X=1320, Y=1080
videoFormat.setCropRange(topLeftCoordinate, bottomRightCoordinate)
const avatarConfig = new SpeechSDK.AvatarConfig(
    "lisa", // Set avatar character here.
    "casual-sitting", // Set avatar style here.
    videoFormat, // Set video format here.
)

Para obter um exemplo completo com mais contexto, você pode ir para o nosso código de exemplo e pesquisar crop.

Exemplos de código

Você pode encontrar exemplos de código de avatar de texto para fala no repositório do Speech SDK no GitHub. Os exemplos demonstram como usar avatares de texto para fala em tempo real em seus aplicativos da Web.

Servidor + cliente
- Python (servidor) + JavaScript (cliente)
- C# (servidor) + JavaScript (cliente)
Apenas cliente
- Javascript
- Androide
- iOS

Esses exemplos demonstram como usar avatares de texto para fala em tempo real em seus aplicativos móveis.