O que são as vozes de conversão de texto em fala da OpenAI?

2025-03-03

Assim como as vozes do Fala de IA do Azure, as vozes de conversão de texto em fala do OpenAI oferecem síntese de fala de alta qualidade para converter texto escrito em áudio falado com som natural. Isso abre uma ampla gama de possibilidades para experiências de usuário imersivas e interativas.

As vozes de conversão de texto em fala do OpenAI estão disponíveis em duas variantes de modelo: Neural e NeuralHD.

Neural: otimizado para casos de uso em tempo real com a menor latência, mas com qualidade inferior a NeuralHD.
NeuralHD: otimizado para qualidade.

Vozes de conversão de texto em fala disponíveis nos serviços de IA do Azure

Você pode se perguntar: se eu quiser usar uma voz de conversão de texto em fala do OpenAI, devo usá-la por meio do Serviço OpenAI do Azure ou do Fala de IA do Azure? Quais são os cenários que me orientam a usar um ou outro?

Cada modelo de voz oferece recursos e funcionalidades diferentes, permitindo que você escolha o que melhor atende às suas necessidades específicas. Você deseja entender as opções e as diferenças entre as vozes de conversão de texto em fala disponíveis nos serviços de IA do Azure.

Você pode escolher entre as seguintes vozes de conversão de texto em fala nos serviços de IA do Azure:

Vozes de conversão de texto em fala do OpenAI no Serviço OpenAI do Azure. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
Vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
Serviço de Fala de IA do Azure de vozes de conversão de texto em fala. Disponível em dezenas de regiões. Consulte a lista de regiões.

Vozes de conversão de texto em fala do OpenAI por meio do Serviço OpenAI do Azure ou por meio do Fala de IA do Azure?

Se quiser usar as vozes de conversão de texto em fala do OpenAI, você poderá escolher se deseja usá-las via OpenAI do Azure ou via Fala de IA do Azure. Você pode visitar a Galeria do Serviço de Voz para ouvir exemplos de vozes do Serviço OpenAI do Azure ou usar a Criação de Conteúdo de Áudio para sintetizar a fala com seu próprio texto. A saída de áudio é idêntica em ambos os casos, com apenas algumas diferenças de recursos entre os dois serviços. Confira a tabela abaixo para obter detalhes.

Aqui está uma comparação dos recursos entre as vozes de conversão de texto em fala do OpenAI no Serviço OpenAI do Azure e as vozes de conversão de texto em fala da OpenAI no Fala de IA do Azure.

Recurso	Serviço OpenAI do Azure (vozes OpenAI)	Fala da IA do Azure (vozes do OpenAI)	Vozes do Fala de IA do Azure
Região	Centro-Norte dos EUA, Suécia Central	Centro-Norte dos EUA, Suécia Central	Disponível em dezenas de regiões. Consulte a lista de regiões.
Variedade de Vozes	6	12	Mais de 500
Número de vozes multilíngue	6	12	49
Cobertura máxima de idiomas multilíngues	57	57	77
Suporte para Speech Synthesis Markup Language (SSML)	Sem suporte	Suporte para um subconjunto de elementos SSML.	Suporte para o conjunto completo de SSML no Fala de IA do Azure.
Opções de desenvolvimento	API REST	SDK de fala, CLI de fala, API REST	SDK de fala, CLI de fala, API REST
Opção de implantação	Somente na nuvem	Somente na nuvem	Nuvem, inserido, híbrido e contêineres.
Síntese em tempo real ou em lote	Tempo Real	Tempo Real	Síntese em tempo real e em lote
Latência	maior que 500 ms	maior que 500 ms	menor que 300 ms
Taxa de amostragem de áudio sintetizado	24 kHz	8, 16, 24 e 48 kHz	8, 16, 24 e 48 kHz
Formato do áudio da saída de fala	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Há recursos e recursos adicionais disponíveis na Fala de IA do Azure que não estão disponíveis com as vozes OpenAI. Por exemplo:

O texto do OpenAI para conversão de texto em fala na Fala de IA do Azure dá suporte apenas a um subconjunto de elementos SSML. As vozes de Fala de IA do Azure dão suporte ao conjunto completo dos elementos SSML.
A Fala de IA do Azure dá suporte aos eventos de limite de palavras. As vozes do OpenAI não dão suporte aos eventos de limite de palavras.

Conversão de texto em fala do OpenAI disponível

A conversão de texto em fala do OpenAI disponível no Serviço OpenAI do Azure é:

alloy
echo
fable
onyx
nova
shimmer

A conversão de texto em fala do OpenAI no Serviço OpenAI do Azure é:

en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD

Elementos SSML com suporte pelas vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure

O SSML (Speech Synthesis Markup Language) com texto de entrada determina a estrutura, o conteúdo e outras características da saída de conversão de texto em fala. Por exemplo, você pode usar o SSML para definir um parágrafo, uma frase, uma interrupção ou uma pausa ou um silêncio. Você pode colocar o texto entre marcas de evento, como indicador ou visema, que poderão ser processados depois pelo aplicativo.

A tabela a seguir descreve os elementos SSML (Speech Synthesis Markup Language) com suporte pelas vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure. Há suporte para apenas um subconjunto de marcas SSML das vozes do OpenAI. Consulte Estrutura do documento SSML e eventos para obter mais informações.

Nome do elemento SSML	Descrição
`<speak>`	Inclui todo o conteúdo a ser falado. É o elemento raiz de um documento SSML.
`<voice>`	Especifica uma voz usada para saída da conversão de texto em fala.
`<sub>`	Indica que o valor do texto do atributo de alias deve ser pronunciado em vez do texto contido no elemento.
`<say-as>`	Indica o tipo de conteúdo, como número ou data, do texto do elemento. Há suporte para todos os valores de propriedade `interpret-as` para esse elemento, exceto `interpret-as="name"`. Por exemplo, há suporte para `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>`, mas não há suporte para `<say-as interpret-as="name">ED</say-as>`. Para obter mais informações, confira pronúncia com SSML.
`<s>`	Denota sentenças.
`<lang>`	Indica a localidade padrão para o idioma que você deseja que a voz neural fale.
`<break>`	Use para substituir o comportamento padrão de intervalos ou pausas entre as palavras.

Compartilhar via

O que são as vozes de conversão de texto em fala da OpenAI?

Vozes de conversão de texto em fala disponíveis nos serviços de IA do Azure

Vozes de conversão de texto em fala do OpenAI por meio do Serviço OpenAI do Azure ou por meio do Fala de IA do Azure?

Conversão de texto em fala do OpenAI disponível

Elementos SSML com suporte pelas vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure

Conteúdo relacionado

Comentários

Recursos adicionais