O que são as vozes de conversão de texto em fala da OpenAI?
Assim como as vozes do Fala de IA do Azure, as vozes de conversão de texto em fala do OpenAI oferecem síntese de fala de alta qualidade para converter texto escrito em áudio falado com som natural. Isso abre uma ampla gama de possibilidades para experiências de usuário imersivas e interativas.
As vozes de conversão de texto em fala do OpenAI estão disponíveis em duas variantes de modelo: Neural
e NeuralHD
.
Neural
: otimizado para casos de uso em tempo real com a menor latência, mas com qualidade inferior aNeuralHD
.NeuralHD
: otimizado para qualidade.
Vozes de conversão de texto em fala disponíveis nos serviços de IA do Azure
Você pode se perguntar: se eu quiser usar uma voz de conversão de texto em fala do OpenAI, devo usá-la por meio do Serviço OpenAI do Azure ou do Fala de IA do Azure? Quais são os cenários que me orientam a usar um ou outro?
Cada modelo de voz oferece recursos e funcionalidades diferentes, permitindo que você escolha o que melhor atende às suas necessidades específicas. Você deseja entender as opções e as diferenças entre as vozes de conversão de texto em fala disponíveis nos serviços de IA do Azure.
Você pode escolher entre as seguintes vozes de conversão de texto em fala nos serviços de IA do Azure:
- Vozes de conversão de texto em fala do OpenAI no Serviço OpenAI do Azure. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
- Vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
- Serviço de Fala de IA do Azure de vozes de conversão de texto em fala. Disponível em dezenas de regiões. Consulte a lista de regiões.
Vozes de conversão de texto em fala do OpenAI por meio do Serviço OpenAI do Azure ou por meio do Fala de IA do Azure?
Se quiser usar as vozes de conversão de texto em fala do OpenAI, você poderá escolher se deseja usá-las via OpenAI do Azure ou via Fala de IA do Azure. Você pode visitar a Galeria do Serviço de Voz para ouvir exemplos de vozes do Serviço OpenAI do Azure ou usar a Criação de Conteúdo de Áudio para sintetizar a fala com seu próprio texto. A saída de áudio é idêntica em ambos os casos, com apenas algumas diferenças de recursos entre os dois serviços. Confira a tabela abaixo para obter detalhes.
Aqui está uma comparação dos recursos entre as vozes de conversão de texto em fala do OpenAI no Serviço OpenAI do Azure e as vozes de conversão de texto em fala da OpenAI no Fala de IA do Azure.
Recurso | Serviço OpenAI do Azure (vozes OpenAI) | Fala da IA do Azure (vozes do OpenAI) | Vozes do Fala de IA do Azure |
---|---|---|---|
Região | Centro-Norte dos EUA, Suécia Central | Centro-Norte dos EUA, Suécia Central | Disponível em dezenas de regiões. Consulte a lista de regiões. |
Variedade de Vozes | 6 | 12 | Mais de 500 |
Número de vozes multilíngue | 6 | 12 | 49 |
Cobertura máxima de idiomas multilíngues | 57 | 57 | 77 |
Suporte para Speech Synthesis Markup Language (SSML) | Sem suporte | Suporte para um subconjunto de elementos SSML. | Suporte para o conjunto completo de SSML no Fala de IA do Azure. |
Opções de desenvolvimento | API REST | SDK de fala, CLI de fala, API REST | SDK de fala, CLI de fala, API REST |
Opção de implantação | Somente na nuvem | Somente na nuvem | Nuvem, inserido, híbrido e contêineres. |
Síntese em tempo real ou em lote | Tempo Real | Síntese em tempo real e em lote | Síntese em tempo real e em lote |
Latência | maior que 500 ms | maior que 500 ms | menor que 300 ms |
Taxa de amostragem de áudio sintetizado | 24 kHz | 8, 16, 24 e 48 kHz | 8, 16, 24 e 48 kHz |
Formato do áudio da saída de fala | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Há recursos e recursos adicionais disponíveis na Fala de IA do Azure que não estão disponíveis com as vozes OpenAI. Por exemplo:
- O texto do OpenAI para conversão de texto em fala na Fala de IA do Azure dá suporte apenas a um subconjunto de elementos SSML. As vozes de Fala de IA do Azure dão suporte ao conjunto completo dos elementos SSML.
- A Fala de IA do Azure dá suporte aos eventos de limite de palavras. As vozes do OpenAI não dão suporte aos eventos de limite de palavras.
Elementos SSML com suporte pelas vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure
O SSML (Speech Synthesis Markup Language) com texto de entrada determina a estrutura, o conteúdo e outras características da saída de conversão de texto em fala. Por exemplo, você pode usar o SSML para definir um parágrafo, uma frase, uma interrupção ou uma pausa ou um silêncio. Você pode colocar o texto entre marcas de evento, como indicador ou visema, que poderão ser processados depois pelo aplicativo.
A tabela a seguir descreve os elementos SSML (Speech Synthesis Markup Language) com suporte pelas vozes de conversão de texto em fala do OpenAI no Fala de IA do Azure. Há suporte para apenas um subconjunto de marcas SSML das vozes do OpenAI. Consulte Estrutura do documento SSML e eventos para obter mais informações.
Nome do elemento SSML | Descrição |
---|---|
<speak> |
Inclui todo o conteúdo a ser falado. É o elemento raiz de um documento SSML. |
<voice> |
Especifica uma voz usada para saída da conversão de texto em fala. |
<sub> |
Indica que o valor do texto do atributo de alias deve ser pronunciado em vez do texto contido no elemento. |
<say-as> |
Indica o tipo de conteúdo, como número ou data, do texto do elemento. Há suporte para todos os valores de propriedade interpret-as para esse elemento, exceto interpret-as="name" . Por exemplo, há suporte para <say-as interpret-as="date" format="dmy">10-12-2016</say-as> , mas não há suporte para <say-as interpret-as="name">ED</say-as> . Para obter mais informações, confira pronúncia com SSML. |
<s> |
Denota sentenças. |
<lang> |
Indica a localidade padrão para o idioma que você deseja que a voz neural fale. |
<break> |
Use para substituir o comportamento padrão de intervalos ou pausas entre as palavras. |