Partilhar via


O que são vozes de texto para fala OpenAI?

Como as vozes de fala do Azure AI, as vozes de texto para fala do OpenAI fornecem síntese de fala de alta qualidade para converter texto escrito em áudio falado com som natural. Isso desbloqueia uma ampla gama de possibilidades para experiências de usuário imersivas e interativas.

As vozes de texto para fala OpenAI estão disponíveis através de duas variantes de modelo: Neural e NeuralHD.

  • Neural: Otimizado para casos de uso em tempo real com a menor latência, mas menor qualidade do que NeuralHD.
  • NeuralHD: Otimizado para qualidade.

Para obter uma demonstração das vozes do OpenAI no Azure OpenAI Studio e no Speech Studio, veja este vídeo introdutório.

Texto disponível para vozes de fala nos serviços de IA do Azure

Você pode perguntar: Se eu quiser usar um texto OpenAI para voz de fala, devo usá-lo por meio do Serviço OpenAI do Azure ou por meio do Azure AI Speech? Quais são os cenários que me orientam a usar um ou outro?

Cada modelo de voz oferece características e capacidades distintas, permitindo-lhe escolher o que melhor se adapta às suas necessidades específicas. Você deseja entender as opções e as diferenças entre as vozes de texto para fala disponíveis nos serviços de IA do Azure.

Você pode escolher entre as seguintes vozes de texto para fala nos serviços de IA do Azure:

  • Texto OpenAI para vozes de fala no Serviço OpenAI do Azure. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
  • Texto OpenAI para vozes de fala no Azure AI Speech. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
  • Voz de texto para fala do serviço Azure AI Speech. Disponível em dezenas de regiões. Veja a lista de regiões.

Texto OpenAI para vozes de fala através do Serviço Azure OpenAI ou através do Azure AI Speech?

Se você quiser usar texto OpenAI para vozes de fala, você pode escolher se deseja usá-los por meio do Azure OpenAI ou por meio do Azure AI Speech. Em ambos os casos, o resultado da síntese de fala é o mesmo.

Aqui está uma comparação de recursos entre texto OpenAI para vozes de fala no Serviço OpenAI do Azure e texto para vozes de fala do OpenAI no Azure AI Speech.

Caraterística Azure OpenAI Service (vozes OpenAI) Azure AI Speech (vozes OpenAI) Vozes do Azure AI Speech
Região E.U.A. Centro-Norte, Suécia Central E.U.A. Centro-Norte, Suécia Central Disponível em dezenas de regiões. Veja a lista de regiões.
Variedade de voz 6 6 Mais de 400
Número de voz multilingue 6 6 14
Cobertura linguística multilingue máxima 57 57 77
Suporte a SSML (Speech Synthesis Markup Language) Não suportado Suporte para um subconjunto de elementos SSML. Suporte para o conjunto completo de SSML no Azure AI Speech.
Opções de desenvolvimento API REST SDK de fala, CLI de fala, API REST SDK de fala, CLI de fala, API REST
Opção de implementação Apenas na nuvem Apenas na nuvem Cloud, incorporado, híbrido e contêineres.
Síntese em tempo real ou em lote Em Tempo Real Síntese em tempo real e em lote Síntese em tempo real e em lote
Latência superior a 500 ms superior a 500 ms menos de 300 ms
Taxa de amostragem de áudio sintetizado 24 kHz 8, 16, 24 e 48 kHz 8, 16, 24 e 48 kHz
Formato de áudio de saída de voz Opus, MP3, AAC, FLAC Opus, MP3, PCM, Truesilk Opus, MP3, PCM, Truesilk

Há recursos adicionais disponíveis no Azure AI Speech que não estão disponíveis com vozes OpenAI. Por exemplo:

Elementos SSML suportados por vozes de texto para fala OpenAI no Azure AI Speech

A SSML (Speech Synthesis Markup Language) com texto de entrada determina a estrutura, o conteúdo e outras características da saída de texto para fala. Por exemplo, você pode usar SSML para definir um parágrafo, uma frase, uma pausa ou silêncio. Você pode quebrar o texto com tags de evento, como marcador ou viseme, que podem ser processadas posteriormente pelo seu aplicativo.

A tabela a seguir descreve os elementos SSML (Speech Synthesis Markup Language) suportados por vozes de texto para fala do OpenAI na fala do Azure AI. Apenas o seguinte subconjunto de tags SSML é suportado para vozes OpenAI. Consulte Estrutura de documentos e eventos do SSML para obter mais informações.

Nome do elemento SSML Description
<speak> Encerra todo o conteúdo a ser falado. É o elemento raiz de um documento SSML.
<voice> Especifica uma voz usada para saída de texto para fala.
<sub> Indica que o valor de texto do atributo alias deve ser pronunciado em vez do texto incluído do elemento.
<say-as> Indica o tipo de conteúdo, como número ou data, do texto do elemento.

Todos os interpret-as valores de propriedade são suportados para este elemento, exceto interpret-as="name". Por exemplo, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> é suportado, mas <say-as interpret-as="name">ED</say-as> não é suportado. Para obter mais informações, consulte pronúncia com SSML.
<s> Denota frases.
<lang> Indica a localidade padrão para o idioma que você deseja que a voz neural fale.
<break> Use para substituir o comportamento padrão de quebras ou pausas entre palavras.

Próximos passos