Delen via


Wat zijn OpenAI-tekst voor spraakstemmen?

Net als Azure AI Speech-stemmen leveren OpenAI-tekst naar spraakstemmen spraaksynthese van hoge kwaliteit om geschreven tekst om te zetten in natuurlijk klinkende gesproken audio. Dit biedt een breed scala aan mogelijkheden voor insluitende en interactieve gebruikerservaringen.

OpenAI-tekst naar spraakstemmen zijn beschikbaar via twee modelvarianten: Neural en NeuralHD.

  • Neural: Geoptimaliseerd voor realtime use cases met de laagste latentie, maar lagere kwaliteit dan NeuralHD.
  • NeuralHD: Geoptimaliseerd voor kwaliteit.

Bekijk deze inleidende video voor een demonstratie van OpenAI-stemmen in Azure OpenAI Studio en Speech Studio.

Beschikbare tekst-naar-spraakstemmen in Azure AI-services

U kunt het volgende vragen: Als ik een OpenAI-tekst voor spraakspraak wil gebruiken, moet ik deze gebruiken via de Azure OpenAI-service of via Azure AI Speech? Wat zijn de scenario's die mij helpen om een of meer te gebruiken?

Elk spraakmodel biedt verschillende functies en mogelijkheden, zodat u de functie kunt kiezen die het beste bij uw specifieke behoeften past. U wilt de opties en verschillen tussen beschikbare tekst voor spraakstemmen in Azure AI-services begrijpen.

U kunt kiezen uit de volgende tekst-naar-spraakstemmen in Azure AI-services:

  • OpenAI-tekst naar spraakstemmen in Azure OpenAI Service. Beschikbaar in de volgende regio's: VS - noord-centraal en Zweden - centraal.
  • OpenAI-tekst naar spraakstemmen in Azure AI Speech. Beschikbaar in de volgende regio's: VS - noord-centraal en Zweden - centraal.
  • Azure AI Speech-servicetekst naar spraakstemmen. Beschikbaar in tientallen regio's. Zie de regiolijst.

OpenAI-tekst naar spraakstemmen via Azure OpenAI Service of via Azure AI Speech?

Als u OpenAI-tekst wilt gebruiken voor spraakstemmen, kunt u kiezen of u deze wilt gebruiken via Azure OpenAI of via Azure AI Speech. In beide gevallen is het resultaat van de spraaksynthese hetzelfde.

Hier volgt een vergelijking van functies tussen OpenAI-tekst en spraakstemmen in Azure OpenAI Service en OpenAI-tekst naar spraakstemmen in Azure AI Speech.

Functie Azure OpenAI Service (OpenAI-stemmen) Azure AI Speech (OpenAI-stemmen) Stemmen voor Azure AI Speech
Regio VS - noord-centraal, Zweden - centraal VS - noord-centraal, Zweden - centraal Beschikbaar in tientallen regio's. Zie de regiolijst.
Spraakvariant 6 6 Meer dan 400
Meertalige spraaknummer 6 6 14
Maximale meertalige taaldekking 57 57 77
Ondersteuning voor Speech Synthesis Markup Language (SSML) Niet ondersteund Ondersteuning voor een subset van SSML-elementen. Ondersteuning voor de volledige set SSML in Azure AI Speech.
Ontwikkelopties REST-API Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API
Implementatieoptie Alleen cloud Alleen cloud Cloud, ingesloten, hybride en containers.
Realtime of batchsynthese Real-time Realtime- en batchsynthese Realtime- en batchsynthese
Latentie groter dan 500 ms groter dan 500 ms kleiner dan 300 ms
Samplefrequentie van gesynthetiseerde audio 24 kHz 8, 16, 24 en 48 kHz 8, 16, 24 en 48 kHz
Audio-indeling voor spraakuitvoer opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Er zijn extra functies en mogelijkheden beschikbaar in Azure AI Speech die niet beschikbaar zijn met OpenAI-stemmen. Voorbeeld:

SSML-elementen die worden ondersteund door OpenAI-tekst naar spraakstemmen in Azure AI Speech

De Speech Synthesis Markup Language (SSML) met invoertekst bepaalt de structuur, inhoud en andere kenmerken van de tekst naar spraakuitvoer. U kunt bijvoorbeeld SSML gebruiken om een alinea, een zin, een pauze of stilte te definiƫren. U kunt tekst laten teruglopen met gebeurtenistags, zoals bladwijzer of viseme, die later door uw toepassing kunnen worden verwerkt.

De volgende tabel bevat een overzicht van de SSML-elementen (Speech Synthesis Markup Language) die worden ondersteund door OpenAI-tekst naar spraakstemmen in Azure AI-spraak. Alleen de volgende subset van SSML-tags wordt ondersteund voor OpenAI-stemmen. Zie SSML-documentstructuur en -gebeurtenissen voor meer informatie.

SSML-elementnaam Beschrijving
<speak> Plaats de volledige inhoud die moet worden gesproken. Het is het hoofdelement van een SSML-document.
<voice> Hiermee geeft u een spraak gebruikt voor tekst-naar-spraakuitvoer.
<sub> Geeft aan dat de tekstwaarde van het aliaskenmerk moet worden uitgesproken in plaats van de ingesloten tekst van het element.
<say-as> Geeft het inhoudstype, zoals getal of datum, van de tekst van het element aan.

interpret-as Alle eigenschapswaarden worden ondersteund voor dit element, behalve interpret-as="name". Wordt bijvoorbeeld <say-as interpret-as="date" format="dmy">10-12-2016</say-as> ondersteund, maar <say-as interpret-as="name">ED</say-as> wordt niet ondersteund. Zie uitspraak met SSML voor meer informatie.
<s> Geeft zinnen aan.
<lang> Geeft de standaardlandinstelling aan voor de taal die u wilt laten spreken door de neurale stem.
<break> Gebruik dit diagram om het standaardgedrag van onderbrekingen of pauzes tussen woorden te overschrijven.

Volgende stappen