Wat zijn OpenAI-tekst voor spraakstemmen?

Artikel
04/25/2024

Net als Azure AI Speech-stemmen leveren OpenAI-tekst naar spraakstemmen spraaksynthese van hoge kwaliteit om geschreven tekst om te zetten in natuurlijk klinkende gesproken audio. Dit biedt een breed scala aan mogelijkheden voor insluitende en interactieve gebruikerservaringen.

OpenAI-tekst naar spraakstemmen zijn beschikbaar via twee modelvarianten: Neural en NeuralHD.

Neural: Geoptimaliseerd voor realtime use cases met de laagste latentie, maar lagere kwaliteit dan NeuralHD.
NeuralHD: Geoptimaliseerd voor kwaliteit.

Bekijk deze inleidende video voor een demonstratie van OpenAI-stemmen in Azure OpenAI Studio en Speech Studio.

Beschikbare tekst-naar-spraakstemmen in Azure AI-services

U kunt het volgende vragen: Als ik een OpenAI-tekst voor spraakspraak wil gebruiken, moet ik deze gebruiken via de Azure OpenAI-service of via Azure AI Speech? Wat zijn de scenario's die mij helpen om een of meer te gebruiken?

Elk spraakmodel biedt verschillende functies en mogelijkheden, zodat u de functie kunt kiezen die het beste bij uw specifieke behoeften past. U wilt de opties en verschillen tussen beschikbare tekst voor spraakstemmen in Azure AI-services begrijpen.

U kunt kiezen uit de volgende tekst-naar-spraakstemmen in Azure AI-services:

OpenAI-tekst naar spraakstemmen in Azure OpenAI Service. Beschikbaar in de volgende regio's: VS - noord-centraal en Zweden - centraal.
OpenAI-tekst naar spraakstemmen in Azure AI Speech. Beschikbaar in de volgende regio's: VS - noord-centraal en Zweden - centraal.
Azure AI Speech-servicetekst naar spraakstemmen. Beschikbaar in tientallen regio's. Zie de regiolijst.

OpenAI-tekst naar spraakstemmen via Azure OpenAI Service of via Azure AI Speech?

Als u OpenAI-tekst wilt gebruiken voor spraakstemmen, kunt u kiezen of u deze wilt gebruiken via Azure OpenAI of via Azure AI Speech. In beide gevallen is het resultaat van de spraaksynthese hetzelfde.

Hier volgt een vergelijking van functies tussen OpenAI-tekst en spraakstemmen in Azure OpenAI Service en OpenAI-tekst naar spraakstemmen in Azure AI Speech.

Functie	Azure OpenAI Service (OpenAI-stemmen)	Azure AI Speech (OpenAI-stemmen)	Stemmen voor Azure AI Speech
Regio	VS - noord-centraal, Zweden - centraal	VS - noord-centraal, Zweden - centraal	Beschikbaar in tientallen regio's. Zie de regiolijst.
Spraakvariant	6	6	Meer dan 400
Meertalige spraaknummer	6	6	14
Maximale meertalige taaldekking	57	57	77
Ondersteuning voor Speech Synthesis Markup Language (SSML)	Niet ondersteund	Ondersteuning voor een subset van SSML-elementen.	Ondersteuning voor de volledige set SSML in Azure AI Speech.
Ontwikkelopties	REST-API	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API
Implementatieoptie	Alleen cloud	Alleen cloud	Cloud, ingesloten, hybride en containers.
Realtime of batchsynthese	Real-time	Realtime- en batchsynthese	Realtime- en batchsynthese
Latentie	groter dan 500 ms	groter dan 500 ms	kleiner dan 300 ms
Samplefrequentie van gesynthetiseerde audio	24 kHz	8, 16, 24 en 48 kHz	8, 16, 24 en 48 kHz
Audio-indeling voor spraakuitvoer	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Er zijn extra functies en mogelijkheden beschikbaar in Azure AI Speech die niet beschikbaar zijn met OpenAI-stemmen. Voorbeeld:

OpenAI-tekst naar spraakstemmen in Azure AI Speech ondersteunen alleen een subset van SSML-elementen. Azure AI Speech-stemmen ondersteunen de volledige set SSML-elementen.
Azure AI Speech ondersteunt woordgrensgebeurtenissen. OpenAI-stemmen bieden geen ondersteuning voor woordgrensgebeurtenissen.

SSML-elementen die worden ondersteund door OpenAI-tekst naar spraakstemmen in Azure AI Speech

De Speech Synthesis Markup Language (SSML) met invoertekst bepaalt de structuur, inhoud en andere kenmerken van de tekst naar spraakuitvoer. U kunt bijvoorbeeld SSML gebruiken om een alinea, een zin, een pauze of stilte te definiëren. U kunt tekst laten teruglopen met gebeurtenistags, zoals bladwijzer of viseme, die later door uw toepassing kunnen worden verwerkt.

De volgende tabel bevat een overzicht van de SSML-elementen (Speech Synthesis Markup Language) die worden ondersteund door OpenAI-tekst naar spraakstemmen in Azure AI-spraak. Alleen de volgende subset van SSML-tags wordt ondersteund voor OpenAI-stemmen. Zie SSML-documentstructuur en -gebeurtenissen voor meer informatie.

SSML-elementnaam	Beschrijving
`<speak>`	Plaats de volledige inhoud die moet worden gesproken. Het is het hoofdelement van een SSML-document.
`<voice>`	Hiermee geeft u een spraak gebruikt voor tekst-naar-spraakuitvoer.
`<sub>`	Geeft aan dat de tekstwaarde van het aliaskenmerk moet worden uitgesproken in plaats van de ingesloten tekst van het element.
`<say-as>`	Geeft het inhoudstype, zoals getal of datum, van de tekst van het element aan. `interpret-as` Alle eigenschapswaarden worden ondersteund voor dit element, behalve `interpret-as="name"`. Wordt bijvoorbeeld `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` ondersteund, maar `<say-as interpret-as="name">ED</say-as>` wordt niet ondersteund. Zie uitspraak met SSML voor meer informatie.
`<s>`	Geeft zinnen aan.
`<lang>`	Geeft de standaardlandinstelling aan voor de taal die u wilt laten spreken door de neurale stem.
`<break>`	Gebruik dit diagram om het standaardgedrag van onderbrekingen of pauzes tussen woorden te overschrijven.

Delen via

Wat zijn OpenAI-tekst voor spraakstemmen?

Beschikbare tekst-naar-spraakstemmen in Azure AI-services

OpenAI-tekst naar spraakstemmen via Azure OpenAI Service of via Azure AI Speech?

SSML-elementen die worden ondersteund door OpenAI-tekst naar spraakstemmen in Azure AI Speech

Volgende stappen

Aanvullende resources