Vad är OpenAI-text till talröster?

Artikel
04/25/2024

Precis som Azure AI Speech-röster levererar OpenAI-text till talröster högkvalitativ talsyntes för att konvertera skriven text till naturligt talat ljud. Detta låser upp en mängd olika möjligheter för uppslukande och interaktiva användarupplevelser.

OpenAI-text till talröster är tillgängliga via två modellvarianter: Neural och NeuralHD.

Neural: Optimerad för användningsfall i realtid med lägst svarstid, men lägre kvalitet än NeuralHD.
NeuralHD: Optimerad för kvalitet.

En demonstration av OpenAI-röster i Azure OpenAI Studio och Speech Studio finns i den här introduktionsvideon.

Tillgänglig text för talröster i Azure AI-tjänster

Du kanske frågar: Om jag vill använda en OpenAI-text till talröst, ska jag använda den via Azure OpenAI-tjänsten eller via Azure AI Speech? Vilka är de scenarier som hjälper mig att använda det ena eller det andra?

Varje röstmodell erbjuder distinkta funktioner, så att du kan välja den som bäst passar dina specifika behov. Du vill förstå alternativen och skillnaderna mellan tillgänglig text till talröster i Azure AI-tjänster.

Du kan välja mellan följande text och talröster i Azure AI-tjänster:

OpenAI-text till talröster i Azure OpenAI Service. Finns i följande regioner: USA, norra centrala och Sverige, centrala.
OpenAI-text till talröster i Azure AI Speech. Finns i följande regioner: USA, norra centrala och Sverige, centrala.
Text till talröster i Azure AI Speech-tjänsten. Finns i dussintals regioner. Se regionlistan.

OpenAI-text till talröster via Azure OpenAI Service eller via Azure AI Speech?

Om du vill använda OpenAI-text till talröster kan du välja om du vill använda dem via Azure OpenAI eller via Azure AI Speech. I båda fallen är talsyntesresultatet detsamma.

Här är en jämförelse av funktioner mellan OpenAI-text och talröster i Azure OpenAI Service och OpenAI-text till talröster i Azure AI Speech.

Funktion	Azure OpenAI Service (OpenAI-röster)	Azure AI Speech (OpenAI-röster)	Azure AI Speech-röster
Region	USA, norra centrala, Sverige, centrala	USA, norra centrala, Sverige, centrala	Finns i dussintals regioner. Se regionlistan.
Röstvariat	6	6	Mer än 400
Flerspråkigt röstnummer	6	6	14
Maximal täckning för flerspråkigt språk	57	57	77
Stöd för Speech Synthesis Markup Language (SSML)	Stöds inte	Stöd för en delmängd av SSML-element.	Stöd för den fullständiga uppsättningen SSML i Azure AI Speech.
Utvecklingsalternativ	REST-API	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API
Distributionsalternativ	Endast moln	Endast moln	Moln, inbäddad, hybrid och containrar.
Realtids- eller batchsyntes	Realtid	Realtids- och batchsyntes	Realtids- och batchsyntes
Svarstider	större än 500 ms	större än 500 ms	mindre än 300 ms
Exempelfrekvens för syntetiserat ljud	24 kHz	8, 16, 24 och 48 kHz	8, 16, 24 och 48 kHz
Ljudformat för talutdata	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Det finns ytterligare funktioner i Azure AI Speech som inte är tillgängliga med OpenAI-röster. Till exempel:

OpenAI-text till talröster i Azure AI Speech stöder endast en delmängd av SSML-element. Azure AI Speech-röster stöder hela uppsättningen SSML-element.
Azure AI Speech stöder ordgränshändelser. OpenAI-röster stöder inte ordgränshändelser.

SSML-element som stöds av OpenAI-text till talröster i Azure AI Speech

Talsyntesmarkeringsspråket (SSML) med indatatext avgör strukturen, innehållet och andra egenskaper för text till tal-utdata. Du kan till exempel använda SSML för att definiera ett stycke, en mening, en paus eller en paus eller tystnad. Du kan radbryta text med händelsetaggar som bokmärke eller viseme som kan bearbetas senare av ditt program.

I följande tabell beskrivs de SSML-element (Speech Synthesis Markup Language) som stöds av OpenAI-text till talröster i Azure AI-tal. Endast följande delmängd av SSML-taggar stöds för OpenAI-röster. Mer information finns i SSML-dokumentstruktur och -händelser .

SSML-elementnamn	beskrivning
`<speak>`	Omsluter hela innehållet som ska talas. Det är rotelementet i ett SSML-dokument.
`<voice>`	Anger en röst som används för text till tal-utdata.
`<sub>`	Anger att aliasattributets textvärde ska uttalas i stället för elementets omslutna text.
`<say-as>`	Anger innehållstypen, till exempel tal eller datum, för elementets text. Alla egenskapsvärden `interpret-as` stöds för det här elementet utom `interpret-as="name"`. Stöds till exempel `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` , men `<say-as interpret-as="name">ED</say-as>` stöds inte. Mer information finns i uttal med SSML.
`<s>`	Anger meningar.
`<lang>`	Anger standardspråket för det språk som du vill att den neurala rösten ska tala.
`<break>`	Använd för att åsidosätta standardbeteendet för pauser eller pauser mellan ord.

Vad är OpenAI-text till talröster?

Tillgänglig text för talröster i Azure AI-tjänster

OpenAI-text till talröster via Azure OpenAI Service eller via Azure AI Speech?

SSML-element som stöds av OpenAI-text till talröster i Azure AI Speech

Nästa steg

Ytterligare resurser