Vad är OpenAI-text till talröster?

Precis som Azure AI Speech-röster levererar OpenAI-text till talröster högkvalitativ talsyntes för att konvertera skriven text till naturligt talat ljud. Detta låser upp en mängd olika möjligheter för uppslukande och interaktiva användarupplevelser.

OpenAI-text till talröster är tillgängliga via två modellvarianter: Neural och NeuralHD.

  • Neural: Optimerad för användningsfall i realtid med lägst svarstid, men lägre kvalitet än NeuralHD.
  • NeuralHD: Optimerad för kvalitet.

En demonstration av OpenAI-röster i Azure OpenAI Studio och Speech Studio finns i den här introduktionsvideon.

Tillgänglig text för talröster i Azure AI-tjänster

Du kanske frågar: Om jag vill använda en OpenAI-text till talröst, ska jag använda den via Azure OpenAI-tjänsten eller via Azure AI Speech? Vilka är de scenarier som hjälper mig att använda det ena eller det andra?

Varje röstmodell erbjuder distinkta funktioner, så att du kan välja den som bäst passar dina specifika behov. Du vill förstå alternativen och skillnaderna mellan tillgänglig text till talröster i Azure AI-tjänster.

Du kan välja mellan följande text och talröster i Azure AI-tjänster:

OpenAI-text till talröster via Azure OpenAI Service eller via Azure AI Speech?

Om du vill använda OpenAI-text till talröster kan du välja om du vill använda dem via Azure OpenAI eller via Azure AI Speech. I båda fallen är talsyntesresultatet detsamma.

Här är en jämförelse av funktioner mellan OpenAI-text och talröster i Azure OpenAI Service och OpenAI-text till talröster i Azure AI Speech.

Funktion Azure OpenAI Service (OpenAI-röster) Azure AI Speech (OpenAI-röster) Azure AI Speech-röster
Region USA, norra centrala, Sverige, centrala USA, norra centrala, Sverige, centrala Finns i dussintals regioner. Se regionlistan.
Röstvariat 6 6 Mer än 400
Flerspråkigt röstnummer 6 6 14
Maximal täckning för flerspråkigt språk 57 57 77
Stöd för Speech Synthesis Markup Language (SSML) Stöds inte Stöd för en delmängd av SSML-element. Stöd för den fullständiga uppsättningen SSML i Azure AI Speech.
Utvecklingsalternativ REST-API Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API
Distributionsalternativ Endast moln Endast moln Moln, inbäddad, hybrid och containrar.
Realtids- eller batchsyntes Realtid Realtids- och batchsyntes Realtids- och batchsyntes
Svarstider större än 500 ms större än 500 ms mindre än 300 ms
Exempelfrekvens för syntetiserat ljud 24 kHz 8, 16, 24 och 48 kHz 8, 16, 24 och 48 kHz
Ljudformat för talutdata opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Det finns ytterligare funktioner i Azure AI Speech som inte är tillgängliga med OpenAI-röster. Till exempel:

SSML-element som stöds av OpenAI-text till talröster i Azure AI Speech

Talsyntesmarkeringsspråket (SSML) med indatatext avgör strukturen, innehållet och andra egenskaper för text till tal-utdata. Du kan till exempel använda SSML för att definiera ett stycke, en mening, en paus eller en paus eller tystnad. Du kan radbryta text med händelsetaggar som bokmärke eller viseme som kan bearbetas senare av ditt program.

I följande tabell beskrivs de SSML-element (Speech Synthesis Markup Language) som stöds av OpenAI-text till talröster i Azure AI-tal. Endast följande delmängd av SSML-taggar stöds för OpenAI-röster. Mer information finns i SSML-dokumentstruktur och -händelser .

SSML-elementnamn beskrivning
<speak> Omsluter hela innehållet som ska talas. Det är rotelementet i ett SSML-dokument.
<voice> Anger en röst som används för text till tal-utdata.
<sub> Anger att aliasattributets textvärde ska uttalas i stället för elementets omslutna text.
<say-as> Anger innehållstypen, till exempel tal eller datum, för elementets text.

Alla egenskapsvärden interpret-as stöds för det här elementet utom interpret-as="name". Stöds till exempel <say-as interpret-as="date" format="dmy">10-12-2016</say-as> , men <say-as interpret-as="name">ED</say-as> stöds inte. Mer information finns i uttal med SSML.
<s> Anger meningar.
<lang> Anger standardspråket för det språk som du vill att den neurala rösten ska tala.
<break> Använd för att åsidosätta standardbeteendet för pauser eller pauser mellan ord.

Nästa steg