Delen via


Wat zijn stemmen met hoge definities? (Preview)

Notitie

Deze functie is momenteel beschikbaar als openbare preview-versie. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Azure AI Speech gaat verder op het gebied van tekst-naar-spraaktechnologie met de introductie van spraak-high definition-stemmen (HD) voor neurale tekst. De HD-stemmen kunnen de inhoud begrijpen, emoties automatisch detecteren in de invoertekst en de spreektoon in realtime aanpassen aan het gevoel. HD-stemmen behouden een consistente spraakpersoonspersoon van hun neurale (en niet-HD)-tegenhangers en leveren nog meer waarde via verbeterde functies.

Belangrijke functies van neurale tekst naar spraak HD-stemmen

Hier volgen de belangrijkste functies van Azure AI Speech HD-stemmen:

Belangrijkste functies Beschrijving
Generatie van menselijke spraak Neurale tekst naar spraak HD-stemmen kunnen zeer natuurlijke en menselijke spraak genereren. Het model wordt getraind op miljoenen uren meertalige gegevens, zodat het invoertekst nauwkeurig kan interpreteren en spraak kan genereren met de juiste emotie, tempo en ritme zonder handmatige aanpassingen.
Conversationele Neurale tekst naar spraak HD-stemmen kunnen natuurlijke spraakpatronen repliceren, waaronder spontane pauzes en nadruk. Wanneer u gesprekstekst krijgt, kan het model algemene telefoontjes reproduceren, zoals pauzes en opvulwoorden. De gegenereerde stem klinkt alsof iemand rechtstreeks met u in contact komt.
Prosodyvariaties Neurale tekst naar spraak HD-stemmen introduceren lichte variaties in elke uitvoer om het realisme te verbeteren. Deze variaties maken het spraakgeluid natuurlijker, omdat menselijke stemmen natuurlijk variatie vertonen.
Hoge kwaliteit Het primaire doel van neurale tekst naar spraak HD-stemmen is het genereren van hoogwaardige audio. De synthetische spraak die door ons systeem wordt geproduceerd, kan menselijke spraak zowel kwaliteit als natuurlijk nabootsen.
Versiebeheer Met neurale tekst naar spraak HD-stemmen brengen we verschillende versies van dezelfde stem vrij, elk met een unieke basismodelgrootte en -recept. Dit biedt u de mogelijkheid om nieuwe stemvariaties te ervaren of een specifieke versie van een stem te blijven gebruiken.

Vergelijking van Azure AI Speech HD-stemmen met andere Azure-tekst naar spraakstemmen

Hoe verhoudt Azure AI Speech HD-stemmen zich tot andere Azure-tekst en spraakstemmen? Hoe verschillen ze qua functies en mogelijkheden?

Hier volgt een vergelijking van functies tussen Azure AI Speech HD-stemmen, Azure OpenAI HD-stemmen en Azure AI Speech-stemmen:

Functie Hd-stemmen voor Azure AI Speech Azure OpenAI HD-stemmen Azure AI Speech-stemmen (niet HD)
Regio VS - oost, Azië - zuidoost, Europa - west VS - noord-centraal, Zweden - centraal Beschikbaar in tientallen regio's. Zie de regiolijst.
Aantal stemmen 12 6 Meer dan 500
Meertalig Nee (alleen uitvoeren op primaire taal) Ja Ja (alleen van toepassing op meertalige stemmen)
SSML-ondersteuning Ondersteuning voor een subset van SSML-elementen. Ondersteuning voor een subset van SSML-elementen. Ondersteuning voor de volledige set SSML in Azure AI Speech.
Ontwikkelopties Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API
Implementatieopties Alleen cloud Alleen cloud Cloud, ingesloten, hybride en containers.
Realtime of batchsynthese Alleen realtime Realtime- en batchsynthese Realtime- en batchsynthese
Latentie Minder dan 300 ms Groter dan 500 ms Minder dan 300 ms
Samplefrequentie van gesynthetiseerde audio 8, 16, 24 en 48 kHz 8, 16, 24 en 48 kHz 8, 16, 24 en 48 kHz
Audio-indeling voor spraakuitvoer opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Ondersteunde Stemmen voor Azure AI Speech HD

De spraakwaarden van Azure AI Speech HD hebben de indeling voicename:basemodel:version. De naam vóór de dubbele punt, zoals en-US-Ava, is de naam van de spraakpersoon en de oorspronkelijke landinstelling. Het basismodel wordt bijgehouden door versies in volgende updates.

DragonHD Momenteel is dit het enige basismodel dat beschikbaar is voor Stemmen van Azure AI Speech HD. Gebruik de versie om ervoor te zorgen dat u de nieuwste versie van het basismodel gebruikt dat we bieden zonder dat u een LatestNeural codewijziging hoeft aan te brengen.

Voor de persona en-US-Ava kunt u bijvoorbeeld de volgende HD-spraakwaarden opgeven:

  • en-US-Ava:DragonHDLatestNeural: Gebruikt altijd de nieuwste versie van het basismodel dat we later leveren.

De volgende tabel bevat de Azure AI Speech HD-stemmen die momenteel beschikbaar zijn.

Neurale spraak persona HD-stemmen
de-DE-Seraphina de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2 en-US-Andrew2:DragonHDLatestNeural
en-US-Aria en-US-Aria:DragonHDLatestNeural
en-US-Ava en-US-Ava:DragonHDLatestNeural
en-US-Brian en-US-Brian:DragonHDLatestNeural
en-US-Davis en-US-Davis:DragonHDLatestNeural
en-US-Emma en-US-Emma:DragonHDLatestNeural
en-US-Emma2 en-US-Emma2:DragonHDLatestNeural
en-US-Jenny en-US-Jenny:DragonHDLatestNeural
en-US-Steffan en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Sourcechen zh-CN-Azure:DragonHDLatestNeural

Azure AI Speech HD-stemmen gebruiken

U kunt HD-stemmen gebruiken met dezelfde Speech SDK en REST API's als de niet-HD-stemmen.

Hier volgen enkele belangrijke punten die u moet overwegen bij het gebruik van Azure AI Speech HD-stemmen:

  • Landinstellingen voor spraak: de landinstelling in de naam van de stem geeft de oorspronkelijke taal en regio aan.
  • Basismodellen:
    • HD-stemmen worden geleverd met een basismodel dat de invoertekst begrijpt en het spreekpatroon dienovereenkomstig voorspelt. U kunt het gewenste model (zoals DragonHDLatestNeural) opgeven op basis van de beschikbaarheid van elke stem.
  • SSML-gebruik: als u wilt verwijzen naar een stem in SSML, gebruikt u de indeling voicename:basemodel:version. De naam vóór de dubbele punt, zoals de-DE-Seraphina, is de naam van de spraakpersoon en de oorspronkelijke landinstelling. Het basismodel wordt bijgehouden door versies in volgende updates.
  • Temperatuurparameter:
    • De temperatuurwaarde is een float variërend van 0 tot 1, wat invloed heeft op de willekeurigheid van de uitvoer. U kunt ook de temperatuurparameter aanpassen om de variatie van uitvoer te bepalen. Minder willekeurigheid levert stabielere resultaten op, terwijl meer willekeurigheid variatie biedt, maar minder consistentie.
    • Lagere temperatuur resulteert in minder willekeurigheid, wat leidt tot voorspelbarere uitvoer. Hogere temperatuur verhoogt de willekeurigheid, waardoor er meer uiteenlopende uitvoer mogelijk is. De standaardtemperatuur is ingesteld op 1,0.

Hier volgt een voorbeeld van het gebruik van Azure AI Speech HD-stemmen in SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Ondersteunde en niet-ondersteunde SSML-elementen voor Azure AI Speech HD-stemmen

De Speech Synthesis Markup Language (SSML) met invoertekst bepaalt de structuur, inhoud en andere kenmerken van de tekst naar spraakuitvoer. U kunt bijvoorbeeld SSML gebruiken om een alinea, een zin, een pauze of stilte te definiëren. U kunt tekst laten teruglopen met gebeurtenistags, zoals bladwijzer of viseme, die later door uw toepassing worden verwerkt.

De Stemmen van Azure AI Speech HD ondersteunen niet alle SSML-elementen of gebeurtenissen die door andere Azure AI Speech-stemmen worden ondersteund. Met name azure AI Speech HD-stemmen bieden geen ondersteuning voor woordgrensgebeurtenissen.

Raadpleeg de volgende tabel voor gedetailleerde informatie over de ondersteunde en niet-ondersteunde SSML-elementen voor Azure AI Speech HD-stemmen. Raadpleeg de SSML-documentatie (Speech Synthesis Markup Language) voor instructies over het gebruik van SSML-elementen.

SSML-element Beschrijving Ondersteund in Azure AI Speech HD-stemmen
<voice> Hiermee geeft u de stem en optionele effecten (eq_car en eq_telecomhp8k). Ja
<mstts:express-as> Hiermee geeft u spreekstijlen en -rollen op. Nee
<mstts:ttsembedding> Hiermee geeft u de speakerProfileId eigenschap voor een persoonlijke stem. Nee
<lang xml:lang> Hiermee geeft u de spreektaal op. Ja
<prosody> Hiermee past u de toonhoogte, contour, bereik, snelheid en volume aan. Nee
<emphasis> Hiermee wordt stress op woordniveau voor de tekst toegevoegd of verwijderd. Nee
<audio> Hiermee wordt vooraf opgenomen audio in een SSML-document ingesloten. Nee
<mstts:audioduration> Hiermee geeft u de duur van de uitvoeraudio. Nee
<mstts:backgroundaudio> Hiermee voegt u achtergrondaudio toe aan uw SSML-documenten of mengt u een audiobestand met tekst naar spraak. Nee
<phoneme> Hiermee geeft u de fonetische uitspraak in SSML-documenten op. Nee
<lexicon> Definieert hoe meerdere entiteiten worden gelezen in SSML. Ja (ondersteunt alleen alias)
<say-as> Geeft het inhoudstype, zoals getal of datum, van de tekst van het element aan. Ja
<sub> Geeft aan dat de tekstwaarde van het aliaskenmerk moet worden uitgesproken in plaats van de ingesloten tekst van het element. Ja
<math> Hiermee gebruikt u MathML als invoertekst om wiskundige notaties correct uit te spreken in de uitvoeraudio. Nee
<bookmark> Hiermee haalt u de offset van elke markering in de audiostream op. Nee
<break> Overschrijft het standaardgedrag van pauzes of pauzes tussen woorden. Nee
<mstts:silence> Hiermee wordt de pauze vóór of na tekst ingevoegd, of tussen twee aangrenzende zinnen. Nee
<mstts:viseme> Definieert de positie van het gezicht en de mond terwijl een persoon spreekt. Nee
<p> Geeft alinea's in SSML-documenten aan. Ja
<s> Geeft zinnen in SSML-documenten aan. Ja

Notitie

Hoewel een vorige sectie in deze handleiding ook Azure AI Speech HD-stemmen vergeleek met Stemmen van Azure OpenAI HD, zijn de SSML-elementen die worden ondersteund door Azure AI Speech niet van toepassing op Azure OpenAI-stemmen.