Wat zijn stemmen met hoge definities? (Preview)
Notitie
Deze functie is momenteel beschikbaar als openbare preview-versie. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.
Azure AI Speech gaat verder op het gebied van tekst-naar-spraaktechnologie met de introductie van spraak-high definition-stemmen (HD) voor neurale tekst. De HD-stemmen kunnen de inhoud begrijpen, emoties automatisch detecteren in de invoertekst en de spreektoon in realtime aanpassen aan het gevoel. HD-stemmen behouden een consistente spraakpersoonspersoon van hun neurale (en niet-HD)-tegenhangers en leveren nog meer waarde via verbeterde functies.
Belangrijke functies van neurale tekst naar spraak HD-stemmen
Hier volgen de belangrijkste functies van Azure AI Speech HD-stemmen:
Belangrijkste functies | Beschrijving |
---|---|
Generatie van menselijke spraak | Neurale tekst naar spraak HD-stemmen kunnen zeer natuurlijke en menselijke spraak genereren. Het model wordt getraind op miljoenen uren meertalige gegevens, zodat het invoertekst nauwkeurig kan interpreteren en spraak kan genereren met de juiste emotie, tempo en ritme zonder handmatige aanpassingen. |
Conversationele | Neurale tekst naar spraak HD-stemmen kunnen natuurlijke spraakpatronen repliceren, waaronder spontane pauzes en nadruk. Wanneer u gesprekstekst krijgt, kan het model algemene telefoontjes reproduceren, zoals pauzes en opvulwoorden. De gegenereerde stem klinkt alsof iemand rechtstreeks met u in contact komt. |
Prosodyvariaties | Neurale tekst naar spraak HD-stemmen introduceren lichte variaties in elke uitvoer om het realisme te verbeteren. Deze variaties maken het spraakgeluid natuurlijker, omdat menselijke stemmen natuurlijk variatie vertonen. |
Hoge kwaliteit | Het primaire doel van neurale tekst naar spraak HD-stemmen is het genereren van hoogwaardige audio. De synthetische spraak die door ons systeem wordt geproduceerd, kan menselijke spraak zowel kwaliteit als natuurlijk nabootsen. |
Versiebeheer | Met neurale tekst naar spraak HD-stemmen brengen we verschillende versies van dezelfde stem vrij, elk met een unieke basismodelgrootte en -recept. Dit biedt u de mogelijkheid om nieuwe stemvariaties te ervaren of een specifieke versie van een stem te blijven gebruiken. |
Vergelijking van Azure AI Speech HD-stemmen met andere Azure-tekst naar spraakstemmen
Hoe verhoudt Azure AI Speech HD-stemmen zich tot andere Azure-tekst en spraakstemmen? Hoe verschillen ze qua functies en mogelijkheden?
Hier volgt een vergelijking van functies tussen Azure AI Speech HD-stemmen, Azure OpenAI HD-stemmen en Azure AI Speech-stemmen:
Functie | Hd-stemmen voor Azure AI Speech | Azure OpenAI HD-stemmen | Azure AI Speech-stemmen (niet HD) |
---|---|---|---|
Regio | VS - oost, Azië - zuidoost, Europa - west | VS - noord-centraal, Zweden - centraal | Beschikbaar in tientallen regio's. Zie de regiolijst. |
Aantal stemmen | 12 | 6 | Meer dan 500 |
Meertalig | Nee (alleen uitvoeren op primaire taal) | Ja | Ja (alleen van toepassing op meertalige stemmen) |
SSML-ondersteuning | Ondersteuning voor een subset van SSML-elementen. | Ondersteuning voor een subset van SSML-elementen. | Ondersteuning voor de volledige set SSML in Azure AI Speech. |
Ontwikkelopties | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API |
Implementatieopties | Alleen cloud | Alleen cloud | Cloud, ingesloten, hybride en containers. |
Realtime of batchsynthese | Alleen realtime | Realtime- en batchsynthese | Realtime- en batchsynthese |
Latentie | Minder dan 300 ms | Groter dan 500 ms | Minder dan 300 ms |
Samplefrequentie van gesynthetiseerde audio | 8, 16, 24 en 48 kHz | 8, 16, 24 en 48 kHz | 8, 16, 24 en 48 kHz |
Audio-indeling voor spraakuitvoer | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Ondersteunde Stemmen voor Azure AI Speech HD
De spraakwaarden van Azure AI Speech HD hebben de indeling voicename:basemodel:version
. De naam vóór de dubbele punt, zoals en-US-Ava
, is de naam van de spraakpersoon en de oorspronkelijke landinstelling. Het basismodel wordt bijgehouden door versies in volgende updates.
DragonHD
Momenteel is dit het enige basismodel dat beschikbaar is voor Stemmen van Azure AI Speech HD. Gebruik de versie om ervoor te zorgen dat u de nieuwste versie van het basismodel gebruikt dat we bieden zonder dat u een LatestNeural
codewijziging hoeft aan te brengen.
Voor de persona en-US-Ava
kunt u bijvoorbeeld de volgende HD-spraakwaarden opgeven:
en-US-Ava:DragonHDLatestNeural
: Gebruikt altijd de nieuwste versie van het basismodel dat we later leveren.
De volgende tabel bevat de Azure AI Speech HD-stemmen die momenteel beschikbaar zijn.
Neurale spraak persona | HD-stemmen |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Sourcechen | zh-CN-Azure:DragonHDLatestNeural |
Azure AI Speech HD-stemmen gebruiken
U kunt HD-stemmen gebruiken met dezelfde Speech SDK en REST API's als de niet-HD-stemmen.
Hier volgen enkele belangrijke punten die u moet overwegen bij het gebruik van Azure AI Speech HD-stemmen:
- Landinstellingen voor spraak: de landinstelling in de naam van de stem geeft de oorspronkelijke taal en regio aan.
- Basismodellen:
- HD-stemmen worden geleverd met een basismodel dat de invoertekst begrijpt en het spreekpatroon dienovereenkomstig voorspelt. U kunt het gewenste model (zoals DragonHDLatestNeural) opgeven op basis van de beschikbaarheid van elke stem.
- SSML-gebruik: als u wilt verwijzen naar een stem in SSML, gebruikt u de indeling
voicename:basemodel:version
. De naam vóór de dubbele punt, zoalsde-DE-Seraphina
, is de naam van de spraakpersoon en de oorspronkelijke landinstelling. Het basismodel wordt bijgehouden door versies in volgende updates. - Temperatuurparameter:
- De temperatuurwaarde is een float variërend van 0 tot 1, wat invloed heeft op de willekeurigheid van de uitvoer. U kunt ook de temperatuurparameter aanpassen om de variatie van uitvoer te bepalen. Minder willekeurigheid levert stabielere resultaten op, terwijl meer willekeurigheid variatie biedt, maar minder consistentie.
- Lagere temperatuur resulteert in minder willekeurigheid, wat leidt tot voorspelbarere uitvoer. Hogere temperatuur verhoogt de willekeurigheid, waardoor er meer uiteenlopende uitvoer mogelijk is. De standaardtemperatuur is ingesteld op 1,0.
Hier volgt een voorbeeld van het gebruik van Azure AI Speech HD-stemmen in SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Ondersteunde en niet-ondersteunde SSML-elementen voor Azure AI Speech HD-stemmen
De Speech Synthesis Markup Language (SSML) met invoertekst bepaalt de structuur, inhoud en andere kenmerken van de tekst naar spraakuitvoer. U kunt bijvoorbeeld SSML gebruiken om een alinea, een zin, een pauze of stilte te definiëren. U kunt tekst laten teruglopen met gebeurtenistags, zoals bladwijzer of viseme, die later door uw toepassing worden verwerkt.
De Stemmen van Azure AI Speech HD ondersteunen niet alle SSML-elementen of gebeurtenissen die door andere Azure AI Speech-stemmen worden ondersteund. Met name azure AI Speech HD-stemmen bieden geen ondersteuning voor woordgrensgebeurtenissen.
Raadpleeg de volgende tabel voor gedetailleerde informatie over de ondersteunde en niet-ondersteunde SSML-elementen voor Azure AI Speech HD-stemmen. Raadpleeg de SSML-documentatie (Speech Synthesis Markup Language) voor instructies over het gebruik van SSML-elementen.
SSML-element | Beschrijving | Ondersteund in Azure AI Speech HD-stemmen |
---|---|---|
<voice> |
Hiermee geeft u de stem en optionele effecten (eq_car en eq_telecomhp8k ). |
Ja |
<mstts:express-as> |
Hiermee geeft u spreekstijlen en -rollen op. | Nee |
<mstts:ttsembedding> |
Hiermee geeft u de speakerProfileId eigenschap voor een persoonlijke stem. |
Nee |
<lang xml:lang> |
Hiermee geeft u de spreektaal op. | Ja |
<prosody> |
Hiermee past u de toonhoogte, contour, bereik, snelheid en volume aan. | Nee |
<emphasis> |
Hiermee wordt stress op woordniveau voor de tekst toegevoegd of verwijderd. | Nee |
<audio> |
Hiermee wordt vooraf opgenomen audio in een SSML-document ingesloten. | Nee |
<mstts:audioduration> |
Hiermee geeft u de duur van de uitvoeraudio. | Nee |
<mstts:backgroundaudio> |
Hiermee voegt u achtergrondaudio toe aan uw SSML-documenten of mengt u een audiobestand met tekst naar spraak. | Nee |
<phoneme> |
Hiermee geeft u de fonetische uitspraak in SSML-documenten op. | Nee |
<lexicon> |
Definieert hoe meerdere entiteiten worden gelezen in SSML. | Ja (ondersteunt alleen alias) |
<say-as> |
Geeft het inhoudstype, zoals getal of datum, van de tekst van het element aan. | Ja |
<sub> |
Geeft aan dat de tekstwaarde van het aliaskenmerk moet worden uitgesproken in plaats van de ingesloten tekst van het element. | Ja |
<math> |
Hiermee gebruikt u MathML als invoertekst om wiskundige notaties correct uit te spreken in de uitvoeraudio. | Nee |
<bookmark> |
Hiermee haalt u de offset van elke markering in de audiostream op. | Nee |
<break> |
Overschrijft het standaardgedrag van pauzes of pauzes tussen woorden. | Nee |
<mstts:silence> |
Hiermee wordt de pauze vóór of na tekst ingevoegd, of tussen twee aangrenzende zinnen. | Nee |
<mstts:viseme> |
Definieert de positie van het gezicht en de mond terwijl een persoon spreekt. | Nee |
<p> |
Geeft alinea's in SSML-documenten aan. | Ja |
<s> |
Geeft zinnen in SSML-documenten aan. | Ja |
Notitie
Hoewel een vorige sectie in deze handleiding ook Azure AI Speech HD-stemmen vergeleek met Stemmen van Azure OpenAI HD, zijn de SSML-elementen die worden ondersteund door Azure AI Speech niet van toepassing op Azure OpenAI-stemmen.