Événements
Créer des applications intelligentes
17 mars, 21 h - 21 mars, 10 h
Rejoignez la série de rencontres pour créer des solutions IA évolutives basées sur des cas d’usage réels avec d’autres développeurs et experts.
S’inscrire maintenantCe navigateur n’est plus pris en charge.
Effectuez une mise à niveau vers Microsoft Edge pour tirer parti des dernières fonctionnalités, des mises à jour de sécurité et du support technique.
Comme les voix Azure AI Speech, les voix de synthèse vocale OpenAI offrent une synthèse vocale de haute qualité pour convertir un texte écrit en un son naturel. Cela ouvre un large éventail de possibilités d’expériences immersives et interactives pour l’utilisateur.
Les voix de synthèse vocale OpenAI sont disponibles via deux variantes de modèle : Neural
et NeuralHD
.
Neural
: optimisé pour les cas d’utilisation en temps réel avec la latence la plus faible, mais de qualité inférieure à NeuralHD
.NeuralHD
: optimisé pour la qualité.Vous pouvez vous poser la question suivante : si je souhaite une synthèse vocale OpenAI, dois-je l’utiliser via Azure OpenAI Service ou Azure AI Speech ? Quels scénarios peuvent me guider pour utiliser l’un ou l’autre ?
Chaque modèle vocal offre des caractéristiques et des capacités différentes, ce qui vous permet de choisir celui qui répond le mieux à vos besoins spécifiques. Vous souhaitez comprendre les options et les différences entre les voix de synthèse vocale disponibles dans les services Azure AI.
Vous pouvez choisir parmi les voix de synthèse vocale suivantes dans les services Azure AI :
Si vous souhaitez utiliser du texte OpenAI pour la synthèse vocale, vous pouvez choisir de les utiliser via Azure OpenAI ou par le biais d’Azure AI Speech. Vous pouvez consulter la Galerie vocale pour écouter des exemples de voix Azure OpenAI ou synthétiser la voix avec votre propre texte à l’aide de la Création de contenu audio. La sortie audio est identique dans les deux cas, avec seulement quelques différences de fonctionnalités entre les deux services. Pour plus d’informations, consultez le tableau ci-dessous.
Voici une comparaison des caractéristiques des voix de synthèse vocale OpenAI dans Azure OpenAI Service et des voix de synthèse vocale OpenAI dans Azure AI Speech.
Fonctionnalité | Azure OpenAI Service (voix OpenAI) | Azure AI Speech (voix OpenAI) | Voix Azure AI Speech |
---|---|---|---|
Région | USA Centre Nord, Suède Centre | USA Centre Nord, Suède Centre | Disponible dans des dizaines de régions. Consultez la liste des régions. |
Variété de voix | 6 | 12 | Plus de 500 |
Nombre de voix multilingues | 6 | 12 | 49 |
Couverture linguistique multilingue maximale | 57 | 57 | 77 |
Prise en charge du langage de balisage de synthèse vocale (SSML, Speech Synthesis Markup Language) | Non pris en charge | Prise en charge d’un sous-ensemble d’éléments SSML. | Prise en charge de l’ensemble complet de SSML dans Azure AI Speech. |
Options de développement | API REST | SDK Speech, Interface CLI Speech, API REST | SDK Speech, Interface CLI Speech, API REST |
Option de déploiement | Cloud uniquement | Cloud uniquement | Cloud, incorporé, hybride et conteneurs. |
Synthèse en temps réel ou par lot | Temps réel | Synthèse en temps réel et par lot | Synthèse en temps réel et par lot |
Latence | supérieur à 500 ms | supérieur à 500 ms | inférieur à 300 ms |
Échantillonnage de l’audio synthétisé | 24 kHz | 8, 16, 24 et 48 kHz | 8, 16, 24 et 48 kHz |
Format audio de sortie vocale | opus, mp3, aac, flocon | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Il existe d’autres fonctionnalités disponibles dans Azure AI Speech qui ne sont pas disponibles avec les voix OpenAI. Par exemple :
Les voix OpenAI disponibles dans le service Azure OpenAI sont les suivantes :
alloy
echo
fable
onyx
nova
shimmer
Les voix OpenAI disponibles dans le service Azure AI Speech sont les suivantes :
en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD
Le langage SSML (Speech Synthesis Markup Language) avec texte d’entrée détermine la structure, le contenu et d’autres caractéristiques de la sortie de synthèse vocale. Par exemple, vous pouvez utiliser SSML pour définir un paragraphe, une phrase, une pause ou un silence. Vous pouvez entourer du texte à l’aide de balises d’événement, comme un signet ou un visème, qui peuvent être traitées ultérieurement par votre application.
Le tableau suivant présente les éléments du langage de balisage de la synthèse vocale (SSML) pris en charge par les voix de synthèse vocale OpenAI dans Azure AI speech. Seul le sous-ensemble suivant de balises SSML est pris en charge pour les voix OpenAI. Consultez Événements et structure de document SSML pour plus d’informations.
Nom de l’élément SSML | Description |
---|---|
<speak> |
Entoure l’ensemble du contenu à prononcer. C’est l’élément racine d’un document SSML. |
<voice> |
Spécifie la voix utilisée pour la sortie de synthèse vocale. |
<sub> |
Indique que la valeur de texte de l’attribut alias doit être prononcée au lieu du texte joint de l’élément. |
<say-as> |
Indique le type de contenu, par exemple un nombre ou une date, du texte de l’élément. Toutes les valeurs de propriété interpret-as sont prises en charge pour cet élément, sauf interpret-as="name" . Par exemple, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> est pris en charge, mais <say-as interpret-as="name">ED</say-as> ne l’est pas. Pour plus d’informations, consultez la prononciation avec SSML. |
<s> |
Indique les phrases. |
<lang> |
Indique les paramètres régionaux par défaut pour la langue dans laquelle la voix neuronale doit s’exprimer. |
<break> |
Utiliser pour remplacer le comportement par défaut des interruptions ou pauses entre les mots. |
Événements
Créer des applications intelligentes
17 mars, 21 h - 21 mars, 10 h
Rejoignez la série de rencontres pour créer des solutions IA évolutives basées sur des cas d’usage réels avec d’autres développeurs et experts.
S’inscrire maintenantEntrainement
Module
Créer votre première application de synthèse vocale Azure AI services - Training
Dans ce module, vous allez apprendre à utiliser Azure AI services pour créer une application de synthèse vocale.
Certification
Microsoft Certified : Principes de base de l’IA Azure - Certifications
Illustrer les concepts fondamentaux de l’IA liés au développement de logiciels et de services de Microsoft Azure pour créer des solutions IA.
Documentation
Que sont les voix neuronales HD de synthèse vocale ? - Azure AI services
Découvrez les voix neuronales HD de synthèse vocale que vous pouvez utiliser avec la synthèse vocale.
Vue d’ensemble de la synthèse vocale – service Speech - Azure AI services
Consultez une vue d’ensemble des avantages et des capacités de la fonctionnalité de synthèse vocale du service Speech.
La synthèse vocale du service Speech permet à vos applications, outils ou appareils de convertir du texte en parole naturelle synthétisée humaine.