Qu’est-ce que la synthèse vocale OpenAI ?

2025-06-06

Comme les voix Azure AI Speech, les voix de synthèse vocale OpenAI offrent une synthèse vocale de haute qualité pour convertir un texte écrit en un son naturel. Cela ouvre un large éventail de possibilités d’expériences immersives et interactives pour l’utilisateur.

Les voix de synthèse vocale OpenAI sont disponibles via deux variantes de modèle : Neural et NeuralHD.

Neural : optimisé pour les cas d’utilisation en temps réel avec la latence la plus faible, mais de qualité inférieure à NeuralHD.
NeuralHD : optimisé pour la qualité.

Voix de synthèse vocale disponibles dans les services Azure AI

Vous pouvez demander : Si je souhaite utiliser un texte OpenAI pour la voix vocale, dois-je l’utiliser via Azure OpenAI dans azure AI Foundry Models ou via Azure AI Speech ? Quels scénarios peuvent me guider pour utiliser l’un ou l’autre ?

Chaque modèle vocal offre des caractéristiques et des capacités différentes, ce qui vous permet de choisir celui qui répond le mieux à vos besoins spécifiques. Vous souhaitez comprendre les options et les différences entre les voix de synthèse vocale disponibles dans les services Azure AI.

Vous pouvez choisir parmi les voix de synthèse vocale suivantes dans les services Azure AI :

Voix de synthèse vocale OpenAI dans Azure OpenAI. Disponible dans les régions suivantes : USA Centre Nord et Suède Centre.
Voix de synthèse vocale OpenAI dans Azure AI Speech. Disponible dans les régions suivantes : USA Centre Nord et Suède Centre.
Service Azure AI Speech de synthèse vocale. Disponible dans des dizaines de régions. Consultez la liste des régions.

Voix de synthèse vocale OpenAI via Azure OpenAI ou Azure AI Speech ?

Si vous souhaitez utiliser du texte OpenAI pour la synthèse vocale, vous pouvez choisir de les utiliser via Azure OpenAI ou par le biais d’Azure AI Speech. Vous pouvez consulter la Galerie vocale pour écouter des exemples de voix Azure OpenAI ou synthétiser la voix avec votre propre texte à l’aide de la Création de contenu audio. La sortie audio est identique dans les deux cas, avec seulement quelques différences de fonctionnalités entre les deux services. Pour plus d’informations, consultez le tableau ci-dessous.

Voici une comparaison des fonctionnalités entre les voix de synthèse vocale OpenAI dans Azure OpenAI et les voix de synthèse vocale OpenAI dans Azure AI Speech.

Fonctionnalité	Azure OpenAI (voix OpenAI)	Azure AI Speech (voix OpenAI)	Voix Azure AI Speech
Région	USA Centre Nord, Suède Centre	USA Centre Nord, Suède Centre	Disponible dans des dizaines de régions. Consultez la liste des régions.
Variété de voix	6	12	Plus de 500
Nombre de voix multilingues	6	12	49
Couverture linguistique multilingue maximale	57	57	77
Prise en charge du langage de balisage de synthèse vocale (SSML, Speech Synthesis Markup Language)	Non pris en charge	Prise en charge d’un sous-ensemble d’éléments SSML.	Prise en charge de l’ensemble complet de SSML dans Azure AI Speech.
Options de développement	API REST	SDK Speech, Interface CLI Speech, API REST	SDK Speech, Interface CLI Speech, API REST
Option de déploiement	Cloud uniquement	Cloud uniquement	Cloud, incorporé, hybride et conteneurs.
Synthèse en temps réel ou par lot	Temps réel	Temps réel	Synthèse en temps réel et par lot
Latence	supérieur à 500 ms	supérieur à 500 ms	inférieur à 300 ms
Échantillonnage de l’audio synthétisé	24 kHz	8, 16, 24 et 48 kHz	8, 16, 24 et 48 kHz
Format audio de sortie vocale	opus, mp3, aac, flocon	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Il existe d’autres fonctionnalités disponibles dans Azure AI Speech qui ne sont pas disponibles avec les voix OpenAI. Par exemple :

Les voix de synthèse vocale OpenAI dans Azure AI Speech prennent uniquement en charge un sous-ensemble d’éléments SSML. Les voix Azure AI Speech prennent en charge l’ensemble complet des éléments SSML.
Azure AI Speech prend en charge les événements de limite de mot. Les voix OpenAI ne prennent pas en charge les événements de limite de mot.

Voix de synthèse vocale OpenAI disponibles

Les voix OpenAI disponibles dans Azure OpenAI sont les suivantes :

alloy
echo
fable
onyx
nova
shimmer

Les voix OpenAI disponibles dans le service Azure AI Speech sont les suivantes :

en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD

Éléments SSML pris en charge par les voix de synthèse vocale OpenAI dans Azure AI Speech

Le langage SSML (Speech Synthesis Markup Language) avec texte d’entrée détermine la structure, le contenu et d’autres caractéristiques de la sortie de synthèse vocale. Par exemple, vous pouvez utiliser SSML pour définir un paragraphe, une phrase, une pause ou un silence. Vous pouvez entourer du texte à l’aide de balises d’événement, comme un signet ou un visème, qui peuvent être traitées ultérieurement par votre application.

Le tableau suivant présente les éléments du langage de balisage de la synthèse vocale (SSML) pris en charge par les voix de synthèse vocale OpenAI dans Azure AI speech. Seul le sous-ensemble suivant de balises SSML est pris en charge pour les voix OpenAI. Consultez Événements et structure de document SSML pour plus d’informations.

Nom de l’élément SSML	Descriptif
`<speak>`	Entoure l’ensemble du contenu à prononcer. C’est l’élément racine d’un document SSML.
`<voice>`	Spécifie la voix utilisée pour la sortie de synthèse vocale.
`<sub>`	Indique que la valeur de texte de l’attribut alias doit être prononcée au lieu du texte joint de l’élément.
`<say-as>`	Indique le type de contenu, par exemple un nombre ou une date, du texte de l’élément. Toutes les valeurs de propriété `interpret-as` sont prises en charge pour cet élément, sauf `interpret-as="name"`. Par exemple, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` est pris en charge, mais `<say-as interpret-as="name">ED</say-as>` ne l’est pas. Pour plus d’informations, consultez la prononciation avec SSML.
`<s>`	Indique les phrases.
`<lang>`	Indique les paramètres régionaux par défaut pour la langue dans laquelle la voix neuronale doit s’exprimer.
`<break>`	Utiliser pour remplacer le comportement par défaut des interruptions ou pauses entre les mots.

Partager via

Qu’est-ce que la synthèse vocale OpenAI ?

Voix de synthèse vocale disponibles dans les services Azure AI

Voix de synthèse vocale OpenAI via Azure OpenAI ou Azure AI Speech ?

Voix de synthèse vocale OpenAI disponibles

Éléments SSML pris en charge par les voix de synthèse vocale OpenAI dans Azure AI Speech

Contenu connexe

Commentaires

Ressources supplémentaires