Partage via


Qu’est-ce que la synthèse vocale OpenAI ?

Comme les voix Azure AI Speech, les voix de synthèse vocale OpenAI offrent une synthèse vocale de haute qualité pour convertir un texte écrit en un son naturel. Cela ouvre un large éventail de possibilités d’expériences immersives et interactives pour l’utilisateur.

Les voix de synthèse vocale OpenAI sont disponibles via deux variantes de modèle : Neural et NeuralHD.

  • Neural : optimisé pour les cas d’utilisation en temps réel avec la latence la plus faible, mais de qualité inférieure à NeuralHD.
  • NeuralHD : optimisé pour la qualité.

Voix de synthèse vocale disponibles dans les services Azure AI

Vous pouvez vous poser la question suivante : si je souhaite une synthèse vocale OpenAI, dois-je l’utiliser via Azure OpenAI Service ou Azure AI Speech ? Quels scénarios peuvent me guider pour utiliser l’un ou l’autre ?

Chaque modèle vocal offre des caractéristiques et des capacités différentes, ce qui vous permet de choisir celui qui répond le mieux à vos besoins spécifiques. Vous souhaitez comprendre les options et les différences entre les voix de synthèse vocale disponibles dans les services Azure AI.

Vous pouvez choisir parmi les voix de synthèse vocale suivantes dans les services Azure AI :

  • Voix de synthèse vocale OpenAI dans Azure OpenAI Service. Disponible dans les régions suivantes : USA Centre Nord et Suède Centre.
  • Voix de synthèse vocale OpenAI dans Azure AI Speech. Disponible dans les régions suivantes : USA Centre Nord et Suède Centre.
  • Service Azure AI Speech de synthèse vocale. Disponible dans des dizaines de régions. Consultez la liste des régions.

Synthèse vocale OpenAI via Azure OpenAI Service ou via Azure AI Speech ?

Si vous souhaitez utiliser du texte OpenAI pour la synthèse vocale, vous pouvez choisir de les utiliser via Azure OpenAI ou par le biais d’Azure AI Speech. Vous pouvez consulter la Galerie vocale pour écouter des exemples de voix Azure OpenAI ou synthétiser la voix avec votre propre texte à l’aide de la Création de contenu audio. La sortie audio est identique dans les deux cas, avec seulement quelques différences de fonctionnalités entre les deux services. Pour plus d’informations, consultez le tableau ci-dessous.

Voici une comparaison des caractéristiques des voix de synthèse vocale OpenAI dans Azure OpenAI Service et des voix de synthèse vocale OpenAI dans Azure AI Speech.

Fonctionnalité Azure OpenAI Service (voix OpenAI) Azure AI Speech (voix OpenAI) Voix Azure AI Speech
Région USA Centre Nord, Suède Centre USA Centre Nord, Suède Centre Disponible dans des dizaines de régions. Consultez la liste des régions.
Variété de voix 6 12 Plus de 500
Nombre de voix multilingues 6 12 49
Couverture linguistique multilingue maximale 57 57 77
Prise en charge du langage de balisage de synthèse vocale (SSML, Speech Synthesis Markup Language) Non pris en charge Prise en charge d’un sous-ensemble d’éléments SSML. Prise en charge de l’ensemble complet de SSML dans Azure AI Speech.
Options de développement API REST SDK Speech, Interface CLI Speech, API REST SDK Speech, Interface CLI Speech, API REST
Option de déploiement Cloud uniquement Cloud uniquement Cloud, incorporé, hybride et conteneurs.
Synthèse en temps réel ou par lot Temps réel Synthèse en temps réel et par lot Synthèse en temps réel et par lot
Latence supérieur à 500 ms supérieur à 500 ms inférieur à 300 ms
Échantillonnage de l’audio synthétisé 24 kHz 8, 16, 24 et 48 kHz 8, 16, 24 et 48 kHz
Format audio de sortie vocale opus, mp3, aac, flocon opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Il existe d’autres fonctionnalités disponibles dans Azure AI Speech qui ne sont pas disponibles avec les voix OpenAI. Par exemple :

Éléments SSML pris en charge par les voix de synthèse vocale OpenAI dans Azure AI Speech

Le langage SSML (Speech Synthesis Markup Language) avec texte d’entrée détermine la structure, le contenu et d’autres caractéristiques de la sortie de synthèse vocale. Par exemple, vous pouvez utiliser SSML pour définir un paragraphe, une phrase, une pause ou un silence. Vous pouvez entourer du texte à l’aide de balises d’événement, comme un signet ou un visème, qui peuvent être traitées ultérieurement par votre application.

Le tableau suivant présente les éléments du langage de balisage de la synthèse vocale (SSML) pris en charge par les voix de synthèse vocale OpenAI dans Azure AI speech. Seul le sous-ensemble suivant de balises SSML est pris en charge pour les voix OpenAI. Consultez Événements et structure de document SSML pour plus d’informations.

Nom de l’élément SSML Description
<speak> Entoure l’ensemble du contenu à prononcer. C’est l’élément racine d’un document SSML.
<voice> Spécifie la voix utilisée pour la sortie de synthèse vocale.
<sub> Indique que la valeur de texte de l’attribut alias doit être prononcée au lieu du texte joint de l’élément.
<say-as> Indique le type de contenu, par exemple un nombre ou une date, du texte de l’élément.

Toutes les valeurs de propriété interpret-as sont prises en charge pour cet élément, sauf interpret-as="name". Par exemple, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> est pris en charge, mais <say-as interpret-as="name">ED</say-as> ne l’est pas. Pour plus d’informations, consultez la prononciation avec SSML.
<s> Indique les phrases.
<lang> Indique les paramètres régionaux par défaut pour la langue dans laquelle la voix neuronale doit s’exprimer.
<break> Utiliser pour remplacer le comportement par défaut des interruptions ou pauses entre les mots.