Qu’est-ce que la synthèse vocale ?

Article
01/22/2024

Dans cette vue d’ensemble, vous allez découvrir les avantages et les capacités de la fonctionnalité de synthèse vocale du service Speech, qui fait partie d’Azure AI services.

La conversion de texte par synthèse vocale permet à vos applications, outils ou appareils de convertir du texte en discours humain synthétisé. La fonctionnalité de conversion de texte par synthèse vocale est également appelée « synthèse vocale ». Utilisez des voix neuronales prédéfinies humaines prêtes à l’emploi, ou créez une voix neuronale personnalisée propre à votre produit ou à votre marque. Pour obtenir la liste complète des voix, langues et paramètres régionaux pris en charge, consultez Prise en charge des langues et des voix pour le service Speech.

Fonctionnalités de base

La synthèse vocale comprend les fonctionnalités suivantes :

Fonctionnalité	Résumé	Démonstration
Voix neuronale prédéfinie (appelée Neuronal sur la page des tarifs)	Voix très naturelles prêtes à l’emploi. Créez un compte Azure et un abonnement au service Speech, puis utilisez le SDK Speech ou visitez le portail Speech Studio et sélectionnez les voix neuronales prédéfinies pour commencer. Consultez les détails des prix.	Passez en revue la Galerie de voix et déterminez la voix adaptée à vos besoins métier.
Voix neuronale personnalisée (appelée Neuronal personnalisé sur la page des tarifs)	Libre-service facile à utiliser pour la création d’une voix de personnalisation naturelle, avec un accès limité pour une utilisation responsable. Créez un compte Azure et un abonnement au service Speech (avec le niveau S0) et demander à utiliser la fonctionnalité neuronale personnalisée. Une fois que vous êtes autorisé à y accéder, visitez le portail Speech Studio, puis sélectionnez Custom Voice pour commencer. Consultez les détails des prix.	Consultez les échantillons vocaux.

En savoir plus sur les fonctionnalités de synthèse vocale

La conversion de texte par synthèse vocale utilise des réseaux neuronaux profonds pour rendre les voix des ordinateurs quasiment indistinctes des enregistrements des personnes. Avec l’articulation claire des mots, la synthèse vocale neuronale réduit considérablement la fatigue d’écoute quand les utilisateurs interagissent avec les systèmes d’IA.

Les modèles d’accent et d’intonation dans le langage parlé sont appelés prosodie. Les systèmes traditionnels de conversion de texte par synthèse vocale décomposent les prosodies en analyse linguistique distincte et en étapes de prédiction acoustique régies par des modèles indépendants. Cela peut entraîner une synthèse vocale étouffée, atténuée.

Voici plus d’informations sur les fonctionnalités de synthèse vocale dans le service Speech, ainsi que sur la façon dont elles surmontent les limites des systèmes de synthèse vocale traditionnels :

Synthèse vocale en temps réel : utilisez le kit de développement logiciel (SDK) Speech ou l’API REST pour convertir du texte en parole à l’aide de voix neuronales prédéfinies ou de voix neuronales personnalisées.
Synthèse asynchrone d’audio long : utilisez l’API de synthèse par lots (préversion) pour obtenir une synthèse asynchrone de la synthèse vocale des fichiers de texte de plus de 10 minutes (par exemple, des livres audio ou des conférences). Contrairement à la synthèse effectuée via le kit de développement logiciel (SDK) Speech ou l’API REST de reconnaissance vocale, les réponses ne sont pas retournées en temps réel. Il est prévu que les demandes soient envoyées de façon asynchrone, que les réponses fassent l’objet d’une interrogation et que l’audio synthétisé soit téléchargé quand le service le met à disposition.
Voix neuronales prédéfinies : la fonctionnalité de conversion de texte par synthèse vocale neuronale de Microsoft utilise les réseaux neuronaux profonds pour surmonter les limites de la synthèse vocale traditionnelle en termes d’accent tonique et d’intonation dans le langage parlé. La prédiction prosodique et la synthèse vocale se produisent simultanément, ce qui aboutit à un résultat plus fluide et plus naturel. Chaque modèle vocal neural prédéfini est disponible à 24 kHz et à haute fidélité 48 kHz. Vous pouvez utiliser des voix neuronales pour :
- Rendre les interactions avec les chatbots et les assistants vocaux plus naturelles et plus agréables.
- Convertir des textes numériques comme les livres électroniques en livres audio.
- Améliorer les systèmes de navigation embarqués.
Pour obtenir la liste complète des voix neuronales de plateforme, consultez Prise en charge des langues et des voix pour le service Speech.
Ajustez la sortie de conversion de texte par synthèse vocale avec SSML : Speech Synthesis Markup Language (SSML) est un langage de balisage basé sur XML utilisé pour personnaliser les sorties de la conversion de texte par synthèse vocale. Avec SSML, vous pouvez ajuster la tonalité de la voix, ajouter des pauses, améliorer la prononciation, changer le débit de parole, ajuster le volume et attribuer plusieurs voix à un même document.

Vous pouvez utiliser SSML pour définir vos propres lexiques ou basculer vers des types de diction différents. Avec les voix multilingues, vous pouvez également ajuster les langues parlées par le biais de SSML. Pour affiner la sortie vocale de votre scénario, consultez Améliorer la synthèse avec le langage de balisage de synthèse vocale et Synthèse vocale à l’aide de l’outil Création de contenu audio.
Visèmes : Les visèmes sont les poses clés dans la parole observée, notamment la position des lèvres, de la mâchoire et de la langue lors de la production d’un phonème particulier. Les visèmes ont une corrélation forte avec les voix et les phonèmes.

À l’aide des événements de visème dans SDK Speech, vous pouvez générer des données d’animation faciale. Ces données peuvent être utilisées pour animer des visages dans la communication, l’enseignement, le divertissement et le service à la clientèle. Le visème est actuellement pris en charge uniquement pour les voix neuronalesen-US (anglais des États-Unis).

Notes

Nous prévoyons de mettre hors service les voix traditionnelles/standard et la voix personnalisée non neuronale en 2024. Après cela, nous ne les prendrons plus en charge.

Si vos applications, outils ou produits utilisent l’une des voix standard et des voix personnalisées, vous devez migrer vers la version neuronale. Pour plus d’informations, consultez Migrer vers des voix neuronales.

Bien démarrer

Pour bien démarrer avec la synthèse vocale, consultez le démarrage rapide. La synthèse vocale est disponible via le kit de développement logiciel (SDK) Speech, l’API REST et l’interface CLI Speech.

Conseil

Pour convertir du texte par synthèse vocale avec une approche sans code, essayez l’outil Création de contenu audio dans Speech Studio.

Exemple de code

Vous trouverez un exemple de code pour la synthèse vocale sur GitHub. Ces exemples couvrent la conversion de texte par synthèse vocale dans les langages de programmation les plus populaires.

Voix neuronale personnalisée

En plus des voix neuronales prédéfinies, vous pouvez créer et affiner des voix neuronales personnalisées qui sont propres à votre produit ou à votre marque. Pour commencer, vous n’avez besoin que de quelques fichiers audio et des transcriptions associées. Pour plus d’informations, consultez Bien démarrer avec la voix neuronale personnalisée.

Remarque sur la tarification

Caractères facturables

Lorsque vous utilisez la fonctionnalité de synthèse vocale, vous êtes facturé pour chaque caractère converti en parole, y compris les signes de ponctuation. Même si le document SSML lui-même n’est pas facturable, les éléments facultatifs utilisés pour ajuster la façon dont le texte est converti en parole, tels que les phonèmes et la tonalité de la voix, sont comptabilisés comme caractères facturables. Voici une liste des éléments pouvant être facturés :

Texte transmis à la fonctionnalité de synthèse vocale dans le corps SSML de la requête
Tout balisage dans le champ de texte du corps de la demande au format SSML, à l’exception des balises <speak> et <voice>
Lettres, ponctuation, espaces, tabulations, balisage et tous les caractères d’espace blanc
Chaque point de code défini au format Unicode

Pour plus d’informations, consultez les tarifs du service Speech.

Important

Chaque caractère chinois compte pour deux caractères dans la facturation, notamment le kanji utilisé en japonais, le hanja utilisé en coréen ou le hanzi utilisé dans d’autres langues.

Temps d’apprentissage et d’hébergement du modèle pour la voix neuronale personnalisée

L’entraînement et l’hébergement de la voix neuronale personnalisée sont calculés par heure et facturés par seconde. Pour connaître le prix de l’unité de facturation, consultez Tarifs du service Speech.

Le temps d’apprentissage de la voix neuronale personnalisée (CNV) est mesuré par « heure de calcul » (unité pour mesurer le temps d’exécution de la machine). En règle générale, lors de l’entraînement d’un modèle vocal, deux tâches de calcul s’exécutent en parallèle. Ainsi, les heures de calcul calculées sont plus longues que le temps d’entraînement réel. En moyenne, l’entraînement d’une voix neuronale personnalisée Lite nécessite moins d’une heure de calcul, tandis que dans le cas d’une voix neuronale personnalisée Pro, il faut généralement 20 à 40 heures de calcul pour entraîner une voix monostyle et environ 90 heures de calcul pour entraîner une voix multistyle. Le temps d’entraînement d’une voix neuronale personnalisée est facturé avec un plafond de 96 heures de calcul. Ainsi, si un modèle vocal est entraîné en 98 heures de calcul, vous n’êtes facturé que 96 heures de calcul.

L’hébergement du point de terminaison CNV (voix neuronale personnalisée) est mesuré selon le temps réel (heure). Le temps d’hébergement (heures) de chaque point de terminaison est calculé à 00:00 UTC tous les jours pour les 24 heures précédentes. Par exemple, si le point de terminaison a été actif pendant 24 heures le premier jour, il est facturé pour 24 heures à 00:00 UTC le deuxième jour. Si le point de terminaison vient d’être créé ou a été suspendu pendant la journée, il est facturé pour son temps d’exécution cumulé jusqu’à 00:00 UTC le deuxième jour. Si le point de terminaison n’est actuellement pas hébergé, il n’est pas facturé. En plus du calcul quotidien à 00:00 UTC chaque jour, la facturation est également déclenchée immédiatement quand un point de terminaison est supprimé ou suspendu. Par exemple, pour un point de terminaison créé à 08:00 UTC le 1er décembre, le calcul de l’hébergement donne 16 heures à 00:00 UTC le 2 décembre et 24 heures à 00:00 UTC le 3 décembre. Si l’utilisateur suspend l’hébergement du point de terminaison à 16:30 UTC le 3 décembre, la durée (16.5 heures) allant de 00:00 à 16:30 UTC le 3 décembre est calculée pour la facturation.

Documents de référence

IA responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.