Qu’est-ce que la synthèse vocale ?
Dans cette vue d’ensemble, vous allez découvrir les avantages et les capacités de la fonctionnalité de synthèse vocale du service Speech, qui fait partie d’Azure Cognitive Services.
La conversion de texte par synthèse vocale permet à vos applications, outils ou appareils de convertir du texte en discours humain synthétisé. La fonctionnalité de conversion de texte par synthèse vocale est également appelée « synthèse vocale ». Utilisez des voix neuronales prédéfinies humaines prêtes à l’emploi, ou créez une voix neuronale personnalisée propre à votre produit ou à votre marque. Pour obtenir la liste complète des voix, langues et paramètres régionaux pris en charge, consultez Prise en charge des langues et des voix pour le service Speech.
Fonctionnalités de base
La synthèse vocale comprend les fonctionnalités suivantes :
Fonctionnalité | Résumé | Démonstration |
---|---|---|
Voix neuronale prédéfinie (appelée Neuronal sur la page des tarifs) | Voix très naturelles prêtes à l’emploi. Créez un compte Azure et un abonnement au service Speech, puis utilisez le SDK Speech ou visitez le portail Speech Studio et sélectionnez les voix neuronales prédéfinies pour commencer. Consultez les détails des prix. | Passez en revue la Galerie de voix et déterminez la voix adaptée aux besoins de votre entreprise. |
Voix neuronale personnalisée (appelée Neuronal personnalisé dans la page des tarifs) | Libre-service facile à utiliser pour la création d’une voix de personnalisation naturelle, avec un accès limité pour une utilisation responsable. Créez un compte Azure et un abonnement au service Speech (avec le niveau S0) et demander à utiliser la fonctionnalité neuronale personnalisée. Une fois que vous êtes autorisé à y accéder, visitez le portail Speech Studio, puis sélectionnez Custom Voice pour commencer. Consultez les détails des prix. | Consultez les échantillons vocaux. |
En savoir plus sur les fonctionnalités de synthèse vocale
La fonctionnalité de synthèse vocale du service Speech sur Azure a été entièrement mise à niveau vers le moteur du système de synthèse vocale neuronale. Ce moteur utilise des réseaux neuronaux profonds pour rendre les voix des ordinateurs quasiment indistinctes des enregistrements des personnes. Avec l’articulation claire des mots, la synthèse vocale neuronale réduit considérablement la fatigue d’écoute quand les utilisateurs interagissent avec les systèmes d’IA.
Les modèles d’accent et d’intonation dans le langage parlé sont appelés prosodie. Les systèmes traditionnels de synthèse vocale décomposent les prosodies en analyse linguistique distincte et en étapes de prédiction acoustique régies par des modèles indépendants. Cela peut entraîner une synthèse vocale étouffée, atténuée.
Voici plus d’informations sur les fonctionnalités de synthèse vocale dans le service Speech, ainsi que sur la façon dont elles surmontent les limites des systèmes de synthèse vocale traditionnels :
Synthèse vocale en temps réel : utilisez le kit de développement logiciel (SDK) Speech ou l’API REST pour convertir du texte en parole à l’aide de voix neuronales prédéfinies ou de voix neuronales personnalisées.
Synthèse asynchrone d’audio long : utilisez l’API de synthèse par lots (préversion) pour obtenir une synthèse asynchrone de la synthèse vocale des fichiers de texte de plus de 10 minutes (par exemple, des livres audio ou des conférences). Contrairement à la synthèse effectuée via le kit de développement logiciel (SDK) Speech ou l’API REST de reconnaissance vocale, les réponses ne sont pas retournées en temps réel. Il est prévu que les demandes soient envoyées de façon asynchrone, que les réponses fassent l’objet d’une interrogation et que l’audio synthétisé soit téléchargé quand le service le met à disposition.
Voix neuronales prédéfinies : la fonctionnalité de synthèse vocale neuronale de Microsoft utilise les réseaux neuronaux profonds pour surmonter les limites de la synthèse vocale traditionnelle en termes d’accent tonique et d’intonation dans le langage parlé. La prédiction prosodique et la synthèse vocale se produisent simultanément, ce qui aboutit à un résultat plus fluide et plus naturel. Chaque modèle vocal neuronal prédéfini est disponible aux niveaux 24 kHz et 48 kHz haute fidélité. Vous pouvez utiliser des voix neuronales pour :
- Rendre les interactions avec les chatbots et les assistants vocaux plus naturelles et plus agréables.
- Convertir des textes numériques comme les livres électroniques en livres audio.
- Améliorer les systèmes de navigation embarqués.
Pour obtenir la liste complète des voix neuronales de plateforme, consultez Prise en charge des langues et des voix pour le service Speech.
Ajustez la sortie de synthèse vocale avec le langage SSML : SSML (Speech Synthesis Markup Language) est un langage de balisage basé sur XML qui est utilisé pour personnaliser les sorties de synthèse vocale. Avec SSML, vous pouvez ajuster la tonalité de la voix, ajouter des pauses, améliorer la prononciation, changer le débit de parole, ajuster le volume et attribuer plusieurs voix à un même document.
Vous pouvez utiliser SSML pour définir vos propres lexiques ou basculer vers des types de diction différents. Avec les voix multilingues, vous pouvez également ajuster les langues parlées par le biais de SSML. Pour affiner la sortie vocale de votre scénario, consultez Améliorer la synthèse avec le langage de balisage de synthèse vocale et Synthèse vocale à l’aide de l’outil Création de contenu audio.
Visèmes : Les visèmes sont les poses clés dans la parole observée, notamment la position des lèvres, de la mâchoire et de la langue lors de la production d’un phonème particulier. Les visèmes ont une corrélation forte avec les voix et les phonèmes.
À l’aide des événements de visème dans SDK Speech, vous pouvez générer des données d’animation faciale. Ces données peuvent être utilisées pour animer des visages dans la communication, l’enseignement, le divertissement et le service à la clientèle. Le visème est actuellement pris en charge uniquement pour les voix neuronales
en-US
(anglais des États-Unis).
Notes
Nous prévoyons de mettre hors service les voix traditionnelles/standard et la voix personnalisée non neuronale en 2024. Après cela, nous ne les prendrons plus en charge.
Si vos applications, outils ou produits utilisent l’une des voix standard et des voix personnalisées, vous devez migrer vers la version neuronale. Pour plus d’informations, consultez Migrer vers des voix neuronales.
Bien démarrer
Pour bien démarrer avec la synthèse vocale, consultez le démarrage rapide. La synthèse vocale est disponible via le kit de développement logiciel (SDK) Speech, l’API REST et l’interface CLI Speech.
Conseil
Pour convertir du texte par synthèse vocale avec une approche sans code, essayez l’outil Création de contenu audio dans Speech Studio.
Exemple de code
Vous trouverez un exemple de code pour la synthèse vocale sur GitHub. Ces exemples couvrent la conversion de texte par synthèse vocale dans les langages de programmation les plus populaires.
Voix neuronale personnalisée
En plus des voix neuronales prédéfinies, vous pouvez créer et affiner des voix neuronales personnalisées qui sont propres à votre produit ou à votre marque. Pour commencer, vous n’avez besoin que de quelques fichiers audio et des transcriptions associées. Pour plus d’informations, consultez Bien démarrer avec la voix neuronale personnalisée.
Remarque sur la tarification
Caractères facturables
Lorsque vous utilisez la fonctionnalité de synthèse vocale, vous êtes facturé pour chaque caractère converti en parole, y compris les signes de ponctuation. Même si le document SSML lui-même n’est pas facturable, les éléments facultatifs utilisés pour ajuster la façon dont le texte est converti en parole, tels que les phonèmes et la tonalité de la voix, sont comptabilisés comme caractères facturables. Voici une liste des éléments pouvant être facturés :
- Texte transmis à la fonctionnalité de synthèse vocale dans le corps SSML de la requête
- Tout balisage dans le champ de texte du corps de la demande au format SSML, à l’exception des balises
<speak>
et<voice>
- Lettres, ponctuation, espaces, tabulations, balisage et tous les caractères d’espace blanc
- Chaque point de code défini au format Unicode
Pour plus d’informations, consultez les tarifs du service Speech.
Important
Chaque caractère chinois compte pour deux caractères dans la facturation, notamment le kanji utilisé en japonais, le hanja utilisé en coréen ou le hanzi utilisé dans d’autres langues.
Temps d’entraînement et d’hébergement du modèle pour la voix neuronale personnalisée
L’entraînement et l’hébergement de la voix neuronale personnalisée sont calculés par heure et facturés par seconde. Pour connaître le prix de l’unité de facturation, consultez Tarifs du service Speech.
Le temps d’entraînement de la voix neuronale personnalisée (CNV) est mesuré par « heure de calcul » (unité pour mesurer le temps d’exécution de la machine). En règle générale, lors de l’entraînement d’un modèle vocal, deux tâches de calcul s’exécutent en parallèle. Ainsi, les heures de calcul calculées sont plus longues que le temps d’entraînement réel. En moyenne, l’entraînement d’une voix neuronale personnalisée Lite nécessite moins d’une heure de calcul, tandis que dans le cas d’une voix neuronale personnalisée Pro, il faut généralement 20 à 40 heures de calcul pour entraîner une voix monostyle et environ 90 heures de calcul pour entraîner une voix multistyle. Le temps d’entraînement d’une voix neuronale personnalisée est facturé avec un plafond de 96 heures de calcul. Ainsi, si un modèle vocal est entraîné en 98 heures de calcul, vous n’êtes facturé que 96 heures de calcul.
L’hébergement du point de terminaison CNV (voix neuronale personnalisée) est mesuré selon le temps réel (heure). Le temps d’hébergement (heures) de chaque point de terminaison est calculé à 00:00 UTC tous les jours pour les 24 heures précédentes. Par exemple, si le point de terminaison a été actif pendant 24 heures le premier jour, il est facturé pour 24 heures à 00:00 UTC le deuxième jour. Si le point de terminaison vient d’être créé ou a été suspendu pendant la journée, il est facturé pour son temps d’exécution cumulé jusqu’à 00:00 UTC le deuxième jour. Si le point de terminaison n’est pas hébergé, il n’est pas facturé. En plus du calcul quotidien à 00:00 UTC chaque jour, la facturation est également déclenchée immédiatement quand un point de terminaison est supprimé ou suspendu. Par exemple, pour un point de terminaison créé à 08:00 UTC le 1er décembre, le calcul de l’hébergement donne 16 heures à 00:00 UTC le 2 décembre et 24 heures à 00:00 UTC le 3 décembre. Si l’utilisateur suspend l’hébergement du point de terminaison à 16:30 UTC le 3 décembre, la durée (16.5 heures) allant de 00:00 à 16:30 UTC le 3 décembre est calculée pour la facturation.