Qu’est-ce que le service Speech ?

2025-06-05

Le service Speech fournit des capacités de reconnaissance vocale et de synthèse vocale avec une ressource Speech. Vous pouvez transcrire la parole en texte avec une grande précision, produire des voix de synthèse vocale à la tonalité naturelle, traduire du contenu audio parlé et utiliser la reconnaissance de l’orateur pendant les conversations.

Image des vignettes qui mettent en évidence certaines caractéristiques du service Speech.

Créez des voix personnalisées, ajoutez des mots spécifiques à votre vocabulaire de base ou créez vos propres modèles. Exécutez Speech n’importe où, dans le cloud ou en périphérie dans des conteneurs. Vous pouvez aisément activer vos applications, outils et appareils pour les services Speech avec l’interface CLI Speech, le SDK Speech et les API REST.

Speech est disponible dans diverses langues, régions et gammes de prix.

Scénarios de Custom Speech

Voici quelques scénarios courants de Custom Speech :

Sous-titrage : découvrez comment synchroniser les sous-titres avec le contenu audio en entrée, appliquer des filtres de vulgarité, obtenir des résultats partiels, appliquer des personnalisations et identifier les langues parlées pour les scénarios multilingues.
Création de contenu audio : vous pouvez utiliser des voix neuronales pour rendre les interactions avec les chatbots et les agents vocaux plus naturels et attrayants, convertir des textes numériques tels que des livres électroniques en livres audio et améliorer les systèmes de navigation en voiture.
Centre d’appels : transcrivez les appels en temps réel ou traitez les appels par lots, supprimez les informations d’identification personnelle et extrayez des insights comme le sentiment pour faciliter votre cas d’usage de centre d’appels.
Apprentissage de la langue : fournir des commentaires d’évaluation de la prononciation aux apprenants de langue, prendre en charge la transcription en temps réel pour les conversations d’apprentissage à distance, et lire à voix haute des supports d’enseignement avec des voix neuronales.
Voix en direct : créez des interfaces naturelles, humaines comme des interfaces conversationnelles pour les applications et les expériences. La fonctionnalité de voix en direct fournit une interaction rapide et fiable entre un humain et une implémentation d’agent.

Microsoft utilise Speech pour de nombreux scénarios, tels que le sous-titrage dans Teams, la dictée dans Office 365 et Lire à haute voix dans le navigateur Microsoft Edge.

Image montrant les logos des produits Microsoft où le service Speech est utilisé.

Capacités de Speech

Ces sections résument les fonctionnalités de Speech et proposent des liens pour plus d’informations.

Reconnaissance vocale

Utilisez la reconnaissance vocale pour transcrire l’audio en texte, en temps réel ou de manière asynchrone avec la transcription par lots.

Conseil

Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.

Convertissez du contenu audio en texte à partir de diverses sources, notamment les microphones, les fichiers audio et le stockage d’objets blob. Utilisez la diarisation de l’orateur pour déterminer qui a dit quoi et quand. Obtenez des transcriptions lisibles avec mise en forme et ponctuation automatiques.

Le modèle de base peut s’avérer insuffisant si l’audio contient des bruits ambiants ou de nombreux jargons spécifiques à un secteur ou à un domaine d’activité. Dans ce cas, vous pouvez créer et entraîner des modèles vocaux personnalisés avec des données acoustiques, linguistiques et de prononciation. Les modèles vocaux personnalisés sont privés et peuvent offrir un avantage concurrentiel.

La reconnaissance vocale en temps réel

Avec la reconnaissance vocale en temps réel, l’audio est transcrit comme étant reconnu à partir d’un microphone ou d’un fichier. Utilisez la reconnaissance vocale en temps réel pour les applications qui doivent transcrire de l’audio en temps réel, par exemple :

Transcriptions, légendes ou sous-titres pour les réunions en direct
Diarisation
Évaluation de la prononciation
Les agents du centre d’appels vous assistent
Dictation
Agents vocaux

API de transcription rapide

L’API de transcription rapide permet de transcrire des fichiers audio avec des résultats renvoyés de manière synchronisé et beaucoup plus rapide que l’audio en temps réel. Utilisez la transcription rapide dans les scénarios où vous avez besoin de la transcription d’un enregistrement audio le plus rapidement possible avec une latence prévisible, par exemple :

Transcription audio ou vidéo rapide, sous-titres et modification.
Traduction vidéo

Pour commencer avec la transcription rapide, consultez Utiliser l'API de transcription rapide.

Transcription Batch

La transcription par lots est utilisée pour la transcription d’importants volumes de données audio stockées. Vous pouvez pointer vers des fichiers audio à l’aide d’un URI de signature d’accès partagé (SAP) et recevoir les résultats de la transcription de manière asynchrone. Utilisez la transcription par lots pour les applications qui doivent transcrire de l’audio en grande quantité, par exemple :

Transcriptions, sous-titres ou légendes pour les sons préenregistrés
Analyse post-appel du centre de contacts
Diarisation

Synthèse vocale

Avec la synthèse vocale, vous pouvez convertir un texte en une synthèse vocale semblable à celle d’un être humain. Utilisez des voix neurales, qui sont des voix humaines alimentées par des réseaux neuronaux profonds. Utilisez le langage SSML (Speech Synthesis Markup Language) pour ajuster la tonalité, la prononciation, le débit de parole, le volume et bien plus encore.

Voix standard : Voix très naturelles, prêtes à l’emploi. Vérifiez les exemples vocaux standard de la galerie de voix et déterminez la voix appropriée pour vos besoins professionnels.
Voix personnalisée : outre les voix standard qui sortent de la boîte, vous pouvez également créer une voix personnalisée reconnaissable et unique à votre marque ou produit. Les voix personnalisées sont privées et peuvent offrir un avantage concurrentiel. Consultez les exemples vocaux personnalisés ici.

Traduction vocale

La traduction vocale permet à vos applications, outils et appareils d’effectuer de la traduction multilingue en temps réel de la parole. Utilisez cette fonctionnalité pour la traduction de voix en voix et de voix en texte.

Identification de la langue

L’identification de la langue sert à identifier les langues parlées dans du contenu audio par comparaison à la liste des langues prises en charge. Utilisez l’identification de langue seule, ou avec la reconnaissance vocale ou la traduction vocale.

Reconnaissance de l’orateur

La reconnaissance de l’orateur fournit des algorithmes qui vérifient et identifient les orateurs d’après leurs caractéristiques vocales uniques. Le service Reconnaissance de l’orateur est utilisé pour répondre à la question « qui parle ? ».

Évaluation de la prononciation

L’évaluation de la prononciation évalue la prononciation de la parole et fournit des indications aux orateurs sur la précision et la maîtrise du discours. Grâce à l’évaluation de la prononciation, les élèves qui apprennent des langues peuvent pratiquer, obtenir des commentaires instantanés et améliorer leur prononciation pour pouvoir parler et se présenter en toute confiance.

Reconnaissance de l’intention

Reconnaissance de l’intention : utilisez la reconnaissance vocale avec la compréhension du langage courant pour déduire les intentions de l’utilisateur à partir des transcriptions et agir sur des commandes vocales.

Livraison et présence

Vous pouvez déployer les fonctionnalités Azure AI Speech dans le cloud ou localement.

Avec des conteneurs, vous pouvez rapprocher le service de vos données pour favoriser la conformité, la sécurité ou pour d’autres raisons opérationnelles.

Le déploiement du service Speech dans les clouds souverains est possible pour certains organismes publics et leurs partenaires. Par exemple, le cloud Azure Government est disponible pour les organismes publics américains et leurs partenaires. Microsoft Azure géré par le cloud 21Vianet est accessible aux organisations ayant une présence commerciale en Chine. Pour plus d’informations, consultez Clouds souverains.

Diagramme montrant où le service Speech peut être déployé et accessible.

Utiliser Speech dans votre application

Le Speech Studio est un ensemble d’outils basés sur une interface utilisateur permettant de créer et d’intégrer des fonctionnalités du service Azure AI Speech dans vos applications. Vous créez des projets dans Speech Studio à l’aide d’une approche sans code, puis vous référencez les ressources que vous créez dans vos applications à l’aide du SDK Speech, de l’interface CLI Speech ou d’API REST.

L’interface CLI Speech est un outil en ligne de commande qui vous permet d’utiliser le service Speech sans avoir à écrire du code. La plupart des fonctionnalités fournies dans le SDK Speech sont disponibles dans l’interface CLI Speech, et certaines fonctionnalités avancées et personnalisations sont simplifiées dans l’interface CLI Speech.

Le kit SDK Speech expose les nombreuses capacités du service Speech dont vous pouvez vous servir pour développer des applications intégrant la reconnaissance vocale. Le kit de développement logiciel (SDK) Speech est disponible dans de nombreux langages de programmation et sur toutes les plateformes.

Dans certains cas, vous ne pouvez pas ou ne devez pas utiliser le kit SDK Speech. Dans ce cas, vous pouvez utiliser des API REST pour accéder au service Speech. Par exemple, vous pouvez utiliser des API REST pour la transcription par lots et des API REST pour la reconnaissance de l’orateur.

Bien démarrer

Nous proposons des guides de démarrage rapide pour de nombreux langages de programmation très répandus. Chaque guide de démarrage rapide est conçu pour vous montrer des modèles de conception de base et vous permettre d’exécuter du code en moins de 10 minutes. Consultez la liste suivante pour connaître le guide de démarrage rapide de chaque fonctionnalité :

Exemples de code

Un exemple de code pour le service Speech est disponible sur GitHub. Ces exemples couvrent des scénarios courants tels que la lecture du signal audio d’un fichier ou d’un flux, la reconnaissance continue et ponctuelle, et l’utilisation de modèles personnalisés. Pour voir les exemples SDK et REST, suivez ces liens :

IA responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.

Partager via

Qu’est-ce que le service Speech ?

Scénarios de Custom Speech

Capacités de Speech

Reconnaissance vocale

La reconnaissance vocale en temps réel

API de transcription rapide

Transcription Batch

Synthèse vocale

Traduction vocale

Identification de la langue

Reconnaissance de l’orateur

Évaluation de la prononciation

Reconnaissance de l’intention

Livraison et présence

Utiliser Speech dans votre application

Bien démarrer

Exemples de code

IA responsable

Reconnaissance vocale

Évaluation de la prononciation

Voix personnalisée

Reconnaissance de l’orateur

Étapes suivantes

Commentaires

Ressources supplémentaires