Choisissez une technologie de reconnaissance et de génération de la parole Azure AI

2025-06-21

Les services d’IA Azure aident les concepteurs et les développeurs de charges de travail à créer des applications intelligentes, de pointe, prêtes à être commercialisées et responsables avec des API et des modèles prêts à l’emploi, prédéfinis et personnalisables.

Cet article traite des services d’IA qui fournissent des fonctionnalités de reconnaissance et de génération de parole, telles que les conversions de parole en texte et de texte, la traduction audio et la reconnaissance du locuteur. Il comprend également un soutien à la lecture pour les personnes ayant des différences d’apprentissage.

Remarque

Pour collecter des informations sur des termes ou des phrases, ou obtenir une analyse contextuelle détaillée de la langue parlée ou écrite, consultez Choisissez une technologie de traitement du langage ciblé Azure AI.

Prestations

Les services d’IA suivants peuvent fournir des fonctionnalités de reconnaissance et de génération vocales pour votre charge de travail.

Microsoft Azure AI Speech fournit un traitement du langage naturel pour l’analyse de texte.
- Utiliser Parole : lorsque vous devez transcrire ou traduire un discours parlé et identifier les intervenants d’une conversation. Vous pouvez également utiliser Speech comme une alternative moins coûteuse pour la génération de paroles naturelles par rapport au système Whisper de meilleure qualité dans les modèles OpenAI.
- Ne pas utiliser Discours pour le chat, la synthèse de contenu, la modération ou le guidage des utilisateurs à travers des scripts. Utilisez plutôt d’autres modèles pour ces opérations.
Immersive Reader est un outil qui permet d’implémenter des techniques éprouvées pour améliorer la compréhension dans le cadre de l’apprentissage de la lecture, l’apprentissage d’une langue et pour les personnes avec des difficultés d’apprentissage.
- Utilisez Immersive Reader pour offrir une expérience de lisibilité améliorée adaptée aux apprenants d’une langue ou aux personnes ayant des différences d’apprentissage.
- Ne pas utiliser Lecteur immersif pour les cas d’utilisation traditionnels de la synthèse vocale.

Discours

Speech fournit des fonctionnalités de reconnaissance vocale et de synthèse vocale avec une ressource Speech. Vous pouvez transcrire la parole en texte avec une grande précision, produire des voix de synthèse vocale au son naturel, traduire l’audio parlé et utiliser la reconnaissance du locuteur pendant les conversations. Créez des voix personnalisées, ajoutez des mots spécifiques à votre vocabulaire de base ou créez vos propres modèles. Exécutez Speech n’importe où, que ce soit dans le cloud ou à la périphérie dans des conteneurs.

La reconnaissance vocale est disponible pour plusieurs langues et régions.

Fonctionnalités

Le tableau suivant fournit la liste des fonctionnalités disponibles dans Speech.

Capacité	Descriptif
Transcription par lot	Transcrit une grande quantité de données audio dans le stockage. L’API REST de reconnaissance vocale et l’interface de ligne de commande vocale prennent en charge la transcription par lots.
Reconnaissance de l’intention	Une intention est quelque chose que l’utilisateur veut faire, comme réserver un vol, vérifier la météo ou passer un appel. La reconnaissance d’intention permet à vos applications, outils et appareils de déterminer ce que l’utilisateur souhaite initier ou faire en fonction des options. Vous définissez l’intention de l’utilisateur dans le modèle de reconnaissance d’intention ou de compréhension du langage conversationnel.
Évaluation de la prononciation	Elle évalue la prononciation des entrées vocales et fournit des commentaires aux locuteurs sur la justesse et la fluidité des paroles prononcées.
Reconnaissance de l’orateur	La Reconnaissance de l’orateur est utilisée pour déterminer qui parle dans un clip audio. Le service vérifie et identifie les locuteurs grâce à leurs caractéristiques vocales uniques à l’aide de la biométrie vocale.
Reconnaissance vocale	Convertit les flux audio en texte en temps réel ou en traitement par lots.
Synthèse vocale	Permet à vos applications, outils ou appareils de convertir du texte en parole synthétisée semblable à celle d’un humain.
Traduction vocale	Fournit une traduction orthophonique et vocale multilingue de flux audio.
Traduction vidéo	Traduit et génère automatiquement des vidéos en plusieurs langues.

Cas d’utilisation

Le tableau suivant décrit certaines des façons dont vous pouvez utiliser la parole.

Cas d’usage	Capacité à utiliser	Descriptif
Création de contenu audio	Reconnaissance vocale	Rendez les interactions avec les chatbots et les assistants vocaux plus naturelles et attrayantes en utilisant des voix neuronales. Convertissez des textes numériques tels que des livres électroniques en livres audio et améliorez les systèmes de navigation embarqués.
Transcription de centre d’appel	Reconnaissance vocale	Transcrivez les appels en temps réel ou traitez un lot d’appels, caviardez les informations d’identification personnelle et extrayez des informations telles que le sentiment pour vous aider dans votre cas d’utilisation de centre d’appels.
Sous-titrage	Reconnaissance vocale	Synchronisez les sous-titres avec les entrées audio, appliquer des filtres de vulgarité, obtenir des résultats partiels, appliquer des personnalisations et identifier les langues parlées pour les scénarios multilingues.
Apprentissage d’une langue	Reconnaissance vocale	Fournir des commentaires d’évaluation de la prononciation aux apprenants de langue, prendre en charge la transcription en temps réel pour les conversations d’apprentissage à distance, et lire à voix haute des supports d’enseignement avec des voix neuronales.
Assistants vocaux	Synthèse vocale	Créez des interfaces conversationnelles naturelles et humaines pour les applications et les expériences. La fonctionnalité d’assistant vocal permet une interaction rapide et fiable entre un appareil et une implémentation d’assistant.

Lecteur Immersif

Le Lecteur immersif, qui fait partie des services d’IA, est un outil conçu de manière inclusive qui met en œuvre des techniques éprouvées pour améliorer la compréhension de la lecture pour les nouveaux lecteurs, les apprenants de langues et les personnes présentant des différences d’apprentissage telles que la dyslexie. Avec la bibliothèque cliente du Lecteur immersif, vous pouvez utiliser la même technologie que celle utilisée dans Microsoft Word et Microsoft OneNote pour offrir une expérience améliorée aux utilisateurs de votre charge de travail.

Fonctionnalités

Les fonctionnalités suivantes sont disponibles pour votre charge de travail afin d’aider les utilisateurs à atteindre leurs objectifs de compréhension écrite.

Isolez le contenu pour améliorer la lisibilité.
Affichez des images pour les mots et les termes courants.
Aidez à comprendre les parties du discours et la grammaire en mettant en évidence les verbes, les noms et les pronoms.
Lisez du contenu à haute voix, tel que du texte sélectionné par l’utilisateur dans l’interface utilisateur de votre charge de travail.
Traduisez le contenu dans de nombreuses langues en temps réel. Cette méthode permet d’améliorer la compréhension des lecteurs qui apprennent une nouvelle langue.
Décomposez les mots en syllabes pour améliorer la lisibilité ou pour prononcer de nouveaux mots.

Partager via

Choisissez une technologie de reconnaissance et de génération de la parole Azure AI

Prestations

Discours

Fonctionnalités

Cas d’utilisation

Lecteur Immersif

Fonctionnalités

Étapes suivantes

Ressources associées

Commentaires

Ressources supplémentaires