Qu’est-ce que la reconnaissance vocale ?

2025-06-25

Le service Azure AI Speech offre des capacités de la reconnaissance vocale avancées. Cette fonctionnalité prend en charge la transcription en temps réel et par lots, offrant des solutions polyvalentes pour convertir des flux audio en texte.

Fonctionnalités de base

Le service de la reconnaissance vocale offre les fonctionnalités principales suivantes :

Transcription en temps réel : transcription instantanée avec des résultats intermédiaires pour les entrées audio en direct.
Transcription rapide : sortie synchrone la plus rapide pour les situations avec une latence prévisible.
Transcription par lots : traitement efficace pour de grands volumes d’audio préenregistré.
Custom Speech : modèles avec une précision améliorée pour des domaines et des conditions spécifiques.

Reconnaissance vocale en temps réel

Reconnaissance vocale en temps réel transcrit l’audio tel qu’il est reconnu à partir d’un microphone ou d’un fichier. Elle est idéale pour les applications nécessitant une transcription immédiate, par exemple :

Transcriptions ou sous-titres pour les réunions en direct : transcription audio en temps réel à des fins d’accessibilité et de conservation des enregistrements.
Diarisation : identification et distinction entre différents orateurs dans l’audio.
Évaluation de la prononciation : évaluation et apport de commentaires sur la justesse de la prononciation.
Aide aux agents de centre d’appels : fourniture d’une transcription en temps réel pour aider les représentants du service clientèle.
Dictée : transcription des mots parlés en texte écrit à des fins de documentation.
Agents vocaux : activation des systèmes de réponse vocale interactive pour transcrire des commandes et requêtes utilisateur.

Reconnaissance vocale en temps réel est accessible via le kit SDK Speech, l’interface CLI Speech et l’API REST, autorisant l’intégration à différentes applications et flux de travail. La synthèse vocale en temps réel est disponible via Speech SDK, Speech CLI et Reconnaissance vocale REST API pour l'audio court.

Transcription rapide

L’API Transcription rapide permet de transcrire des fichiers audio avec retour des résultats de manière synchronisé et plus rapide que l’audio en temps réel. Utilisez la transcription rapide dans les scénarios où vous avez besoin de la transcription d’un enregistrement audio le plus rapidement possible avec une latence prévisible, par exemple :

Transcription et sous-titres audio ou vidéo rapides : obtenez rapidement une transcription d’une vidéo ou d’un fichier audio entier en une seule fois.
Traduction vidéo : obtenez immédiatement de nouveaux sous-titres pour une vidéo si vous avez de l’audio dans différentes langues.

Pour commencer avec la transcription rapide, consultez Utiliser l'API de transcription rapide.

API de transcription Batch

La transcription par lots est conçue pour transcrire de grandes quantités d’audio stockées dans des fichiers. Cette méthode traite l’audio de manière asynchrone et convient pour :

Transcriptions ou sous-titres pour l’audio préenregistré : conversion du contenu audio stocké en texte.
Analyse post-appel dans les centres de contact : analyse des appels enregistrés pour extraire des insights précieux.
Diarisation : différenciation entre les orateurs dans l’audio enregistré.

La transcription par lots est disponible via :

API REST de la reconnaissance vocale : facilite le traitement par lots avec la flexibilité des appels RESTful. Pour bien démarrer, consultez Guide pratique pour utiliser la transcription par lots et Exemples de transcription par lots.
Interface CLI Speech : prend en charge la transcription en temps réel et par lots, ce qui facilite la gestion des tâches de transcription. Pour obtenir de l’aide sur l’interface CLI Speech en lien avec les transcription par lots, exécutez la commande suivante :
```
spx help batch transcription
```

Reconnaissance vocale personnalisée

Avec vocal personnalisé, vous pouvez évaluer et améliorer l’exactitude de Custom Speech pour vos applications et produits. Un modèle vocal personnalisé peut être utilisé pour la reconnaissance vocale en temps réel, la traduction vocale et la transcription par lots.

Conseil

Un point de terminaison de déploiement hébergé n’est pas nécessaire pour utiliser la Custom Speech avec l’API de transcription par lots. Vous pouvez conserver des ressources si le modèle vocal personnalisé est utilisé uniquement pour la transcription par lots. Pour plus d’informations, consultez les tarifs du service Speech.

Prête à l’emploi, la reconnaissance vocale utilise un modèle de langage universel comme modèle de base qui est entraîné avec des données appartenant à Microsoft et reflète la langue couramment parlée. Le modèle de base est préentraîné avec les dialectes et la phonétique représentant divers domaines communs. Quand vous effectuez une requête de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne bien dans la plupart des scénarios de Custom Speech.

Custom Speech vous permet de personnaliser le modèle de Custom Speech pour mieux répondre aux besoins spécifiques de votre application. Cela peut être particulièrement utile pour :

Amélioration de la reconnaissance du vocabulaire propre au domaine : entraînez le modèle avec des données de texte pertinentes pour votre domaine.
Amélioration de la précision pour des conditions audio spécifiques : utilisez des données audio avec des transcriptions de référence pour ajuster le modèle.

Pour plus d’informations sur Custom Speech, consultez la vue d’ensemble de la reconnaissance vocale et la documentation de l’API REST de Custom Speech.

Pour plus d’informations sur les options de personnalisation par langue et paramètres régionaux, consultez la documentation sur la prise en charge de la langue et de la voix pour le service Speech.

Exemples d’utilisation

Voici quelques exemples pratiques illustrant comment vous pouvez utiliser Azure AI Speech :

Cas d’utilisation	Scénario	Solution
Transcriptions et sous-titres de réunion en direct	Une plateforme d’événements virtuels doit fournir des sous-titres en temps réel pour les webinaires.	Intégrez la reconnaissance vocale en temps réel à l’aide du kit SDK Speech pour transcrire du contenu parlé en sous-titres affichés en direct pendant l’événement.
Amélioration du service clientèle	Un centre d’appels souhaite aider les agents en fournissant des transcriptions en temps réel des appels des clients.	Utilisez la reconnaissance vocale en temps réel via l’interface CLI Speech pour transcrire les appels, permettant ainsi aux agents de mieux comprendre et mieux répondre aux requêtes des clients.
Sous-titrage de vidéo	Une plateforme d’hébergement de vidéos souhaite générer rapidement un ensemble de sous-titres pour une vidéo.	Utilisez la transcription rapide pour obtenir rapidement un ensemble de sous-titres pour toute la vidéo.
Outils pédagogiques	Une plateforme d’apprentissage électronique souhaite fournir des transcriptions pour des vidéos de cours.	Appliquez la transcription par lots par le biais de l’API REST de reconnaissance vocale pour traiter des vidéos de cours préenregistrées et générer des transcriptions de texte pour les étudiants.
Documentation médicale	Un professionnel de la santé doit documenter les consultations des patients.	Utilisez la reconnaissance vocale en temps réel pour la dictée, qui permet aux professionnels de la santé de dicter leurs notes et de les transcrire instantanément. Utilisez un modèle personnalisé pour améliorer la reconnaissance de termes médicaux spécifiques.
Médias et divertissement	Une société multimédia souhaite créer des sous-titres pour une grande archive de vidéos.	Utilisez la transcription par lots pour traiter les fichiers vidéo en bloc, et générer des sous-titres précis pour chaque vidéo.
Étude de marché	Une société d’étude de marché doit analyser les commentaires des clients à partir d’enregistrements audio.	Utilisez la transcription par lots pour convertir les commentaires audio en texte, ce qui facilite l’analyse et l’extraction des insights.

IA responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.

Bien démarrer avec la reconnaissance vocale
Créer une transcription par lots
Pour obtenir des informations de tarification détaillées, consultez la page de tarification du service Speech.

Partager via