Qu’est-ce que la reconnaissance vocale ?
Dans cette vue d’ensemble, vous allez découvrir les avantages et les capacités de la fonctionnalité de reconnaissance vocale du service Speech, qui fait partie d’Azure Cognitive services. La reconnaissance vocale peut être utilisée en temps réel, la transcription par lots ou pour la transcription rapide de flux audio en texte.
Remarque
Pour comparer les tarifications en temps réel, transcription par lots et transcription rapide, consultez tarification du service Speech.
Pour obtenir la liste complète des langues de reconnaissance vocale disponibles, consultez l’article Prise en charge des langues et de la voix.
Reconnaissance vocale en temps réel
Avec la reconnaissance vocale en temps réel, l’audio est transcrit comme étant reconnu à partir d’un microphone ou d’un fichier. Utilisez la reconnaissance vocale en temps réel pour les applications qui doivent transcrire de l’audio en temps réel, par exemple :
- Transcriptions, légendes ou sous-titres pour les réunions en direct
- Diarisation
- Évaluation de la prononciation
- Les agents du centre d’appels vous assistent
- Dictation
- Agents vocaux
La reconnaissance vocale en temps réel est disponible via le Kit de développement logiciel (SDK) Speech et l’interface CLI Speech.
Transcription rapide (préversion)
L’API de transcription rapide permet de transcrire des fichiers audio avec des résultats renvoyés de manière synchronisé et beaucoup plus rapide que l’audio en temps réel. Utilisez la transcription rapide dans les scénarios où vous avez besoin de la transcription d’un enregistrement audio le plus rapidement possible avec une latence prévisible, par exemple :
- Transcription audio ou vidéo rapide, sous-titres et modification.
- Traduction vidéo
Remarque
L’API de transcription rapide est disponible uniquement via la reconnaissance vocale de l’API REST version 2024-05-15 et ultérieures.
Pour bien démarrer avec la transcription rapide, consultez utiliser l’API de transcription rapide (préversion).
API de transcription Batch
La transcription par lots est utilisée pour la transcription d’importants volumes de données audio stockées. Vous pouvez pointer vers des fichiers audio à l’aide d’un URI de signature d’accès partagé (SAP) et recevoir les résultats de la transcription de manière asynchrone. Utilisez la transcription par lots pour les applications qui doivent transcrire de l’audio en grande quantité, par exemple :
- Transcriptions, sous-titres ou légendes pour les sons préenregistrés
- Analyse post-appel du centre de contacts
- Diarisation
La transcription par lots est disponible via :
- API REST de reconnaissance vocale : pour commencer, consultez l’article Comment utiliser la transcription par lots et les exemples de transcription par lots (REST).
- L’interface CLI Speech prend en charge à la fois la transcription en temps réel et la transcription par lots. Pour obtenir de l’aide sur l’interface CLI Speech en lien avec les transcription par lots, exécutez la commande suivante :
spx help batch transcription
Reconnaissance vocale personnalisée
Avec vocal personnalisé, vous pouvez évaluer et améliorer l’exactitude de la reconnaissance vocale pour vos applications et produits. Un modèle vocal personnalisé peut être utilisé pour la reconnaissance vocale en temps réel, la traduction vocale et la transcription par lots.
Conseil
Un point de terminaison de déploiement hébergé n’est pas nécessaire pour utiliser Custom Speech avec l’API de transcription par lots. Vous pouvez conserver des ressources si le modèle vocal personnalisé est utilisé uniquement pour la transcription par lots. Pour plus d’informations, consultez les tarifs du service Speech.
Prête à l’emploi, la reconnaissance vocale utilise un modèle de langage universel comme modèle de base qui est entraîné avec des données appartenant à Microsoft et reflète la langue couramment parlée. Le modèle de base est préentraîné avec les dialectes et la phonétique représentant divers domaines communs. Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne bien dans la plupart des scénarios de reconnaissance vocale.
Il est possible d’utiliser un modèle personnalisé pour augmenter le modèle de base dans le but d’améliorer la reconnaissance du vocabulaire propre à un domaine spécifique à l’application. Pour cela, vous entraînez le modèle en lui fournissant des données de texte. Vous pouvez aussi vous en servir pour améliorer la reconnaissance en fonction des conditions audio spécifiques de l’application en fournissant des données audio avec des transcriptions de référence. Pour plus d’informations, consultez les articles Vocal personnalisé et API REST de reconnaissance vocale.
Les options de personnalisation varient selon la langue ou les paramètres régionaux. Pour vérifier la prise en charge, consultez Prise en charge des langues et de la voix pour le service Speech.
Intelligence artificielle responsable
Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.
- Note de transparence et cas d’usage
- Caractéristiques et limitations
- Intégration et utilisation responsable
- Données, confidentialité et sécurité
Étapes suivantes
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour