Résumé
Dans ce module, vous avez découvert deux aspects clés de la technologie vocale : la reconnaissance vocale et la synthèse vocale. La reconnaissance vocale implique la conversion de mots parlés en données, souvent transcrites en texte, à partir d’un modèle acoustique et d’un modèle de langage. Ce texte peut être utilisé pour divers objectifs, comme les sous-titres, les transcriptions, la dictée de note automatisée et le traitement d’entrée utilisateur. La synthèse vocale, d’autre part, concerne la vocalisation des données, généralement en convertissant du texte en parole. La synthèse vocale peut être utilisée pour générer des réponses vocales, créer des menus vocaux, lire des e-mails ou des textes à voix haute et diffuser des annonces. Vous avez également appris à connaître le service AI Speech de Microsoft Azure, qui fournit des capacités de reconnaissance et de synthèse vocales grâce à des API telles que Reconnaissance vocale et Synthèse vocale.
Les principaux points à retenir de ce module sont les fonctionnalités du service Azure AI Speech. L’API Reconnaissance vocale permet de transcrire en temps réel ou par lot de l’audio en texte, à partir d’un modèle basé sur le modèle de langage universel entraîné par Microsoft. Il peut être utilisé pour les transcriptions en temps réel pendant des présentations ou des démonstrations, ou pour les transcriptions par lot de fichiers audio stockés. L’API Synthèse vocale convertit l’entrée de texte en parole audible, qui peut être personnalisée avec différentes voix, langues et prononciations régionales.
Pour en savoir plus sur Azure AI Speech, consultez la documentation du service.