Bien démarrer avec Speech dans Azure
Microsoft Azure offre des fonctionnalités de reconnaissance vocale et de synthèse vocale via le service Azure AI Speech, qui prend en charge de nombreuses fonctionnalités, notamment :
- Reconnaissance vocale
- Synthèse vocale
- Traduction vocale
Reconnaissance vocale
Vous pouvez utiliser l’API de reconnaissance vocale Azure AI pour effectuer une transcription en temps réel ou par lots du contenu audio dans un format texte. La source audio pour la transcription peut être un flux audio en temps réel provenant d’un microphone ou un fichier audio.
L’API Reconnaissance vocale d’Azure AI est basée sur le modèle de langage universel de Microsoft. Les données du modèle sont détenues par Microsoft et déployées sur Azure. Le modèle est optimisé pour deux scénarios, conversation et dictée. Vous pouvez également créer et entraîner vos propres modèles personnalisés, notamment l’acoustique, la langue et la prononciation si les modèles prédéfinis de Microsoft ne fournissent pas ce dont vous avez besoin.
Transcription en temps réel : la reconnaissance vocale en temps réel vous permet de transcrire des flux audio en texte. Vous pouvez utiliser la transcription en temps réel pour des présentations, des démos ou tout autre scénario où une personne parle.
Pour que la transcription en temps réel fonctionne, votre application doit écouter le contenu audio entrant provenant d’un microphone ou une autre source d’entrée audio, comme un fichier audio. Votre code d’application diffuse le contenu audio sur le service, qui retourne le texte transcrit.
Transcription par lots : Les scénarios de reconnaissance vocale ne sont pas tous en temps réel. Vous pouvez avoir des enregistrements audio stockés sur un partage de fichiers, un serveur distant ou même sur Stockage Azure. Vous pouvez pointer vers des fichiers audio avec un URI de signature d’accès partagé (SAS) et recevoir de manière asynchrone les résultats de la transcription.
La transcription par lots doit être exécutée de manière asynchrone car les traitements par lots sont planifiés dans le meilleur des cas. Normalement, l’exécution d’un travail commence dans les minutes qui suivent la demande, mais il n’y a pas d’estimation du moment où son état passe à En cours d’exécution.
Synthèse vocale
L’API de synthèse vocale vous permet de convertir du texte en parole audible, qui peut être lu directement via un haut-parleur d’ordinateur ou écrit dans un fichier audio.
Voix de synthèse vocale : Lorsque vous utilisez l’API de synthèse vocale, vous pouvez spécifier la voix à utiliser pour lire le texte. Cette fonctionnalité vous offre la flexibilité de personnaliser votre solution de synthèse vocale et de lui donner un caractère qui lui est propre.
Le service comprend plusieurs voix prédéfinies avec prise en charge de plusieurs langues et prononciation régionale, y compris les voix neuronales qui tirent parti des réseaux neuronaux pour surmonter les limitations courantes de la synthèse vocale en ce qui concerne l’intonation, ce qui entraîne une voix sonore plus naturelle. Vous pouvez également développer des voix personnalisées et les utiliser avec l’API de synthèse vocale.
Traduction vocale
La traduction vocale Azure est une fonctionnalité du service Azure AI Speech. La traduction vocale Azure permet la traduction en temps réel de la langue parlée en prenant des entrées de flux audio et en retournant du texte dans une langue spécifiée. Il fonctionne d’abord en convertissant la parole en texte à l’aide de la reconnaissance vocale automatique (ASR), puis en convertissant le texte reconnu en une ou plusieurs langues cibles à l’aide de la traduction automatique. Le service prend en charge un large éventail de langues sources et cibles et peut fournir des traductions en tant que texte ou synthèse vocale. Les développeurs peuvent intégrer cette fonctionnalité dans des applications à l’aide d’API REST ou de kits sdk. Ces applications fonctionnent bien dans des scénarios tels que les réunions multilingues, le sous-titrage d’événements en direct ou le support technique mondial.