Bien démarrer avec Speech dans Azure

Effectué

Microsoft Azure offre des fonctionnalités de reconnaissance vocale et de synthèse vocale via le service Azure AI Speech, qui prend en charge de nombreuses fonctionnalités, notamment :

  • Reconnaissance vocale
  • Synthèse vocale

Remarque

Ce module couvre la reconnaissance vocale et la synthèse vocale. Un module distinct couvre la traduction vocale dans Azure AI Services.

Reconnaissance vocale

Vous pouvez utiliser l’API de reconnaissance vocale Azure AI pour effectuer une transcription en temps réel ou par lots du contenu audio dans un format texte. La source audio pour la transcription peut être un flux audio en temps réel provenant d’un microphone ou un fichier audio.

Le modèle utilisé par l’API de reconnaissance vocale est basé sur le modèle de langage universel qui a été entraîné par Microsoft. Les données du modèle appartiennent à Microsoft et sont déployées sur Microsoft Azure. Le modèle est optimisé pour deux scénarios, conversation et dictée. Vous pouvez aussi créer et entraîner vos propres modèles personnalisés, notamment la sonorité, la langue et la prononciation, si les modèles prédéfinis de Microsoft ne fournissent pas ce dont vous avez besoin.

Transcription en temps réel : La reconnaissance vocale en temps réel vous permet de transcrire un flux audio en texte. Vous pouvez utiliser la transcription en temps réel pour des présentations, des démos ou tout autre scénario où une personne parle.

Pour que la transcription en temps réel fonctionne, votre application doit écouter le contenu audio entrant provenant d’un microphone ou une autre source d’entrée audio, comme un fichier audio. Votre code d’application diffuse le contenu audio sur le service, qui retourne le texte transcrit.

Transcription par lots : Les scénarios de reconnaissance vocale ne sont pas tous en temps réel. Vous pouvez avoir des enregistrements audio stockés sur un partage de fichiers, un serveur distant ou même sur Stockage Azure. Vous pouvez pointer vers des fichiers audio avec un URI de signature d’accès partagé (SAS) et recevoir de manière asynchrone les résultats de la transcription.

La transcription par lots doit être exécutée de manière asynchrone car les traitements par lots sont planifiés dans le meilleur des cas. Normalement, l’exécution d’un travail commence dans les minutes qui suivent la demande, mais il n’y a pas d’estimation du moment où son état passe à En cours d’exécution.

Synthèse vocale

L’API de synthèse vocale vous permet de convertir du texte en parole audible, qui peut être lu directement via un haut-parleur d’ordinateur ou écrit dans un fichier audio.

Voix de synthèse vocale : Lorsque vous utilisez l’API de synthèse vocale, vous pouvez spécifier la voix à utiliser pour lire le texte. Cette fonctionnalité vous offre la flexibilité de personnaliser votre solution de synthèse vocale et de lui donner un caractère qui lui est propre.

Le service comprend plusieurs voix prédéfinies avec prise en charge de plusieurs langues et prononciations régionales, y compris des voix neurales qui s’appuient sur des réseaux neuronaux afin de dépasser les limites habituelles de la synthèse vocale relatives à l’intonation, ce qui permet d’obtenir une voix au rendu plus naturel. Vous pouvez également développer des voix personnalisées et les utiliser avec l’API de synthèse vocale.

Langues prises en charge

Les API de synthèse vocale et de reconnaissance vocale prennent en charge plusieurs langues. Utilisez les liens ci-dessous pour connaître les langues prises en charge :