Bien démarrer avec Speech dans Azure

Effectué

Microsoft Azure offre à la fois des fonctionnalités de reconnaissance vocale et de synthèse vocale par le service Azure AI Speech qui comprend les interfaces de programmation d’applications (API) suivantes :

  • L’API de reconnaissance vocale
  • L’API de synthèse vocale

Ressources Azure pour Azure AI Speech

Pour utiliser Azure AI Speech dans une application, vous devez créer une ressource appropriée dans votre abonnement Azure. Vous pouvez choisir de créer l’un des types de ressources suivants :

  • Une ressource Speech : choisissez ce type de ressource si vous prévoyez d’utiliser uniquement Azure AI Speech ou si vous souhaitez gérer l’accès et la facturation de la ressource indépendamment des autres services.
  • Une ressource Azure AI service : choisissez ce type de ressource si vous prévoyez d’utiliser Azure AI Speech en combinaison avec d’autres services Azure AI services et si vous souhaitez gérer conjointement l’accès et la facturation de ces services.

L’API de reconnaissance vocale

Vous pouvez utiliser l’API de reconnaissance vocale Azure AI pour effectuer une transcription en temps réel ou par lots du contenu audio dans un format texte. La source audio pour la transcription peut être un flux audio en temps réel provenant d’un microphone ou un fichier audio.

Le modèle utilisé par l’API de reconnaissance vocale est basé sur le modèle de langage universel qui a été entraîné par Microsoft. Les données du modèle appartiennent à Microsoft et sont déployées sur Microsoft Azure. Le modèle est optimisé pour deux scénarios, conversation et dictée. Vous pouvez également créer et entraîner vos propres modèles personnalisés, notamment l’acoustique, la langue et la prononciation, si les modèles prédéfinis de Microsoft ne fournissent pas ce dont vous avez besoin.

Transcription en temps réel

La reconnaissance vocale en temps réel vous permet de transcrire un flux audio en texte. Vous pouvez utiliser la transcription en temps réel pour des présentations, des démos ou tout autre scénario où une personne parle.

Pour que la transcription en temps réel fonctionne, votre application devra écouter le contenu audio entrant provenant d’un microphone ou une autre source d’entrée audio telle qu’un fichier audio. Votre code d’application diffuse le contenu audio sur le service, qui retourne le texte transcrit.

Transcription par lots

Les scénarios de reconnaissance vocale ne sont pas tous en temps réel. Vous pouvez avoir des enregistrements audio stockés sur un partage de fichiers, un serveur distant ou même sur Stockage Azure. Vous pouvez pointer vers des fichiers audio avec un URI de signature d’accès partagé (SAS) et recevoir de manière asynchrone les résultats de la transcription.

La transcription par lots doit être exécutée de manière asynchrone car les traitements par lots sont planifiés dans le meilleur des cas. Normalement, le traitement commence dans les minutes qui suivent la demande, mais il n’y a aucune estimation du moment où il passe au statut d’exécution.

L’API de synthèse vocale

L’API de synthèse vocale vous permet de convertir du texte en parole audible, qui peut être lu directement via un haut-parleur d’ordinateur ou écrit dans un fichier audio.

Voix de synthèse vocale

Lorsque vous utilisez l’API de synthèse vocale, vous pouvez spécifier la voix à utiliser pour lire le texte. Cette fonctionnalité vous offre la flexibilité de personnaliser votre solution de synthèse vocale et de lui donner un caractère qui lui est propre.

Le service comprend plusieurs voix prédéfinies avec prise en charge de plusieurs langues et prononciations régionales, y compris des voix neurales qui s’appuient sur des réseaux neuronaux afin de dépasser les limites habituelles de la synthèse vocale relatives à l’intonation, ce qui permet d’obtenir une voix au rendu plus naturel. Vous pouvez également développer des voix personnalisées et les utiliser avec l’API de synthèse vocale.

Langues prises en charge

Les API de synthèse vocale et de reconnaissance vocale prennent en charge plusieurs langues. Utilisez les liens ci-dessous pour connaître les langues prises en charge :