Partage via


Démarrage rapide : Bien démarrer avec l’interface CLI Azure AI Speech

Dans cet article, vous apprenez à utiliser l’interface CLI Azure AI Speech (également appelée SPX) pour accéder à des services Speech, tels que la reconnaissance vocale, la synthèse vocale et la traduction vocale, sans écrire de code. L’interface CLI Speech est pleinement utilisable en production et peut servir à automatiser des workflows simples dans le service Speech, à l’aide de scripts .bat ou shell.

Cet article suppose que vous avez une bonne connaissance pratique de l’invite de commandes, du terminal ou de PowerShell.

Notes

Dans PowerShell, le jeton d’analyse d’arrêt (--%) doit suivre spx. Par exemple, exécutez spx --% config @region pour afficher la valeur de configuration de la région actuelle.

Télécharger et installer

Procédez ainsi pour installer l’interface CLI Speech sur Windows :

  1. Installez Microsoft Redistributable Visual C++ pour Visual Studio 2019 pour votre plateforme. Son installation pour la première fois peut nécessiter un redémarrage.

  2. Installez .NET 6.

  3. Installez l’interface CLI Speech à l’aide de l’interface CLI .NET en entrant cette commande :

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Pour mettre à jour l’interface CLI Speech, entrez cette commande :

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Entrez spx ou spx help pour afficher l’aide de l’interface CLI Speech.

Limitations des polices

Sur Windows, l’interface CLI de Speech peut afficher uniquement les polices disponibles à l’invite de commandes sur l’ordinateur local. Le Terminal Windows prend en charge toutes les polices produites de manière interactive par l’interface CLI de Speech.

Si la sortie est effectuée dans un fichier, un éditeur de texte tel que le Bloc-notes ou un navigateur web tel que Microsoft Edge peut également afficher toutes les polices.

Créer une configuration de ressource

Pour commencer, vous avez besoin d’une clé de ressource vocale et d’un identificateur de région (par exemple, eastus, westus). Créez une ressource Speech dans le portail Azure. Pour plus d’informations, consultez Créer une ressource Azure AI services.

Exécutez les commandes suivantes pour configurer votre clé de ressource et l’identificateur de la région :

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

La clé et la région sont stockées pour les futures commandes de l’interface de commande Speech. Exécutez les commandes suivantes pour afficher la configuration actuelle :

spx config @key
spx config @region

Si nécessaire, incluez l’option clear permettant de supprimer une valeur stockée :

spx config @key --clear
spx config @region --clear

Utilisation de base

Important

Lorsque vous utilisez l’interface CLI Speech dans un conteneur, incluez l’option --host. Vous devez également spécifier --key none pour vous assurer que l’interface de ligne de commande n’essaie pas d’utiliser une clé Speech pour l’authentification. Par exemple, exécutez spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav pour reconnaître la voix d’un fichier audio dans un conteneur de reconnaissance vocale.

Cette section présente quelques commandes SPX de base qui sont souvent utiles pour les premiers tests et les premières expérimentations. Exécutez la commande suivante pour voir l’aide dans l’outil :

spx

Vous pouvez rechercher des rubriques d’aide par mot clé. Par exemple, exécutez la commande suivante pour afficher une liste d’exemples d’utilisation de l’interface de commande Speech :

spx help find --topics "examples"

Pour voir les options de la commande recognize, exécutez la commande suivante :

spx help recognize

D’autres commandes d’aide sont listées dans la sortie de la console. Vous pouvez entrer ces commandes pour obtenir une aide détaillée sur les sous-commandes.

Reconnaissance vocale

Notes

Vous ne pouvez pas utiliser le micro de votre ordinateur lorsque vous exécutez l’interface CLI de Speech dans un conteneur Docker. Toutefois, vous pouvez lire et enregistrer des fichiers audio dans votre répertoire monté local.

Exécutez cette commande pour convertir la parole en texte (reconnaissance vocale) à l’aide du microphone par défaut de votre système :

spx recognize --microphone

Après l’exécution de la commande, SPX commence à écouter l’audio sur le périphérique d’entrée actif actuel. Il cesse d’écouter quand vous sélectionnez Entrée. L’audio parlé est alors reconnu et converti en texte dans la sortie de la console.

Avec l’interface CLI Speech, vous pouvez aussi effectuer une reconnaissance vocale à partir d’un fichier audio. Exécutez la commande suivante :

spx recognize --file /path/to/file.wav

Conseil

N’oubliez pas que si vous êtes bloqué ou que vous souhaitez en savoir plus sur les options de reconnaissance de l’interface CLI Speech, vous pouvez exécuter spx help recognize.

Synthèse vocale

La commande suivante prend le texte en entrée et génère la synthèse vocale sur l’appareil de sortie actif (par exemple, les haut-parleurs de votre ordinateur).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Vous pouvez aussi enregistrer la sortie synthétisée dans un fichier. Dans cet exemple, nous allons créer un fichier nommé my-sample.wav dans le répertoire où vous exécutez la commande.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Ces exemples supposent que vous testez en anglais. Toutefois, le service Speech prend en charge la synthèse vocale dans de nombreuses langues. Vous pouvez extraire une liste complète des voix en exécutant la commande suivante ou en visitant la page de prise en charge des langues.

spx synthesize --voices

Voici une commande permettant d’utiliser l’une des voix que vous avez découvertes.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Conseil

N’oubliez pas que si vous êtes bloqué ou que vous souhaitez en savoir plus sur les options de reconnaissance de l’interface CLI Speech, vous pouvez exécuter spx help synthesize.

Traduction par reconnaissance vocale

Avec l’interface CLI Speech, vous pouvez aussi effectuer une traduction par reconnaissance vocale. Exécutez la commande suivante pour capturer le son à partir de votre microphone par défaut et générer la traduction sous forme de texte. Gardez à l’esprit que vous devez indiquer les langues source et target avec la commande translate.

spx translate --microphone --source en-US --target ru-RU

Lorsque vous effectuez une conversion en plusieurs langues, séparez les codes de langue par point-virgule (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

Si vous souhaitez enregistrer la sortie de votre traduction, utilisez l’indicateur --output. Dans cet exemple, vous lisez aussi à partir d’un fichier.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Conseil

N’oubliez pas que si vous êtes bloqué ou que vous souhaitez en savoir plus sur les options de reconnaissance de l’interface CLI Speech, vous pouvez exécuter spx help translate.

Étapes suivantes