Qu’est-ce que l’interface CLI Speech ?

Article
01/22/2024

L’interface Speech CLI est un outil en ligne de commande qui vous permet d’utiliser le service Speech sans avoir à écrire aucun code. Speech CLI nécessite une configuration minimale. Vous pouvez l’utiliser facilement pour expérimenter les principales fonctionnalités du service Speech et évaluer si ce service est adapté à vos cas d’usage. En quelques minutes, vous pouvez exécuter des workflows de test simples comme la reconnaissance vocale par lot à partir d’un répertoire de fichiers ou encore la conversion de texte par synthèse vocale sur une collection de chaînes à partir d’un fichier. Au-delà des workflows simples, l’interface Speech CLI peut être utilisée dans des scénarios de production, et vous pouvez l’adapter pour exécuter des processus plus volumineux à l’aide de .bat automatisés ou de scripts shell.

La plupart des fonctionnalités fournies dans le SDK Speech sont disponibles dans l’interface CLI Speech, et certaines fonctionnalités avancées et personnalisations sont simplifiées dans l’interface CLI Speech. Aidez-vous des conseils suivants pour savoir quand utiliser l’interface Speech CLI ou le SDK Speech.

Utilisez l’interface CLI Speech lorsque :

Vous souhaitez expérimenter les fonctionnalités du service Speech en utilisant une configuration minimale et sans avoir à écrire aucun code.
Vous avez des exigences relativement simples pour une application de production qui utilise le service Speech.

Utilisez le kit de développement logiciel (SDK) Speech lorsque :

Vous souhaitez intégrer le service Speech à une plateforme ou un langage spécifique (par exemple, C#, Python ou C++).
Vous avez des exigences complexes qui peuvent nécessiter des demandes de service avancées.
Vous développez un comportement personnalisé, notamment le streaming des réponses.

Fonctionnalités de base

Reconnaissance vocale : convertissez la parole en texte à partir de fichiers audio ou directement d’un microphone, ou transcrivez une conversation enregistrée.
Synthèse vocale : convertissez le texte en parole à partir d’entrées de fichiers texte ou d’entrées directement à partir de la ligne de commande. Personnalisez les caractéristiques de la sortie vocale en utilisant des configurations SSML (Speech Synthesis Markup Language).
Traduction vocale : traduisez de l’audio dans une langue source en texte ou audio dans une langue cible.
Exécuter sur des ressources de calcul Azure : envoyer des commandes Speech CLI à exécuter sur une ressource de calcul distante Azure en utilisant spx webjob.

Bien démarrer

Pour bien démarrer avec l’interface CLI Speech, consultez le guide de démarrage rapide. Cet article explique comment exécuter certaines commandes de base. Il décrit également des commandes légèrement plus avancées pour l’exécution d’opérations par lot pour la reconnaissance vocale et la synthèse vocale. Après avoir lu l’article sur les notions de base, vous aurez normalement une connaissance suffisante de la syntaxe pour commencer à écrire des commandes personnalisées ou automatiser des opérations simples du service Speech.

Qu’est-ce que l’interface CLI Speech ?

Fonctionnalités de base

Bien démarrer

Étapes suivantes

Ressources supplémentaires