Qu’est-ce que Speech Studio ?

Article
01/22/2024

Speech Studio est un ensemble d’outils basés sur une interface utilisateur permettant de créer et d’intégrer des fonctionnalités du service Azure AI Speech dans vos applications. Vous créez des projets dans Speech Studio à l’aide d’une approche sans code, puis vous référencez les ressources que vous créez dans vos applications à l’aide du SDK Speech, de l’interface CLI Speech ou d’API REST.

Conseil

Vous pouvez essayer la reconnaissance vocale et la synthèse vocale dans Speech Studio sans vous inscrire ni écrire de code.

Scénarios Speech Studio

Explorez, essayez et consultez un exemple de code pour certains cas d’usage courants.

Sous-titrage : Choisissez un exemple de clip vidéo pour voir les résultats de sous-titrage traités en temps réel ou hors connexion. Découvrez comment synchroniser les sous-titres avec les entrées audio, appliquer des filtres de vulgarité, obtenir des résultats partiels, appliquer des personnalisations et identifier les langues parlées pour les scénarios multilingues. Pour plus d’informations, consultez le guide de démarrage rapide sur le sous-titrage.
Centre d’appels : Regardez une démonstration sur l’utilisation des services Language et Speech visant à analyser les conversations d’un centre d’appels. Transcrivez les appels en temps réel ou traitez-les par lots, supprimez les informations d’identification personnelle et extrayez des insights comme le sentiment pour faciliter votre cas d’usage de centre d’appels. Pour plus d’informations, consultez le guide de démarrage rapide sur les centres d’appels.

Pour une démonstration de ces scénarios dans Speech Studio, regardez cette vidéo d’introduction.

Fonctionnalités de Speech Studio

Dans Speech Studio, les fonctionnalités suivantes du service Speech sont disponibles sous forme de types de projet :

Reconnaissance vocale en temps réel : testez rapidement la reconnaissance vocale en déplaçant des fichiers audio ici sans utiliser de code. Speech Studio est doté d’un outil de démonstration permettant de voir le fonctionnement de la reconnaissance vocale sur vos échantillons audio. Pour découvrir la totalité de la fonctionnalité, consultez Qu’est-ce que la reconnaissance vocale.
Traitement par lot de la reconnaissance vocale : Testez rapidement les fonctionnalités de transcription par lots pour transcrire une grande quantité d’audio dans le stockage et recevoir des résultats de manière asynchrone. Pour en savoir plus sur la reconnaissance vocale par lots, consultez Vue d’ensemble de la reconnaissance vocale par lot.
Vocal personnalisé : créez des modèles de reconnaissance vocale adaptés à des jeux de vocabulaire et types de diction spécifiques. Contrairement aux modèles de reconnaissance vocale de base, les modèles vocaux personnalisés contribuent à vous doter d’un avantage concurrentiel unique, car ils ne sont pas accessibles publiquement. Pour commencer à charger des échantillons audio en vue de créer un modèle vocal personnalisé, consultez Charger jeux de données d’entraînement et de test.
Évaluation de la prononciation : évaluez la prononciation des entrées vocales et fournissez des commentaires aux orateurs sur la justesse et l’aisance des paroles prononcées. Speech Studio fournit un bac à sable (sandbox) pour tester cette fonctionnalité rapidement, sans code. Pour utiliser la fonctionnalité avec le Kit de développement logiciel (SDK) Speech dans vos applications, consultez l’article Évaluation de la prononciation.
Traduction vocale : Testez et traduisez rapidement la parole vers d’autres langues de votre choix avec une faible latence. Pour découvrir la totalité de la fonctionnalité, consultez Qu’est-ce que la traduction vocale.
Galerie vocale : Créez des applications et services qui parlent d’une façon naturelle. Choisissez parmi un large choix de langues, de voix et de variantes. Donnez vie à vos scénarios à l’aide de voix neuronales très expressives et humaines.
Voix personnalisée : créez des voix personnalisées uniques pour la synthèse vocale. Vous fournissez des fichiers audio et créez les transcriptions correspondantes dans Speech Studio, puis vous utilisez les voix personnalisées dans vos applications. Pour créer et utiliser des voix personnalisées via des points de terminaison, consultez Créer et utiliser votre modèle vocal.
Création de contenu audio : approche sans code pour la synthèse vocale. Vous pouvez utiliser les sorties audio telles quelles, ou comme point de départ pour davantage de personnalisation. Vous pouvez créer du contenu audio très naturel pour divers scénarios, comme des livres audio, des émissions d’infos, des narrations vidéo et des chatbots. Pour plus d’informations, consultez la documentation sur la Création de contenu audio.
Mot clé personnalisé : un mot clé personnalisé est une expression ou un mot court que vous pouvez utiliser pour activer un produit à la voix. Vous créez un mot clé personnalisé dans Speech Studio, puis générez un fichier binaire à utiliser avec le SDK Speech dans vos applications.
Commandes personnalisées : créez aisément des applications de commandes vocales complètes, optimisées pour les expériences d’interaction de type « voice-first ». Les commandes personnalisées fournissent une expérience de création sans code dans Speech Studio, un modèle d’hébergement automatique et une complexité relativement inférieure. Cette fonctionnalité vous permet de vous concentrer sur la conception de la meilleure solution pour vos scénarios de commande vocale. Pour plus d’informations, consultez le guide Développer des applications de commandes personnalisées. Consultez également Intégration à une application cliente à l’aide du SDK Speech.

Étapes suivantes

Explorer Speech Studio

Qu’est-ce que Speech Studio ?

Scénarios Speech Studio

Fonctionnalités de Speech Studio

Étapes suivantes

Ressources supplémentaires