Démarrage rapide : créer des sous-titres à l’aide de la reconnaissance vocale
Documentation de référence | Package (NuGet) | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.
Conseil
Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.
Conseil
Essayez le Kit de ressources Azure AI Speech pour créer et exécuter facilement des exemples de sous-titrage sur Visual Studio Code.
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Le kit de développement logiciel (SDK) Speech est disponible en tant que package NuGet et implémente .NET Standard 2.0. Ce guide vous invite à installer le SDK Speech plus tard. Consultez d’abord le guide d’installation du SDK pour connaître les éventuelles autres exigences.
Vous devez également installer GStreamer pour compresser l’audio en entrée.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Azure AI services. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement à partir de votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons l’authentification Microsoft Entra ID avec les identités managées pour les ressources Azure pour éviter de stocker des informations d’identification avec vos applications qui s’exécutent dans le cloud.
Si vous utilisez une clé API, stockez-la en toute sécurité dans un autre emplacement, par exemple dans Azure Key Vault. N'incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement.
Pour plus d’informations sur la sécurité des services IA, consultez Authentifier les demandes auprès d’Azure AI services.
Pour définir les variables d'environnement de votre clé de ressource Speech et de votre région, ouvrez une fenêtre de console et suivez les instructions de votre système d'exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Remarque
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez la définir avec set
au lieu de setx
.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Créer des sous-titres à partir de la parole
Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.
- Copiez les exemples de fichiers scenarios/csharp/dotnetcore/captioning/ à partir de GitHub. Si Git est installé, ouvrez une invite de commandes et exécutez la commande
git clone
pour télécharger le dépôt d’exemples du SDK Speech.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
- Ouvrez une invite de commandes et accédez au répertoire du projet.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
- Générez le projet avec l’interface CLI .NET.
dotnet build
- Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Important
Vérifiez que les chemins spécifiés par
--input
et--output
sont valides. Sinon, vous devez modifier les chemins d’accès.Vérifiez que vous avez défini les variables d’environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit ci-dessus. Sinon, utilisez les arguments--key
et--region
.
Vérifier les résultats
Quand vous utilisez l’option realTime
dans l’exemple ci-dessus, les résultats partiels des événements Recognizing
sont inclus dans la sortie. Dans cet exemple, seul l’événement Recognized
final inclut les virgules. Les virgules ne constituent pas les seules différences entre les événements Recognizing
et Recognized
. Pour plus d’informations, consultez Obtenir des résultats partiels.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quand vous utilisez l’option --offline
, les résultats sont stables à partir de l’événement Recognized
final. Les résultats partiels ne sont pas inclus dans la sortie :
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff
. Pour plus d’informations, consultez Format de sortie de sous-titre.
Utilisation et arguments
Utilisation : captioning --input <input file>
Les options de connexion sont les suivantes :
--key
: clé de votre ressource Speech. Remplace la variable d’environnement SPEECH_KEY. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option--key
.--region REGION
: région de votre ressource Speech. Remplace la variable d’environnement SPEECH_REGION. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option--region
. Exemples :westus
,northeurope
Important
Si vous utilisez une clé API, stockez-la en toute sécurité dans un autre emplacement, par exemple dans Azure Key Vault. N'incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement.
Pour plus d’informations sur la sécurité des services IA, consultez Authentifier les requêtes auprès d’Azure AI services.
Les options d’entrée sont les suivantes :
--input FILE
: audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.--format FORMAT
: utiliser le format audio compressé. Valide uniquement avec--file
. Les valeurs valides sontalaw
,any
,flac
,mp3
,mulaw
etogg_opus
. La valeur par défaut estany
. Pour utiliser un fichierwav
, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.
Les options de langue sont les suivantes :
--language LANG
: Spécifiez une langue en utilisant les paramètres régionaux pris en charge correspondants. Ces paramètres sont utilisés pour fractionner les sous-titres en lignes. La valeur par défaut esten-US
.
Les options de reconnaissance sont les suivantes :
--offline
: Génère des résultats hors connexion. Substitue--realTime
. Le mode de sortie par défaut est hors connexion.--realTime
: Génère des résultats en temps réel.
La sortie en temps réel inclut les résultats des événements Recognizing
. La sortie hors connexion par défaut correspond aux résultats d’événements Recognized
uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet
remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.
Les options de précision sont les suivantes :
--phrases PHRASE1;PHRASE2
: vous pouvez spécifier une liste d’expressions à reconnaître, telles queContoso;Jessie;Rehaan
. Pour plus d’informations, consultez Améliorer la reconnaissance avec des listes d’expressions.
Les options de sortie sont les suivantes :
--help
: afficher cette aide et arrêter--output FILE
: générer des sous-titres dans lefile
spécifié. Cet indicateur est obligatoire.--srt
: générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.--maxLineLength LENGTH
: Définissez le nombre maximal de caractères par ligne pour un sous-titre sur LENGTH. La valeur minimale est 20. La valeur par défaut est 37 (30 pour le chinois).--lines LINES
: Définissez le nombre de lignes pour un sous-titre sur LINES. Le minimum est 1. La valeur par défaut est 2.--delay MILLISECONDS
: Nombre de millisecondes de délai d’affichage de chaque sous-titre, pour imiter une expérience en temps réel. Cette option est uniquement applicable quand vous utiliser l’indicateurrealTime
. La valeur minimale est 0,0. La valeur par défaut est 1000.--remainTime MILLISECONDS
: Nombre de millisecondes pendant lesquelles un sous-titre doit rester à l’écran s’il n’est pas remplacé par une autre. La valeur minimale est 0,0. La valeur par défaut est 1000.--quiet
: supprimer la sortie de la console, à l’exception des erreurs.--profanity OPTION
: les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.--threshold NUMBER
: définir un seuil de résultat partiel stable. La valeur par défaut est3
. Cette option est uniquement applicable quand vous utiliser l’indicateurrealTime
. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Package (NuGet) | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.
Conseil
Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.
Conseil
Essayez le Kit de ressources Azure AI Speech pour créer et exécuter facilement des exemples de sous-titrage sur Visual Studio Code.
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Le kit de développement logiciel (SDK) Speech est disponible en tant que package NuGet et implémente .NET Standard 2.0. Ce guide vous invite à installer le SDK Speech plus tard. Consultez d’abord le guide d’installation du SDK pour connaître les éventuelles autres exigences.
Vous devez également installer GStreamer pour compresser l’audio en entrée.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Azure AI services. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement à partir de votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons l’authentification Microsoft Entra ID avec les identités managées pour les ressources Azure pour éviter de stocker des informations d’identification avec vos applications qui s’exécutent dans le cloud.
Si vous utilisez une clé API, stockez-la en toute sécurité dans un autre emplacement, par exemple dans Azure Key Vault. N'incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement.
Pour plus d’informations sur la sécurité des services IA, consultez Authentifier les demandes auprès d’Azure AI services.
Pour définir les variables d'environnement de votre clé de ressource Speech et de votre région, ouvrez une fenêtre de console et suivez les instructions de votre système d'exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Remarque
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez la définir avec set
au lieu de setx
.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Créer des sous-titres à partir de la parole
Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage avec Visual Studio Community 2022 sur Windows.
Téléchargez ou copiez les fichiers d’exemple scenarios/cpp/windows/captioning/ de GitHub dans un répertoire local.
Ouvrez le fichier de solution
captioning.sln
dans Visual Studio Community 2022.Installez le SDK Speech dans votre projet avec le gestionnaire de package NuGet.
Install-Package Microsoft.CognitiveServices.Speech
Ouvrez Projet>Propriétés>Généralités. Définissez Configuration sur
All configurations
. Définissez C++ Language Standard surISO C++17 Standard (/std:c++17)
.Ouvrez Générer>Gestionnaire de configurations.
- Sur une installation de Windows 64 bits, définissez la plateforme de solution active sur
x64
. - Sur une installation de Windows 32 bits, définissez la plateforme de solution active sur
x86
.
- Sur une installation de Windows 64 bits, définissez la plateforme de solution active sur
Ouvrez Projet>Propriétés>Débogage. Entrez vos arguments de ligne de commande préférés à l’adresse Arguments de commande. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Important
Vérifiez que les chemins spécifiés par
--input
et--output
sont valides. Sinon, vous devez modifier les chemins d’accès.Vérifiez que vous avez défini les variables d’environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit ci-dessus. Sinon, utilisez les arguments--key
et--region
.Créez et exécutez l’application console.
Vérifier les résultats
Quand vous utilisez l’option realTime
dans l’exemple ci-dessus, les résultats partiels des événements Recognizing
sont inclus dans la sortie. Dans cet exemple, seul l’événement Recognized
final inclut les virgules. Les virgules ne constituent pas les seules différences entre les événements Recognizing
et Recognized
. Pour plus d’informations, consultez Obtenir des résultats partiels.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quand vous utilisez l’option --offline
, les résultats sont stables à partir de l’événement Recognized
final. Les résultats partiels ne sont pas inclus dans la sortie :
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff
. Pour plus d’informations, consultez Format de sortie de sous-titre.
Utilisation et arguments
Utilisation : captioning --input <input file>
Les options de connexion sont les suivantes :
--key
: clé de votre ressource Speech. Remplace la variable d’environnement SPEECH_KEY. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option--key
.--region REGION
: région de votre ressource Speech. Remplace la variable d’environnement SPEECH_REGION. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option--region
. Exemples :westus
,northeurope
Important
Si vous utilisez une clé API, stockez-la en toute sécurité dans un autre emplacement, par exemple dans Azure Key Vault. N'incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement.
Pour plus d’informations sur la sécurité des services IA, consultez Authentifier les requêtes auprès d’Azure AI services.
Les options d’entrée sont les suivantes :
--input FILE
: audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.--format FORMAT
: utiliser le format audio compressé. Valide uniquement avec--file
. Les valeurs valides sontalaw
,any
,flac
,mp3
,mulaw
etogg_opus
. La valeur par défaut estany
. Pour utiliser un fichierwav
, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.
Les options de langue sont les suivantes :
--language LANG
: Spécifiez une langue en utilisant les paramètres régionaux pris en charge correspondants. Ces paramètres sont utilisés pour fractionner les sous-titres en lignes. La valeur par défaut esten-US
.
Les options de reconnaissance sont les suivantes :
--offline
: Génère des résultats hors connexion. Substitue--realTime
. Le mode de sortie par défaut est hors connexion.--realTime
: Génère des résultats en temps réel.
La sortie en temps réel inclut les résultats des événements Recognizing
. La sortie hors connexion par défaut correspond aux résultats d’événements Recognized
uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet
remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.
Les options de précision sont les suivantes :
--phrases PHRASE1;PHRASE2
: vous pouvez spécifier une liste d’expressions à reconnaître, telles queContoso;Jessie;Rehaan
. Pour plus d’informations, consultez Améliorer la reconnaissance avec des listes d’expressions.
Les options de sortie sont les suivantes :
--help
: afficher cette aide et arrêter--output FILE
: générer des sous-titres dans lefile
spécifié. Cet indicateur est obligatoire.--srt
: générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.--maxLineLength LENGTH
: Définissez le nombre maximal de caractères par ligne pour un sous-titre sur LENGTH. La valeur minimale est 20. La valeur par défaut est 37 (30 pour le chinois).--lines LINES
: Définissez le nombre de lignes pour un sous-titre sur LINES. Le minimum est 1. La valeur par défaut est 2.--delay MILLISECONDS
: Nombre de millisecondes de délai d’affichage de chaque sous-titre, pour imiter une expérience en temps réel. Cette option est uniquement applicable quand vous utiliser l’indicateurrealTime
. La valeur minimale est 0,0. La valeur par défaut est 1000.--remainTime MILLISECONDS
: Nombre de millisecondes pendant lesquelles un sous-titre doit rester à l’écran s’il n’est pas remplacé par une autre. La valeur minimale est 0,0. La valeur par défaut est 1000.--quiet
: supprimer la sortie de la console, à l’exception des erreurs.--profanity OPTION
: les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.--threshold NUMBER
: définir un seuil de résultat partiel stable. La valeur par défaut est3
. Cette option est uniquement applicable quand vous utiliser l’indicateurrealTime
. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Package (Go) | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.
Conseil
Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.
Conseil
Essayez le Kit de ressources Azure AI Speech pour créer et exécuter facilement des exemples de sous-titrage sur Visual Studio Code.
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Vérifiez s’il existe une procédure d’installation spécifique à la plateforme.
Vous devez également installer GStreamer pour compresser l’audio en entrée.
Créer des sous-titres à partir de la parole
Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.
Téléchargez ou copiez les fichiers d’exemple scenarios/go/captioning/ de GitHub dans un répertoire local.
Ouvrez une invite de commandes dans le même répertoire que
captioning.go
.Exécutez les commandes suivantes pour créer un fichier
go.mod
lié aux composants du SDK Speech hébergés sur GitHub :go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-go
Générez le module GO.
go build
Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Remplacez
YourSubscriptionKey
par la clé de votre ressource Speech etYourServiceRegion
par la région de votre ressource Speech, telle quewestus
ounortheurope
. Vérifiez que les chemins spécifiés par--input
et--output
sont valides. Sinon, vous devez modifier les chemins d’accès.Important
N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité d’Azure AI services.
Vérifier les résultats
Le fichier de sortie avec les sous-titres complets est écrit dans caption.output.txt
. Des résultats intermédiaires apparaissent dans la console :
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff
. Pour plus d’informations, consultez Format de sortie de sous-titre.
Utilisation et arguments
Utilisation : go run captioning.go helper.go --key <key> --region <region> --input <input file>
Les options de connexion sont les suivantes :
--key
: clé de votre ressource Speech.--region REGION
: région de votre ressource Speech. Exemples :westus
,northeurope
Les options d’entrée sont les suivantes :
--input FILE
: audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.--format FORMAT
: utiliser le format audio compressé. Valide uniquement avec--file
. Les valeurs valides sontalaw
,any
,flac
,mp3
,mulaw
etogg_opus
. La valeur par défaut estany
. Pour utiliser un fichierwav
, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.
Les options de langue sont les suivantes :
--languages LANG1,LANG2
: activer l’identification de langue pour les langues spécifiées. Par exemple :en-US,ja-JP
. Cette option est disponible uniquement avec les exemples de sous-titrage C++, C# et Python. Pour plus d’informations, consultez Identification de la langue.
Les options de reconnaissance sont les suivantes :
--recognizing
: sortie des résultats d’événementRecognizing
. La sortie par défaut correspond aux résultats d’événementRecognized
uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option--quiet
remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.
Les options de précision sont les suivantes :
--phrases PHRASE1;PHRASE2
: vous pouvez spécifier une liste d’expressions à reconnaître, telles queContoso;Jessie;Rehaan
. Pour plus d’informations, consultez Améliorer la reconnaissance avec des listes d’expressions.
Les options de sortie sont les suivantes :
--help
: afficher cette aide et arrêter--output FILE
: générer des sous-titres dans lefile
spécifié. Cet indicateur est obligatoire.--srt
: générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.--quiet
: supprimer la sortie de la console, à l’exception des erreurs.--profanity OPTION
: les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.--threshold NUMBER
: définir un seuil de résultat partiel stable. La valeur par défaut est3
. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.
Conseil
Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.
Conseil
Essayez le Kit de ressources Azure AI Speech pour créer et exécuter facilement des exemples de sous-titrage sur Visual Studio Code.
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Avant de pouvoir faire quoi que ce soit, vous avez besoin d’installer le SDK Speech. L’exemple donné dans ce guide de démarrage rapide fonctionne avec la build Microsoft d’OpenJDK 17.
- Installez Apache Maven. Exécutez ensuite
mvn -v
pour confirmer la réussite de l’installation. - Créez un fichier
pom.xml
à la racine de votre projet, puis copiez-y ce qui suit :<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.40.0</version> </dependency> </dependencies> </project>
- Installez le SDK Speech et les dépendances.
mvn clean dependency:copy-dependencies
- Vous devez également installer GStreamer pour compresser l’audio en entrée.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Azure AI services. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement à partir de votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons l’authentification Microsoft Entra ID avec les identités managées pour les ressources Azure pour éviter de stocker des informations d’identification avec vos applications qui s’exécutent dans le cloud.
Si vous utilisez une clé API, stockez-la en toute sécurité dans un autre emplacement, par exemple dans Azure Key Vault. N'incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement.
Pour plus d’informations sur la sécurité des services IA, consultez Authentifier les demandes auprès d’Azure AI services.
Pour définir les variables d'environnement de votre clé de ressource Speech et de votre région, ouvrez une fenêtre de console et suivez les instructions de votre système d'exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Remarque
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez la définir avec set
au lieu de setx
.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Créer des sous-titres à partir de la parole
Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.
- Copiez les scenarios/java/jre/console/captioning/ de GitHub dans le répertoire de votre projet. Le fichier
pom.xml
que vous avez créé dans la configuration de l’environnement doit également se trouver dans ce répertoire. - Ouvrez une invite de commandes et exécutez cette commande pour compiler les fichiers du projet.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
- Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Important
Vérifiez que les chemins spécifiés par
--input
et--output
sont valides. Sinon, vous devez modifier les chemins d’accès.Vérifiez que vous avez défini les variables d’environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit ci-dessus. Sinon, utilisez les arguments--key
et--region
.
Vérifier les résultats
Quand vous utilisez l’option realTime
dans l’exemple ci-dessus, les résultats partiels des événements Recognizing
sont inclus dans la sortie. Dans cet exemple, seul l’événement Recognized
final inclut les virgules. Les virgules ne constituent pas les seules différences entre les événements Recognizing
et Recognized
. Pour plus d’informations, consultez Obtenir des résultats partiels.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quand vous utilisez l’option --offline
, les résultats sont stables à partir de l’événement Recognized
final. Les résultats partiels ne sont pas inclus dans la sortie :
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff
. Pour plus d’informations, consultez Format de sortie de sous-titre.
Utilisation et arguments
Utilisation : java -cp ".;target\dependency\*" Captioning --input <input file>
Les options de connexion sont les suivantes :
--key
: clé de votre ressource Speech. Remplace la variable d’environnement SPEECH_KEY. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option--key
.--region REGION
: région de votre ressource Speech. Remplace la variable d’environnement SPEECH_REGION. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option--region
. Exemples :westus
,northeurope
Important
Si vous utilisez une clé API, stockez-la en toute sécurité dans un autre emplacement, par exemple dans Azure Key Vault. N'incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement.
Pour plus d’informations sur la sécurité des services IA, consultez Authentifier les requêtes auprès d’Azure AI services.
Les options d’entrée sont les suivantes :
--input FILE
: audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.--format FORMAT
: utiliser le format audio compressé. Valide uniquement avec--file
. Les valeurs valides sontalaw
,any
,flac
,mp3
,mulaw
etogg_opus
. La valeur par défaut estany
. Pour utiliser un fichierwav
, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.
Les options de langue sont les suivantes :
--language LANG
: Spécifiez une langue en utilisant les paramètres régionaux pris en charge correspondants. Ces paramètres sont utilisés pour fractionner les sous-titres en lignes. La valeur par défaut esten-US
.
Les options de reconnaissance sont les suivantes :
--offline
: Génère des résultats hors connexion. Substitue--realTime
. Le mode de sortie par défaut est hors connexion.--realTime
: Génère des résultats en temps réel.
La sortie en temps réel inclut les résultats des événements Recognizing
. La sortie hors connexion par défaut correspond aux résultats d’événements Recognized
uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet
remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.
Les options de précision sont les suivantes :
--phrases PHRASE1;PHRASE2
: vous pouvez spécifier une liste d’expressions à reconnaître, telles queContoso;Jessie;Rehaan
. Pour plus d’informations, consultez Améliorer la reconnaissance avec des listes d’expressions.
Les options de sortie sont les suivantes :
--help
: afficher cette aide et arrêter--output FILE
: générer des sous-titres dans lefile
spécifié. Cet indicateur est obligatoire.--srt
: générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.--maxLineLength LENGTH
: Définissez le nombre maximal de caractères par ligne pour un sous-titre sur LENGTH. La valeur minimale est 20. La valeur par défaut est 37 (30 pour le chinois).--lines LINES
: Définissez le nombre de lignes pour un sous-titre sur LINES. Le minimum est 1. La valeur par défaut est 2.--delay MILLISECONDS
: Nombre de millisecondes de délai d’affichage de chaque sous-titre, pour imiter une expérience en temps réel. Cette option est uniquement applicable quand vous utiliser l’indicateurrealTime
. La valeur minimale est 0,0. La valeur par défaut est 1000.--remainTime MILLISECONDS
: Nombre de millisecondes pendant lesquelles un sous-titre doit rester à l’écran s’il n’est pas remplacé par une autre. La valeur minimale est 0,0. La valeur par défaut est 1000.--quiet
: supprimer la sortie de la console, à l’exception des erreurs.--profanity OPTION
: les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.--threshold NUMBER
: définir un seuil de résultat partiel stable. La valeur par défaut est3
. Cette option est uniquement applicable quand vous utiliser l’indicateurrealTime
. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Package (npm) | Exemples supplémentaires sur GitHub | Code source de la bibliothèque
Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.
Conseil
Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.
Conseil
Essayez le Kit de ressources Azure AI Speech pour créer et exécuter facilement des exemples de sous-titrage sur Visual Studio Code.
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Avant de pouvoir faire quoi que ce soit, vous devez installer le SDK Speech pour JavaScript. Si vous voulez simplement le nom du package pour effectuer l’installation, exécutez npm install microsoft-cognitiveservices-speech-sdk
. Pour obtenir des instructions d’installation, consultez le guide d’installation SDK.
Créer des sous-titres à partir de la parole
Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.
Copiez les scenarios/javascript/node/captioning/ de GitHub dans le répertoire de votre projet.
Ouvrez une invite de commandes dans le même répertoire que
Captioning.js
.Installez le SDK Speech pour JavaScript :
npm install microsoft-cognitiveservices-speech-sdk
Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Remplacez
YourSubscriptionKey
par la clé de votre ressource Speech etYourServiceRegion
par la région de votre ressource Speech, telle quewestus
ounortheurope
. Vérifiez que les chemins spécifiés par--input
et--output
sont valides. Sinon, vous devez modifier les chemins d’accès.Remarque
Le SDK Speech pour JavaScript ne prend pas en charge l’audio d’entrée compressé. Vous devez utiliser un fichier WAV comme montré dans l’exemple.
Important
N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité d’Azure AI services.
Vérifier les résultats
Le fichier de sortie avec les sous-titres complets est écrit dans caption.output.txt
. Des résultats intermédiaires apparaissent dans la console :
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff
. Pour plus d’informations, consultez Format de sortie de sous-titre.
Utilisation et arguments
Utilisation : node captioning.js --key <key> --region <region> --input <input file>
Les options de connexion sont les suivantes :
--key
: clé de votre ressource Speech.--region REGION
: région de votre ressource Speech. Exemples :westus
,northeurope
Les options d’entrée sont les suivantes :
--input FILE
: audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.--format FORMAT
: utiliser le format audio compressé. Valide uniquement avec--file
. Les valeurs valides sontalaw
,any
,flac
,mp3
,mulaw
etogg_opus
. La valeur par défaut estany
. Pour utiliser un fichierwav
, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.
Les options de langue sont les suivantes :
--languages LANG1,LANG2
: activer l’identification de langue pour les langues spécifiées. Par exemple :en-US,ja-JP
. Cette option est disponible uniquement avec les exemples de sous-titrage C++, C# et Python. Pour plus d’informations, consultez Identification de la langue.
Les options de reconnaissance sont les suivantes :
--recognizing
: sortie des résultats d’événementRecognizing
. La sortie par défaut correspond aux résultats d’événementRecognized
uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option--quiet
remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.
Les options de précision sont les suivantes :
--phrases PHRASE1;PHRASE2
: vous pouvez spécifier une liste d’expressions à reconnaître, telles queContoso;Jessie;Rehaan
. Pour plus d’informations, consultez Améliorer la reconnaissance avec des listes d’expressions.
Les options de sortie sont les suivantes :
--help
: afficher cette aide et arrêter--output FILE
: générer des sous-titres dans lefile
spécifié. Cet indicateur est obligatoire.--srt
: générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.--quiet
: supprimer la sortie de la console, à l’exception des erreurs.--profanity OPTION
: les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.--threshold NUMBER
: définir un seuil de résultat partiel stable. La valeur par défaut est3
. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Package (téléchargement) | Exemples supplémentaires sur GitHub
Le SDK Speech pour Objective-C prend en charge les résultats de la reconnaissance vocale pour le sous-titrage, mais nous n’avons pas encore inclus de guide ici. Sélectionnez un autre langage de programmation pour commencer et découvrir les concepts, ou consultez les informations de référence sur Objective-C et les exemples liés au début de cet article.
Documentation de référence | Package (téléchargement) | Exemples supplémentaires sur GitHub
Le SDK Speech pour Swift prend en charge les résultats de la reconnaissance vocale pour le sous-titrage, mais nous n’avons pas encore inclus de guide ici. Sélectionnez un autre langage de programmation pour commencer et découvrir les concepts, ou consultez les informations de référence sur Swift et les exemples liés au début de cet article.
Documentation de référence | Package (PyPi) | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.
Conseil
Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.
Conseil
Essayez le Kit de ressources Azure AI Speech pour créer et exécuter facilement des exemples de sous-titrage sur Visual Studio Code.
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Le kit SDK Speech pour Python est disponible sous forme de module Python Package Index (PyPI). Le Kit de développement logiciel (SDK) Speech pour Python est compatible avec Windows, Linux et macOS.
- Vous devez installer Microsoft Redistributable Visual C++ pour Visual Studio 2015, 2017, 2019 et 2022 pour votre plateforme. La toute première installation de ce package peut nécessiter un redémarrage.
- Sur Linux, vous devez utiliser l’architecture cible x64.
- Installez Python 3.10 ou une version ultérieure. Vérifiez d’abord le guide d’installation SDK pour toute information complémentaire
- Vous devez également installer GStreamer pour compresser l’audio en entrée.
Définir des variables d’environnement
Vous devez authentifier votre application pour accéder à Azure AI services. Cet article vous montre comment utiliser des variables d’environnement pour stocker vos informations d’identification. Vous pouvez ensuite accéder aux variables d’environnement à partir de votre code pour authentifier votre application. Pour la production, utilisez un moyen plus sécurisé pour stocker vos informations d’identification et y accéder.
Important
Nous vous recommandons l’authentification Microsoft Entra ID avec les identités managées pour les ressources Azure pour éviter de stocker des informations d’identification avec vos applications qui s’exécutent dans le cloud.
Si vous utilisez une clé API, stockez-la en toute sécurité dans un autre emplacement, par exemple dans Azure Key Vault. N'incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement.
Pour plus d’informations sur la sécurité des services IA, consultez Authentifier les demandes auprès d’Azure AI services.
Pour définir les variables d'environnement de votre clé de ressource Speech et de votre région, ouvrez une fenêtre de console et suivez les instructions de votre système d'exploitation et de votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Remarque
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez la définir avec set
au lieu de setx
.
Après avoir ajouté les variables d'environnement, vous devrez éventuellement redémarrer tous les programmes qui ont besoin de lire les variables d'environnement, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Créer des sous-titres à partir de la parole
Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.
- Téléchargez ou copiez les fichiers d’exemple scenarios/python/console/captioning/ de GitHub dans un répertoire local.
- Ouvrez une invite de commandes dans le même répertoire que
captioning.py
. - Exécutez cette commande pour installer le SDK Speech :
pip install azure-cognitiveservices-speech
- Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Important
Vérifiez que les chemins spécifiés par
--input
et--output
sont valides. Sinon, vous devez modifier les chemins d’accès.Vérifiez que vous avez défini les variables d’environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit ci-dessus. Sinon, utilisez les arguments--key
et--region
.
Vérifier les résultats
Quand vous utilisez l’option realTime
dans l’exemple ci-dessus, les résultats partiels des événements Recognizing
sont inclus dans la sortie. Dans cet exemple, seul l’événement Recognized
final inclut les virgules. Les virgules ne constituent pas les seules différences entre les événements Recognizing
et Recognized
. Pour plus d’informations, consultez Obtenir des résultats partiels.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quand vous utilisez l’option --offline
, les résultats sont stables à partir de l’événement Recognized
final. Les résultats partiels ne sont pas inclus dans la sortie :
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff
. Pour plus d’informations, consultez Format de sortie de sous-titre.
Utilisation et arguments
Utilisation : python captioning.py --input <input file>
Les options de connexion sont les suivantes :
--key
: clé de votre ressource Speech. Remplace la variable d’environnement SPEECH_KEY. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option--key
.--region REGION
: région de votre ressource Speech. Remplace la variable d’environnement SPEECH_REGION. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option--region
. Exemples :westus
,northeurope
Important
Si vous utilisez une clé API, stockez-la en toute sécurité dans un autre emplacement, par exemple dans Azure Key Vault. N'incluez pas la clé API directement dans votre code et ne la diffusez jamais publiquement.
Pour plus d’informations sur la sécurité des services IA, consultez Authentifier les requêtes auprès d’Azure AI services.
Les options d’entrée sont les suivantes :
--input FILE
: audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.--format FORMAT
: utiliser le format audio compressé. Valide uniquement avec--file
. Les valeurs valides sontalaw
,any
,flac
,mp3
,mulaw
etogg_opus
. La valeur par défaut estany
. Pour utiliser un fichierwav
, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.
Les options de langue sont les suivantes :
--language LANG
: Spécifiez une langue en utilisant les paramètres régionaux pris en charge correspondants. Ces paramètres sont utilisés pour fractionner les sous-titres en lignes. La valeur par défaut esten-US
.
Les options de reconnaissance sont les suivantes :
--offline
: Génère des résultats hors connexion. Substitue--realTime
. Le mode de sortie par défaut est hors connexion.--realTime
: Génère des résultats en temps réel.
La sortie en temps réel inclut les résultats des événements Recognizing
. La sortie hors connexion par défaut correspond aux résultats d’événements Recognized
uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet
remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.
Les options de précision sont les suivantes :
--phrases PHRASE1;PHRASE2
: vous pouvez spécifier une liste d’expressions à reconnaître, telles queContoso;Jessie;Rehaan
. Pour plus d’informations, consultez Améliorer la reconnaissance avec des listes d’expressions.
Les options de sortie sont les suivantes :
--help
: afficher cette aide et arrêter--output FILE
: générer des sous-titres dans lefile
spécifié. Cet indicateur est obligatoire.--srt
: générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.--maxLineLength LENGTH
: Définissez le nombre maximal de caractères par ligne pour un sous-titre sur LENGTH. La valeur minimale est 20. La valeur par défaut est 37 (30 pour le chinois).--lines LINES
: Définissez le nombre de lignes pour un sous-titre sur LINES. Le minimum est 1. La valeur par défaut est 2.--delay MILLISECONDS
: Nombre de millisecondes de délai d’affichage de chaque sous-titre, pour imiter une expérience en temps réel. Cette option est uniquement applicable quand vous utiliser l’indicateurrealTime
. La valeur minimale est 0,0. La valeur par défaut est 1000.--remainTime MILLISECONDS
: Nombre de millisecondes pendant lesquelles un sous-titre doit rester à l’écran s’il n’est pas remplacé par une autre. La valeur minimale est 0,0. La valeur par défaut est 1000.--quiet
: supprimer la sortie de la console, à l’exception des erreurs.--profanity OPTION
: les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.--threshold NUMBER
: définir un seuil de résultat partiel stable. La valeur par défaut est3
. Cette option est uniquement applicable quand vous utiliser l’indicateurrealTime
. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.
Conseil
Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.
Conseil
Essayez le Kit de ressources Azure AI Speech pour créer et exécuter facilement des exemples de sous-titrage sur Visual Studio Code.
Prérequis
- Un abonnement Azure. Vous pouvez en créer un gratuitement.
- Créer une ressource Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés.
Configurer l’environnement
Suivez ces étapes et consultez le guide de démarrage rapide de l’interface CLI Speech pour connaître les autres conditions requises pour votre plateforme.
Exécutez la commande CLI .NET suivante pour installer l’interface CLI Speech :
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Exécutez les commandes suivantes pour configurer la clé et la région de votre ressource Speech. Remplacez
SUBSCRIPTION-KEY
par la clé de la ressource Speech et remplacezREGION
par la région de la ressource Speech.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Vous devez également installer GStreamer pour compresser l’audio en entrée.
Créer des sous-titres à partir de la parole
Avec l’interface CLI Speech, vous pouvez générer des légendes SRT (Texte SubRip) et WebVTT (Web Video Text Tracks) à partir de n’importe quel type de média contenant de l’audio.
Pour reconnaître l’audio à partir d’un fichier et générer des sous-titres WebVTT (vtt
) et SRT (srt
), procédez comme suit.
Vérifiez qu’un fichier d’entrée nommé
caption.this.mp4
figure dans le chemin d’accès.Exécutez la commande suivante pour générer des sous-titres à partir du fichier vidéo :
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
Les sous-titres SRT et WebVTT sont générés dans la console, comme illustré ici :
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Utilisation et arguments
Voici des détails sur les arguments facultatifs de la commande précédente :
--file caption.this.mp4 --format any
: audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.--output vtt file -
et--output srt file -
: génère des sous-titres WebVTT et SRT dans une sortie standard. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres. Pour plus d’informations sur l’argument--output
, consultez les options de sortie de l’interface CLI Speech.@output.each.detailed
: génère les résultats de l’événement avec du texte, un décalage et une durée. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.--property SpeechServiceResponse_StablePartialResultThreshold=5
: vous pouvez demander que le service Speech retourne moins d’événementsRecognizing
plus précis. Dans cet exemple, le service Speech doit affirmer la reconnaissance d’un mot au moins cinq fois avant de renvoyer les résultats partiels. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.--profanity masked
: vous pouvez spécifier s’il faut masquer, supprimer ou afficher les grossièretés dans les résultats de la reconnaissance. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.--phrases "Constoso;Jessie;Rehaan"
: vous pouvez spécifier une liste d’expressions à reconnaître, telles que Contoso, Jessie et Rehaan. Pour plus d’informations, consultez Améliorer la reconnaissance avec des listes d’expressions.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.