Démarrage rapide : Reconnaître et convertir la parole en texte
Documentation de référencePackage (NuGet)Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Configurer l’environnement
Le kit de développement logiciel (SDK) Speech est disponible en tant que package NuGet et implémente .NET Standard 2.0. Vous installez le Kit de développement logiciel (SDK) Speech plus loin dans ce guide. Pour toute autre exigence, consultez Installer le kit de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Reconnaître la voix provenant d’un micro
Procédez comme suit pour créer une application console et installer le kit de développement logiciel (SDK) Speech.
Ouvrez une invite de commandes à l’emplacement où vous souhaitez créer le nouveau projet. Créez une application console avec l’interface CLI .NET, qui crée le fichier Program.cs dans le répertoire du projet.
dotnet new console
Installez le kit de développement logiciel (SDK) Speech dans votre nouveau projet avec l’interface CLI .NET.
dotnet add package Microsoft.CognitiveServices.Speech
Remplacez le contenu du fichier Program.cs par le code suivant :
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION"); static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult) { switch (speechRecognitionResult.Reason) { case ResultReason.RecognizedSpeech: Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}"); break; case ResultReason.NoMatch: Console.WriteLine($"NOMATCH: Speech could not be recognized."); break; case ResultReason.Canceled: var cancellation = CancellationDetails.FromResult(speechRecognitionResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}"); Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?"); } break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); speechConfig.SpeechRecognitionLanguage = "en-US"; using var audioConfig = AudioConfig.FromDefaultMicrophoneInput(); using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig); Console.WriteLine("Speak into your microphone."); var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync(); OutputSpeechRecognitionResult(speechRecognitionResult); } }
Pour modifier la langue de la reconnaissance vocale, remplacez
en-US
par une autre langue prise en charge. Par exemple, utilisezes-ES
pour l’espagnol (Espagne). Si vous ne spécifiez pas une langue, la valeur par défaut esten-US
. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :
dotnet run
Important
Vérifiez que vous avez défini les variables d'environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Remarques
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
RecognizeOnceAsync
pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
FromWavFileInput
au lieu deFromDefaultMicrophoneInput
:using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStream
ouPushAudioInputStream
. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référencePackage (NuGet)Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Configurer l’environnement
Le kit de développement logiciel (SDK) Speech est disponible en tant que package NuGet et implémente .NET Standard 2.0. Vous installez le Kit de développement logiciel (SDK) Speech plus loin dans ce guide. Pour d’autres exigences, consultez Installer le kit de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Reconnaître la voix provenant d’un micro
Procédez comme suit pour créer une application console et installer le kit de développement logiciel (SDK) Speech.
Créez un nouveau projet console en C++ dans Visual Studio Community, nommé
SpeechRecognition
.Installez le kit de développement logiciel (SDK) Speech dans votre nouveau projet avec le gestionnaire de package NuGet.
Install-Package Microsoft.CognitiveServices.Speech
Remplacez le contenu de
SpeechRecognition.cpp
par le code suivant :#include <iostream> #include <stdlib.h> #include <speechapi_cxx.h> using namespace Microsoft::CognitiveServices::Speech; using namespace Microsoft::CognitiveServices::Speech::Audio; std::string GetEnvironmentVariable(const char* name); int main() { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" auto speechKey = GetEnvironmentVariable("SPEECH_KEY"); auto speechRegion = GetEnvironmentVariable("SPEECH_REGION"); if ((size(speechKey) == 0) || (size(speechRegion) == 0)) { std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl; return -1; } auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion); speechConfig->SetSpeechRecognitionLanguage("en-US"); auto audioConfig = AudioConfig::FromDefaultMicrophoneInput(); auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig); std::cout << "Speak into your microphone.\n"; auto result = speechRecognizer->RecognizeOnceAsync().get(); if (result->Reason == ResultReason::RecognizedSpeech) { std::cout << "RECOGNIZED: Text=" << result->Text << std::endl; } else if (result->Reason == ResultReason::NoMatch) { std::cout << "NOMATCH: Speech could not be recognized." << std::endl; } else if (result->Reason == ResultReason::Canceled) { auto cancellation = CancellationDetails::FromResult(result); std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl; if (cancellation->Reason == CancellationReason::Error) { std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl; std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl; std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl; } } } std::string GetEnvironmentVariable(const char* name) { #if defined(_MSC_VER) size_t requiredSize = 0; (void)getenv_s(&requiredSize, nullptr, 0, name); if (requiredSize == 0) { return ""; } auto buffer = std::make_unique<char[]>(requiredSize); (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name); return buffer.get(); #else auto value = getenv(name); return value ? value : ""; #endif }
Pour modifier la langue de la reconnaissance vocale, remplacez
en-US
par une autre langue prise en charge. Par exemple, utilisezes-ES
pour l’espagnol (Espagne). Si vous ne spécifiez pas une langue, la valeur par défaut esten-US
. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.Générez et exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone.
Important
Vérifiez que vous avez défini les variables d'environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Remarques
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
RecognizeOnceAsync
pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
FromWavFileInput
au lieu deFromDefaultMicrophoneInput
:auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav");
Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStream
ouPushAudioInputStream
. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référencePackage (Go)Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Configurer l’environnement
Installer le Kit SDK Speech pour Go. Pour les exigences et les instructions, consultez Installer le KIT de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Reconnaître la voix provenant d’un micro
Suivez ces étapes pour créer un modèle GO.
Ouvrez une invite de commandes à l’emplacement où vous souhaitez placer le nouveau module, puis créez un nouveau fichier nommé speech-recognition.go.
Copiez le code suivant dans le fichier speech-recognition.go :
package main import ( "bufio" "fmt" "os" "github.com/Microsoft/cognitive-services-speech-sdk-go/audio" "github.com/Microsoft/cognitive-services-speech-sdk-go/speech" ) func sessionStartedHandler(event speech.SessionEventArgs) { defer event.Close() fmt.Println("Session Started (ID=", event.SessionID, ")") } func sessionStoppedHandler(event speech.SessionEventArgs) { defer event.Close() fmt.Println("Session Stopped (ID=", event.SessionID, ")") } func recognizingHandler(event speech.SpeechRecognitionEventArgs) { defer event.Close() fmt.Println("Recognizing:", event.Result.Text) } func recognizedHandler(event speech.SpeechRecognitionEventArgs) { defer event.Close() fmt.Println("Recognized:", event.Result.Text) } func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) { defer event.Close() fmt.Println("Received a cancellation: ", event.ErrorDetails) fmt.Println("Did you set the speech resource key and region values?") } func main() { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" speechKey := os.Getenv("SPEECH_KEY") speechRegion := os.Getenv("SPEECH_REGION") audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput() if err != nil { fmt.Println("Got an error: ", err) return } defer audioConfig.Close() speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion) if err != nil { fmt.Println("Got an error: ", err) return } defer speechConfig.Close() speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig) if err != nil { fmt.Println("Got an error: ", err) return } defer speechRecognizer.Close() speechRecognizer.SessionStarted(sessionStartedHandler) speechRecognizer.SessionStopped(sessionStoppedHandler) speechRecognizer.Recognizing(recognizingHandler) speechRecognizer.Recognized(recognizedHandler) speechRecognizer.Canceled(cancelledHandler) speechRecognizer.StartContinuousRecognitionAsync() defer speechRecognizer.StopContinuousRecognitionAsync() bufio.NewReader(os.Stdin).ReadBytes('\n') }
Exécutez les commandes suivantes pour créer un fichier go.mod lié aux composants hébergés sur GitHub :
go mod init speech-recognition go get github.com/Microsoft/cognitive-services-speech-sdk-go
Important
Vérifiez que vous avez défini les variables d'environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.Générez et exécutez le code :
go build go run speech-recognition
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référence | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Configurer l’environnement
Avant de pouvoir faire quoi que ce soit, vous devez installer le SDK Speech. L’exemple de ce guide de démarrage rapide fonctionne avec le runtime Java.
Installez Apache Maven. Exécutez ensuite
mvn -v
pour confirmer la réussite de l’installation.Créez un fichier
pom.xml
à la racine de votre projet, puis copiez le code suivant :<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.32.1</version> </dependency> </dependencies> </project>
Installez le SDK Speech et les dépendances.
mvn clean dependency:copy-dependencies
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Reconnaître la voix provenant d’un micro
Suivez ces étapes pour créer une application console pour la reconnaissance vocale.
Créez un nouveau fichier nommé SpeechRecognition.java dans le même répertoire racine du projet.
Copiez le code suivant dans SpeechRecognition.java :
import com.microsoft.cognitiveservices.speech.*; import com.microsoft.cognitiveservices.speech.audio.AudioConfig; import java.util.concurrent.ExecutionException; import java.util.concurrent.Future; public class SpeechRecognition { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" private static String speechKey = System.getenv("SPEECH_KEY"); private static String speechRegion = System.getenv("SPEECH_REGION"); public static void main(String[] args) throws InterruptedException, ExecutionException { SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion); speechConfig.setSpeechRecognitionLanguage("en-US"); recognizeFromMicrophone(speechConfig); } public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException { AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput(); SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig); System.out.println("Speak into your microphone."); Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync(); SpeechRecognitionResult speechRecognitionResult = task.get(); if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) { System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText()); } else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) { System.out.println("NOMATCH: Speech could not be recognized."); } else if (speechRecognitionResult.getReason() == ResultReason.Canceled) { CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult); System.out.println("CANCELED: Reason=" + cancellation.getReason()); if (cancellation.getReason() == CancellationReason.Error) { System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode()); System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails()); System.out.println("CANCELED: Did you set the speech resource key and region values?"); } } System.exit(0); } }
Pour modifier la langue de la reconnaissance vocale, remplacez
en-US
par une autre langue prise en charge. Par exemple, utilisezes-ES
pour l’espagnol (Espagne). Si vous ne spécifiez pas une langue, la valeur par défaut esten-US
. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :
javac SpeechRecognition.java -cp ".;target\dependency\*" java -cp ".;target\dependency\*" SpeechRecognition
Important
Vérifiez que vous avez défini les variables d'environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Remarques
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
RecognizeOnceAsync
pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
fromWavFileInput
au lieu defromDefaultMicrophoneInput
:AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStream
ouPushAudioInputStream
. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référencePackage (npm)Exemples supplémentaires sur GitHubCode source de la bibliothèque
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Vous aurez également besoin d’un fichier audio .wav sur votre ordinateur local. Vous pouvez utiliser votre propre fichier .wav (jusqu’à 30 secondes) ou télécharger l’exemple de fichier https://crbn.us/whatstheweatherlike.wav.
Configurer l’environnement
Avant de pouvoir faire quoi que ce soit, vous devez installer le SDK Speech pour JavaScript. Exécutez la commande suivante : npm install microsoft-cognitiveservices-speech-sdk
. Pour obtenir des instructions d’installation, consultez Installer le kit de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Utiliser la reconnaissance vocale à partir d’un fichier
Suivez ces étapes pour créer une application console Node.js à des fins de reconnaissance vocale.
Ouvrez une invite de commandes à l’emplacement où vous souhaitez placer le nouveau projet, puis créez un fichier nommé SpeechRecognition.js.
Installez le SDK Speech pour JavaScript :
npm install microsoft-cognitiveservices-speech-sdk
Copiez le code suivant dans SpeechRecognition.js :
const fs = require("fs"); const sdk = require("microsoft-cognitiveservices-speech-sdk"); // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION); speechConfig.speechRecognitionLanguage = "en-US"; function fromFile() { let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav")); let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig); speechRecognizer.recognizeOnceAsync(result => { switch (result.reason) { case sdk.ResultReason.RecognizedSpeech: console.log(`RECOGNIZED: Text=${result.text}`); break; case sdk.ResultReason.NoMatch: console.log("NOMATCH: Speech could not be recognized."); break; case sdk.ResultReason.Canceled: const cancellation = sdk.CancellationDetails.fromResult(result); console.log(`CANCELED: Reason=${cancellation.reason}`); if (cancellation.reason == sdk.CancellationReason.Error) { console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`); console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`); console.log("CANCELED: Did you set the speech resource key and region values?"); } break; } speechRecognizer.close(); }); } fromFile();
Dans SpeechRecognition.js, remplacez YourAudioFile.wav par votre propre fichier .wav . Cet exemple reconnaît uniquement la voix à partir d’un fichier .wav. Pour plus d’informations sur d’autres formats audio, consultez Utilisation de l’audio d’entrée compressée. Cet exemple prend en charge jusqu’à 30 secondes d’audio.
Pour modifier la langue de la reconnaissance vocale, remplacez
en-US
par une autre langue prise en charge. Par exemple, utilisezes-ES
pour l’espagnol (Espagne). Si vous ne spécifiez pas une langue, la valeur par défaut esten-US
. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un fichier :
node.exe SpeechRecognition.js
Important
Vérifiez que vous avez défini les variables d'environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.La parole du fichier audio doit être générée sous forme de texte :
RECOGNIZED: Text=I'm excited to try speech to text.
Notes
Cet exemple utilise l’opération recognizeOnceAsync
pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
Notes
La reconnaissance de la parole à partir d’un microphone n’est pas prise en charge dans Node.js. Elle est prise en charge uniquement dans un environnement JavaScript basé sur un navigateur. Pour plus d’informations, consultez l’exemple React et l’implémentation de la conversion de parole en texte à partir d’un microphone sur GitHub.
L’exemple React présente les modèles de conception pour l’échange et la gestion des jetons d’authentification. Il montre également la capture de l’audio à partir d’un microphone ou d’un fichier pour les conversions de parole en texte.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référencePackage (Télécharger)Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Configurer l’environnement
Le kit de développement logiciel (SDK) Speech pour Objective-C est distribué en tant que bundle de framework. L’infrastructure prend en charge Objective-C et Swift sur iOS et macOS.
Le kit de développement logiciel (SDK) Speech peut être utilisé dans les projets Xcode en tant que CocoaPod, ou téléchargé directement et lié manuellement. Ce guide utilise un CocoaPod. Installez le gestionnaire de dépendances de CocoaPod comme décrit dans ses instructions d’installation.
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Reconnaître la voix provenant d’un micro
Pour reconnaître la parole dans une application macOS, procédez comme suit.
Clonez le référentiel Azure-Samples/cognitive-services-speech-sdk pour obtenir la reconnaissance vocale à partir d’un microphone dans l’exemple de projet Objective-C sur macOS. Le référentiel contient également des exemples iOS.
Dans une fenêtre de console, accédez au répertoire de l’exemple d’application téléchargé, helloworld.
Exécutez la commande
pod install
. Cette commande génère un espace de travail Xcodehelloworld.xcworkspace
contenant l’exemple d’application et le SDK Speech comme dépendance.Ouvrez l’espace de travail
helloworld.xcworkspace
dans Xcode.Ouvrez le fichier nommé AppDelegate.m et recherchez la méthode
buttonPressed
comme indiqué ici.- (void)buttonPressed:(NSButton *)button { // Creates an instance of a speech config with specified subscription key and service region. NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"]; NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"]; SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithMicrophone:nil]; SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion]; SPXSpeechRecognizer *speechRecognizer = [[SPXSpeechRecognizer alloc] initWithSpeechConfiguration:speechConfig language:@"en-US" audioConfiguration:audioConfig]; NSLog(@"Speak into your microphone."); SPXSpeechRecognitionResult *speechResult = [speechRecognizer recognizeOnce]; // Checks result. if (SPXResultReason_Canceled == speechResult.reason) { SPXCancellationDetails *details = [[SPXCancellationDetails alloc] initFromCanceledRecognitionResult:speechResult]; NSLog(@"Speech recognition was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails); [self.label setStringValue:([NSString stringWithFormat:@"Canceled: %@", details.errorDetails])]; } else if (SPXResultReason_RecognizedSpeech == speechResult.reason) { NSLog(@"Speech recognition result received: %@", speechResult.text); [self.label setStringValue:(speechResult.text)]; } else { NSLog(@"There was an error."); [self.label setStringValue:(@"Speech Recognition Error")]; } }
Dans AppDelegate.m, utilisez les variables d’environnement que vous avez précédemment définies pour la clé et la région de votre ressource Speech.
NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"]; NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
Pour modifier la langue de la reconnaissance vocale, remplacez
en-US
par une autre langue prise en charge. Par exemple, utilisezes-ES
pour l’espagnol (Espagne). Si vous ne spécifiez pas une langue, la valeur par défaut esten-US
. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.Pour afficher la sortie de débogage, sélectionnez Vue>Zone de débogage>Activer console.
Générez et exécutez l’exemple de code en sélectionnant Produit>Exécuter dans le menu ou en sélectionnant le bouton Lecture.
Important
Vérifiez que vous avez défini les variables d'environnement SPEECH_KEY
et SPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.
Après avoir sélectionné le bouton dans l’application et prononcé quelques mots, vous devez voir le texte énoncé sur la partie inférieure de l’écran. Quand vous exécutez l’application pour la première fois, vous devez normalement être invité à autoriser l’application à accéder au microphone de votre ordinateur.
Notes
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
recognizeOnce
pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
initWithWavFileInput
au lieu deinitWithMicrophone
:SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithWavFileInput:YourAudioFile];
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référencePackage (Télécharger)Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Configurer l’environnement
Le kit de développement logiciel (SDK) Speech pour Swift est distribué en tant que bundle de framework. L’infrastructure prend en charge Objective-C et Swift sur iOS et macOS.
Le kit de développement logiciel (SDK) Speech peut être utilisé dans les projets Xcode en tant que CocoaPod, ou téléchargé directement et lié manuellement. Ce guide utilise un CocoaPod. Installez le gestionnaire de dépendances de CocoaPod comme décrit dans ses instructions d’installation.
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Reconnaître la voix provenant d’un micro
Pour reconnaître la parole dans une application macOS, procédez comme suit.
Clonez le référentiel Azure-Samples/cognitive-services-speech-sdk pour obtenir la reconnaissance vocale à partir d’un microphone dans l’exemple de projet Swift sur macOS. Le référentiel contient également des exemples iOS.
Accédez au répertoire de l’exemple d’application téléchargé (
helloworld
) dans un terminal.Exécutez la commande
pod install
. Cette commande génère un espace de travail Xcodehelloworld.xcworkspace
contenant l’exemple d’application et le SDK Speech comme dépendance.Ouvrez l’espace de travail
helloworld.xcworkspace
dans Xcode.Ouvrez le fichier nommé AppDelegate.swift et recherchez les méthodes
applicationDidFinishLaunching
etrecognizeFromMic
comme indiqué ici.import Cocoa @NSApplicationMain class AppDelegate: NSObject, NSApplicationDelegate { var label: NSTextField! var fromMicButton: NSButton! var sub: String! var region: String! @IBOutlet weak var window: NSWindow! func applicationDidFinishLaunching(_ aNotification: Notification) { print("loading") // load subscription information sub = ProcessInfo.processInfo.environment["SPEECH_KEY"] region = ProcessInfo.processInfo.environment["SPEECH_REGION"] label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200)) label.textColor = NSColor.black label.lineBreakMode = .byWordWrapping label.stringValue = "Recognition Result" label.isEditable = false self.window.contentView?.addSubview(label) fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30)) fromMicButton.title = "Recognize" fromMicButton.target = self fromMicButton.action = #selector(fromMicButtonClicked) self.window.contentView?.addSubview(fromMicButton) } @objc func fromMicButtonClicked() { DispatchQueue.global(qos: .userInitiated).async { self.recognizeFromMic() } } func recognizeFromMic() { var speechConfig: SPXSpeechConfiguration? do { try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region) } catch { print("error \(error) happened") speechConfig = nil } speechConfig?.speechRecognitionLanguage = "en-US" let audioConfig = SPXAudioConfiguration() let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig) reco.addRecognizingEventHandler() {reco, evt in print("intermediate recognition result: \(evt.result.text ?? "(no result)")") self.updateLabel(text: evt.result.text, color: .gray) } updateLabel(text: "Listening ...", color: .gray) print("Listening...") let result = try! reco.recognizeOnce() print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)") updateLabel(text: result.text, color: .black) if result.reason != SPXResultReason.recognizedSpeech { let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result) print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)") print("Did you set the speech resource key and region values?") updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red) } } func updateLabel(text: String?, color: NSColor) { DispatchQueue.main.async { self.label.stringValue = text! self.label.textColor = color } } }
Dans AppDelegate.m, utilisez les variables d’environnement que vous avez précédemment définies pour la clé et la région de votre ressource Speech.
sub = ProcessInfo.processInfo.environment["SPEECH_KEY"] region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
Pour modifier la langue de la reconnaissance vocale, remplacez
en-US
par une autre langue prise en charge. Par exemple, utilisezes-ES
pour l’espagnol (Espagne). Si vous ne spécifiez pas une langue, la valeur par défaut esten-US
. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.Pour afficher la sortie de débogage, sélectionnez Vue>Zone de débogage>Activer console.
Générez et exécutez l’exemple de code en sélectionnant Produit>Exécuter dans le menu ou en sélectionnant le bouton Lecture.
Important
Vérifiez que vous avez défini les variables d'environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.
Après avoir sélectionné le bouton dans l’application et prononcé quelques mots, vous devez voir le texte énoncé sur la partie inférieure de l’écran. Quand vous exécutez l’application pour la première fois, vous devez normalement être invité à autoriser l’application à accéder au microphone de votre ordinateur.
Notes
Cet exemple utilise l’opération recognizeOnce
pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Documentation de référencePackage (PyPi)Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Configurer l’environnement
Le kit SDK Speech pour Python est disponible sous forme de module Python Package Index (PyPI). Le Kit de développement logiciel (SDK) Speech pour Python est compatible avec Windows, Linux et macOS.
- Pour Windows, vous devez installer Microsoft Redistributable Visual C++ pour Visual Studio 2015, 2017, 2019 et 2022 pour votre plateforme. La toute première installation de ce package peut nécessiter un redémarrage.
- Sur Linux, vous devez utiliser l’architecture cible x64.
Installez Python 3.7 ou une version ultérieure. Pour d’autres exigences, consultez Installer le kit de développement logiciel (SDK) Speech.
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Reconnaître la voix provenant d’un micro
Suivez ces étapes pour créer une application console.
Ouvrez une invite de commandes à l’emplacement où vous souhaitez placer le nouveau projet, puis créez un nouveau fichier nommé speech_recognition.py.
Exécutez cette commande pour installer le SDK Speech :
pip install azure-cognitiveservices-speech
Copiez le code suivant dans le fichier speech_recognition.py :
import os import azure.cognitiveservices.speech as speechsdk def recognize_from_microphone(): # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION')) speech_config.speech_recognition_language="en-US" audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True) speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config) print("Speak into your microphone.") speech_recognition_result = speech_recognizer.recognize_once_async().get() if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech: print("Recognized: {}".format(speech_recognition_result.text)) elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch: print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details)) elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled: cancellation_details = speech_recognition_result.cancellation_details print("Speech Recognition canceled: {}".format(cancellation_details.reason)) if cancellation_details.reason == speechsdk.CancellationReason.Error: print("Error details: {}".format(cancellation_details.error_details)) print("Did you set the speech resource key and region values?") recognize_from_microphone()
Pour modifier la langue de la reconnaissance vocale, remplacez
en-US
par une autre langue prise en charge. Par exemple, utilisezes-ES
pour l’espagnol (Espagne). Si vous ne spécifiez pas une langue, la valeur par défaut esten-US
. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :
python speech_recognition.py
Important
Vérifiez que vous avez défini les variables d'environnement
SPEECH_KEY
etSPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites doit apparaître sous forme de texte :
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Remarques
Voici quelques autres éléments à prendre en compte :
Cet exemple utilise l’opération
recognize_once_async
pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.Pour reconnaître la parole à partir d’un fichier audio, utilisez
filename
au lieu deuse_default_microphone
:audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez
PullAudioInputStream
ouPushAudioInputStream
. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Informations de référence sur l’API REST de reconnaissance vocale | Informations de référence sur l’API REST de reconnaissance vocale pour l’audio court | Exemples supplémentaires sur GitHub
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Vous aurez également besoin d’un fichier audio .wav sur votre ordinateur local. Vous pouvez utiliser votre propre fichier .wav (jusqu’à 60 secondes) ou télécharger l’exemple de fichier https://crbn.us/whatstheweatherlike.wav.
Définir des variables d’environnement
Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.
Conseil
N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.
Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.
- Pour définir la variable d’environnement
SPEECH_KEY
, remplacez your-key par l’une des clés de votre ressource. - Pour définir la variable d’environnement
SPEECH_REGION
, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notes
Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez définir la variable d’environnement avec set
au lieu de setx
.
Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.
Utiliser la reconnaissance vocale à partir d’un fichier
Ouvrez une fenêtre de console et exécutez la commande cURL suivante. Remplacez YourAudioFile.wav par le chemin et le nom de votre fichier audio.
curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"
Important
Vérifiez que vous avez défini les variables d'environnement SPEECH_KEY
et SPEECH_REGION
comme décrit dans Définir des variables d'environnement. Si vous ne définissez pas ces variables, l’exemple échoue avec un message d’erreur.
Vous devriez recevoir une réponse similaire à ce qui est présenté ici. DisplayText
doit être le texte qui a été reconnu à partir de votre fichier audio. La commande reconnaît jusqu’à 60 secondes d’audio et la convertit en texte.
{
"RecognitionStatus": "Success",
"DisplayText": "My voice is my passport, verify me.",
"Offset": 6600000,
"Duration": 32100000
}
Pour plus d’informations, consultez API REST de reconnaissance vocale pour l’audio court.
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.
Dans ce guide de démarrage rapide, vous créez et exécutez une application pour reconnaître et transcrire la reconnaissance vocale en temps réel.
Conseil
Vous pouvez essayer la reconnaissance vocale en temps réel dans Speech Studio sans vous inscrire ni écrire de code.
Pour transcrire des fichiers audio de manière asynchrone, consultez Qu’est-ce que la transcription par lots. Si vous ne savez pas quelle solution de reconnaissance vocale est la plus adaptée pour vous, consultez Qu’est-ce que la reconnaissance vocale ?
Prérequis
- Abonnement Azure : créez-en un gratuitement.
- Créer une ressource Speech sur le portail Azure.
- Votre clé de ressource et la région Speech. Une fois votre ressource vocale déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Azure AI services, consultez Obtenir les clés de votre ressource.
Configurer l’environnement
Suivez ces étapes et consultez le guide de démarrage rapide de l’interface CLI Speech pour connaître les autres conditions requises pour votre plateforme.
Exécutez la commande CLI .NET suivante pour installer l’interface CLI Speech :
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Exécutez les commandes suivantes pour configurer la clé et la région de votre ressource Speech. Remplacez
SUBSCRIPTION-KEY
par la clé de la ressource Speech et remplacezREGION
par la région de la ressource Speech.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Reconnaître la voix provenant d’un micro
Exécutez la commande suivante pour démarrer la reconnaissance vocale à partir d’un microphone :
spx recognize --microphone --source en-US
Parlez dans le microphone et vous verrez la transcription de vos mots en texte en temps réel. L’interface CLI Speech s’arrête après une période de silence de 30 secondes ou quand vous appuyez sur Ctrl+C.
Connection CONNECTED... RECOGNIZED: I'm excited to try speech to text.
Remarques
Voici quelques autres éléments à prendre en compte :
Pour effectuer une reconnaissance vocale à partir d’un fichier audio, utilisez
--file
au lieu de--microphone
. Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez--format
. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.spx recognize --file YourAudioFile.wav spx recognize --file YourAudioFile.mp4 --format any
Pour améliorer la précision de la reconnaissance de mots ou d’énoncés spécifiques, utilisez une liste d’expressions. Vous incluez une liste d’expressions en ligne ou via un fichier texte avec la commande recognize :
spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;" spx recognize --microphone --phrases @phrases.txt
Pour modifier la langue de la reconnaissance vocale, remplacez
en-US
par une autre langue prise en charge. Par exemple, utilisezes-ES
pour l’espagnol (Espagne). Si vous ne spécifiez pas une langue, la valeur par défaut esten-US
.spx recognize --microphone --source es-ES
Pour une reconnaissance continue d’un élément audio de plus de 30 secondes, ajoutez
--continuous
:spx recognize --microphone --source es-ES --continuous
Exécutez cette commande pour obtenir des informations sur d’autres options de reconnaissance vocale, telles que l’entrée et la sortie de fichiers :
spx help recognize
Nettoyer les ressources
Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.