Démarrage rapide : Reconnaître et convertir la parole en texte

Documentation de référencePackage (NuGet)Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous exécutez une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Le kit de développement logiciel (SDK) Speech est disponible en tant que package NuGet et implémente .NET Standard 2.0. Vous installez le SDK Speech dans la section suivante de cet article, mais vous devez d’abord vérifier le guide d’installation SDK pour les éventuelles autres exigences

Reconnaître la voix provenant d’un micro

Procédez comme suit pour créer une nouvelle application console et installer le kit de développement logiciel (SDK) Speech.

  1. Ouvrez une invite de commandes à l’emplacement où vous souhaitez placer le nouveau projet, puis créez une application console avec l’interface de ligne de commande .NET.

    dotnet new console
    
  2. Installez le kit de développement logiciel (SDK) Speech dans votre nouveau projet avec l’interface CLI .NET.

    dotnet add package Microsoft.CognitiveServices.Speech
    
  3. Remplacez le contenu de Program.cs par le code suivant.

    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        static string YourSubscriptionKey = "YourSubscriptionKey";
        static string YourServiceRegion = "YourServiceRegion";
    
        static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
        {
            switch (speechRecognitionResult.Reason)
            {
                case ResultReason.RecognizedSpeech:
                    Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                    break;
                case ResultReason.NoMatch:
                    Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                    break;
                case ResultReason.Canceled:
                    var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(YourSubscriptionKey, YourServiceRegion);        
            speechConfig.SpeechRecognitionLanguage = "en-US";
    
            using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
            using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            Console.WriteLine("Speak into your microphone.");
            var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
            OutputSpeechRecognitionResult(speechRecognitionResult);
        }
    }
    
  4. Dans Program.cs, remplacez YourSubscriptionKey par votre clé de ressource Speech et remplacez YourServiceRegion par votre région de ressource Speech.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

  5. Pour modifier la langue de la reconnaissance vocale, remplacez en-US par une autre langue prise en charge. Par exemple, es-ES pour l’espagnol (Espagne). La langue par défaut est en-US si vous ne spécifiez pas de langue. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.

Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :

dotnet run

Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites devrait être généré sous forme de texte :

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Notes

Maintenant que vous avez terminé le guide de démarrage rapide, voici quelques considérations supplémentaires :

  • Cet exemple utilise l’opération RecognizeOnceAsync pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
  • Pour reconnaître la parole à partir d’un fichier audio, utilisez FromWavFileInput au lieu de FromDefaultMicrophoneInput :
    using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
    
  • Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez PullAudioInputStream ou PushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référencePackage (NuGet)Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous exécutez une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Le kit de développement logiciel (SDK) Speech est disponible en tant que package NuGet et implémente .NET Standard 2.0. Vous installez le SDK Speech dans la section suivante de cet article, mais vous devez d’abord vérifier le guide d’installation SDK pour les éventuelles autres exigences

Reconnaître la voix provenant d’un micro

Procédez comme suit pour créer une nouvelle application console et installer le kit de développement logiciel (SDK) Speech.

  1. Créez un projet console en C++ dans Visual Studio.

  2. Installez le kit de développement logiciel (SDK) Speech dans votre nouveau projet avec le gestionnaire de package NuGet.

    Install-Package Microsoft.CognitiveServices.Speech
    
  3. Remplacez le contenu de main.cpp par le code suivant :

    #include <iostream> 
    #include <speechapi_cxx.h>
    
    using namespace Microsoft::CognitiveServices::Speech;
    using namespace Microsoft::CognitiveServices::Speech::Audio;
    
    auto YourSubscriptionKey = "YourSubscriptionKey";
    auto YourServiceRegion = "YourServiceRegion";
    
    int main()
    {
        auto speechConfig = SpeechConfig::FromSubscription(YourSubscriptionKey, YourServiceRegion);
        speechConfig->SetSpeechRecognitionLanguage("en-US");
    
        auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
        auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);
    
        std::cout << "Speak into your microphone.\n";
        auto result = recognizer->RecognizeOnceAsync().get();
    
        if (result->Reason == ResultReason::RecognizedSpeech)
        {
            std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
        }
        else if (result->Reason == ResultReason::NoMatch)
        {
            std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
        }
        else if (result->Reason == ResultReason::Canceled)
        {
            auto cancellation = CancellationDetails::FromResult(result);
            std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;
    
            if (cancellation->Reason == CancellationReason::Error)
            {
                std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
                std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
                std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
            }
        }
    }
    
  4. Dans main.cpp, remplacez YourSubscriptionKey par votre clé de ressource Speech et remplacez YourServiceRegion par votre région de ressource Speech.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

  5. Pour modifier la langue de la reconnaissance vocale, remplacez en-US par une autre langue prise en charge. Par exemple, es-ES pour l’espagnol (Espagne). La langue par défaut est en-US si vous ne spécifiez pas de langue. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.

Générez et exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone.

Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites devrait être généré sous forme de texte :

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Notes

Maintenant que vous avez terminé le guide de démarrage rapide, voici quelques considérations supplémentaires :

  • Cet exemple utilise l’opération RecognizeOnceAsync pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
  • Pour reconnaître la parole à partir d’un fichier audio, utilisez FromWavFileInput au lieu de FromDefaultMicrophoneInput :
    auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav");
    
  • Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez PullAudioInputStream ou PushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référencePackage (Go)Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous exécutez une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Installer le Kit SDK Speech pour Go. Vérifiez le Guide d’installation SDK pour toute information complémentaire

Reconnaître la voix provenant d’un micro

Pour créer un nouveau module GO, procédez comme suit.

  1. Ouvrez une invite de commandes à l’emplacement où vous souhaitez placer le nouveau module, puis créez un nouveau fichier nommé speech-recognition.go.

  2. Copiez le code ci-après dans speech-recognition.go :

    package main
    
    import (
    	"bufio"
    	"fmt"
    	"os"
    
    	"github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    	"github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
    )
    
    func sessionStartedHandler(event speech.SessionEventArgs) {
    	defer event.Close()
    	fmt.Println("Session Started (ID=", event.SessionID, ")")
    }
    
    func sessionStoppedHandler(event speech.SessionEventArgs) {
    	defer event.Close()
    	fmt.Println("Session Stopped (ID=", event.SessionID, ")")
    }
    
    func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    	defer event.Close()
    	fmt.Println("Recognizing:", event.Result.Text)
    }
    
    func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
    	defer event.Close()
    	fmt.Println("Recognized:", event.Result.Text)
    }
    
    func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
    	defer event.Close()
    	fmt.Println("Received a cancellation: ", event.ErrorDetails)
        fmt.Println("Did you set the speech resource key and region values?")
    }
    
    func main() {
        key :=  "YourSubscriptionKey"
        region := "YourServiceRegion"
    
    	audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer audioConfig.Close()
    	speechConfig, err := speech.NewSpeechConfigFromSubscription(key, region)
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer speechConfig.Close()
    	speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer speechRecognizer.Close()
    	speechRecognizer.SessionStarted(sessionStartedHandler)
    	speechRecognizer.SessionStopped(sessionStoppedHandler)
    	speechRecognizer.Recognizing(recognizingHandler)
    	speechRecognizer.Recognized(recognizedHandler)
    	speechRecognizer.Canceled(cancelledHandler)
    	speechRecognizer.StartContinuousRecognitionAsync()
    	defer speechRecognizer.StopContinuousRecognitionAsync()
    	bufio.NewReader(os.Stdin).ReadBytes('\n')
    }
    
  3. Dans speech-recognition.go, remplacez YourSubscriptionKey par votre clé de ressource Speech et remplacez YourServiceRegion par votre région de ressource Speech.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

Exécutez les commandes suivantes pour créer un fichier go.mod lié aux composants hébergés sur GitHub :

go mod init speech-recognition
go get github.com/Microsoft/cognitive-services-speech-sdk-go

Maintenant, générez et exécutez le code :

go build
go run speech-recognition

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référence | Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous exécutez une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Avant de pouvoir faire quoi que ce soit, vous devez installer le SDK Speech. L’exemple de ce guide de démarrage rapide fonctionne avec le runtime Java.

  1. Installer Apache Maven
  2. Créez un fichier pom.xml à la racine de votre projet, puis copiez-y ce qui suit :
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <repositories>
            <repository>
            <id>maven-cognitiveservices-speech</id>
            <name>Microsoft Cognitive Services Speech Maven Repository</name>
            <url>https://azureai.azureedge.net/maven/</url>
            </repository>
        </repositories>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.23.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Installez le SDK Speech et les dépendances.
    mvn clean dependency:copy-dependencies
    

Reconnaître la voix provenant d’un micro

Suivez ces étapes pour créer une nouvelle application console pour la reconnaissance vocale.

  1. Créez un fichier nommé SpeechRecognition.java dans le même répertoire racine du projet.

  2. Copiez le code ci-après dans SpeechRecognition.java :

    import com.microsoft.cognitiveservices.speech.*;
    import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
    
    import java.util.concurrent.ExecutionException;
    import java.util.concurrent.Future;
    
    public class SpeechRecognition {
        private static String YourSubscriptionKey = "YourSubscriptionKey";
        private static String YourServiceRegion = "YourServiceRegion";
    
        public static void main(String[] args) throws InterruptedException, ExecutionException {
            SpeechConfig speechConfig = SpeechConfig.fromSubscription(YourSubscriptionKey, YourServiceRegion);
            speechConfig.setSpeechRecognitionLanguage("en-US");
            recognizeFromMicrophone(speechConfig);
        }
    
        public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
            SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            System.out.println("Speak into your microphone.");
            Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
            SpeechRecognitionResult speechRecognitionResult = task.get();
    
            if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
                System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
            }
            else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
                System.out.println("NOMATCH: Speech could not be recognized.");
            }
            else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
                CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
                System.out.println("CANCELED: Reason=" + cancellation.getReason());
    
                if (cancellation.getReason() == CancellationReason.Error) {
                    System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                    System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                    System.out.println("CANCELED: Did you set the speech resource key and region values?");
                }
            }
    
            System.exit(0);
        }
    }
    
  3. Dans SpeechRecognition.java, remplacez YourSubscriptionKey par votre clé de ressource Speech et remplacez YourServiceRegion par votre région de ressource Speech.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

  4. Pour modifier la langue de la reconnaissance vocale, remplacez en-US par une autre langue prise en charge. Par exemple, es-ES pour l’espagnol (Espagne). La langue par défaut est en-US si vous ne spécifiez pas de langue. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.

Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :

javac SpeechRecognition.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechRecognition

Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites devrait être généré sous forme de texte :

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Notes

Maintenant que vous avez terminé le guide de démarrage rapide, voici quelques considérations supplémentaires :

  • Cet exemple utilise l’opération RecognizeOnceAsync pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
  • Pour reconnaître la parole à partir d’un fichier audio, utilisez fromWavFileInput au lieu de fromDefaultMicrophoneInput :
    AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
    
  • Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez PullAudioInputStream ou PushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référencePackage (npm)Exemples supplémentaires sur GitHubCode source de la bibliothèque

Dans ce guide de démarrage rapide, vous exécutez une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Avant de pouvoir faire quoi que ce soit, vous devez installer le SDK Speech pour JavaScript. Si vous voulez simplement le nom du package pour effectuer l’installation, exécutez npm install microsoft-cognitiveservices-speech-sdk. Pour obtenir des instructions d’installation, consultez le guide d’installation SDK.

Utiliser la reconnaissance vocale à partir d’un fichier

Suivez ces étapes pour créer une application console Node.js à des fins de reconnaissance vocale.

  1. Ouvrez une invite de commandes à l’emplacement où vous souhaitez placer le nouveau projet, puis créez un nouveau fichier nommé SpeechRecognition.js.

  2. Installez le SDK Speech pour JavaScript :

    npm install microsoft-cognitiveservices-speech-sdk
    
  3. Copiez le code ci-après dans SpeechRecognition.js :

    const fs = require("fs");
    const sdk = require("microsoft-cognitiveservices-speech-sdk");
    const speechConfig = sdk.SpeechConfig.fromSubscription("YourSubscriptionKey", "YourServiceRegion");
    speechConfig.speechRecognitionLanguage = "en-US";
    
    function fromFile() {
        let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
        let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);
    
        speechRecognizer.recognizeOnceAsync(result => {
            switch (result.reason) {
                case sdk.ResultReason.RecognizedSpeech:
                    console.log(`RECOGNIZED: Text=${result.text}`);
                    break;
                case sdk.ResultReason.NoMatch:
                    console.log("NOMATCH: Speech could not be recognized.");
                    break;
                case sdk.ResultReason.Canceled:
                    const cancellation = sdk.CancellationDetails.fromResult(result);
                    console.log(`CANCELED: Reason=${cancellation.reason}`);
    
                    if (cancellation.reason == sdk.CancellationReason.Error) {
                        console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                        console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                        console.log("CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
            speechRecognizer.close();
        });
    }
    fromFile();
    
  4. Dans SpeechRecognition.js, remplacez YourSubscriptionKey par votre clé de ressource Speech et remplacez YourServiceRegion par votre région de ressource Speech.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

  5. Dans SpeechRecognition.js, remplacez YourAudioFile.wav par votre propre fichier WAV. Cet exemple reconnaît uniquement la voix à partir d’un fichier WAV. Pour plus d’informations sur d’autres formats audio, consultez Utilisation de l’audio d’entrée compressée. Cet exemple prend en charge jusqu’à 30 secondes de son.

  6. Pour modifier la langue de la reconnaissance vocale, remplacez en-US par une autre langue prise en charge. Par exemple, es-ES pour l’espagnol (Espagne). La langue par défaut est en-US si vous ne spécifiez pas de langue. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.

Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un fichier :

node.exe SpeechRecognition.js

La parole du fichier audio doit être générée sous forme de texte :

RECOGNIZED: Text=I'm excited to try speech to text.

Notes

Maintenant que vous avez terminé le guide de démarrage rapide, voici quelques considérations supplémentaires :

Cet exemple utilise l’opération recognizeOnceAsync pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.

Notes

La reconnaissance de la parole à partir d’un microphone n’est pas prise en charge dans Node.js. Elle est prise en charge uniquement dans un environnement JavaScript basé sur un navigateur. Pour plus d’informations, consultez l’exemple React et l’implémentation de la conversion de parole en texte à partir d’un microphone sur GitHub. L’exemple React présente les modèles de conception pour l’échange et la gestion des jetons d’authentification. Il montre également la capture de l’audio à partir d’un microphone ou d’un fichier pour les conversions de parole en texte.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référencePackage (Télécharger)Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous exécutez une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Le kit de développement logiciel (SDK) Speech pour Objective-C est distribué en tant que bundle de framework. L’infrastructure prend en charge Objective-C et Swift sur iOS et macOS.

Le kit de développement logiciel (SDK) Speech peut être utilisé dans les projets Xcode en tant que CocoaPod, ou téléchargé directement ici et lié manuellement. Ce guide utilise un CocoaPod. Installez le gestionnaire de dépendances de CocoaPod comme décrit dans ses instructions d’installation.

Reconnaître la voix provenant d’un micro

Pour reconnaître la parole dans une application macOS, procédez comme suit.

  1. Clonez le référentiel Azure-Samples/cognitive-services-speech-sdk pour obtenir la reconnaissance vocale à partir d’un microphone dans l’exemple de projet Objective-C sur macOS. Le référentiel contient également des exemples iOS.

  2. Accédez au répertoire de l’exemple d’application téléchargé (helloworld) dans un terminal.

  3. Exécutez la commande pod install. Ceci génère espace de travail Xcode helloworld.xcworkspace contenant l’exemple d’application et le SDK Speech en tant que dépendance.

  4. Ouvrez l’espace de travail helloworld.xcworkspace dans Xcode.

  5. Ouvrez le fichier nommé AppDelegate.m et recherchez la méthode buttonPressed comme indiqué ici.

    - (void)buttonPressed:(NSButton *)button {
        // Creates an instance of a speech config with specified subscription key and service region.
        // Replace with your own subscription key // and service region (e.g., "westus").
        NSString *speechKey = @"YourSubscriptionKey";
        NSString *serviceRegion = @"YourServiceRegion";
    
        SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithMicrophone:nil];
        SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion];
        SPXSpeechRecognizer *speechRecognizer = [[SPXSpeechRecognizer alloc] initWithSpeechConfiguration:speechConfig language:@"en-US" audioConfiguration:audioConfig];
    
        NSLog(@"Speak into your microphone.");
    
        SPXSpeechRecognitionResult *speechResult = [speechRecognizer recognizeOnce];
    
        // Checks result.
        if (SPXResultReason_Canceled == speechResult.reason) {
            SPXCancellationDetails *details = [[SPXCancellationDetails alloc] initFromCanceledRecognitionResult:speechResult];
            NSLog(@"Speech recognition was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails);
            [self.label setStringValue:([NSString stringWithFormat:@"Canceled: %@", details.errorDetails])];
        } else if (SPXResultReason_RecognizedSpeech == speechResult.reason) {
            NSLog(@"Speech recognition result received: %@", speechResult.text);
            [self.label setStringValue:(speechResult.text)];
        } else {
            NSLog(@"There was an error.");
            [self.label setStringValue:(@"Speech Recognition Error")];
        }
    }
    
  6. Dans AppDelegate.m, remplacez YourSubscriptionKey par votre clé de ressource Speech et remplacez YourServiceRegion par votre région de ressource Speech.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

  7. Pour modifier la langue de la reconnaissance vocale, remplacez en-US par une autre langue prise en charge. Par exemple, es-ES pour l’espagnol (Espagne). La langue par défaut est en-US si vous ne spécifiez pas de langue. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.

  8. Affichez la sortie de débogage (View>Debug Area>Activate Console).

  9. Générez et exécutez l’exemple de code en sélectionnant Product ->Run dans le menu, ou en sélectionnant le bouton Play.

Après avoir sélectionné le bouton dans l’application et prononcé quelques mots, vous devez voir le texte énoncé sur la partie inférieure de l’écran. Quand vous exécutez l’application pour la première fois, vous devez normalement être invité à autoriser l’application à accéder au microphone de votre ordinateur.

Notes

Maintenant que vous avez terminé le guide de démarrage rapide, voici quelques considérations supplémentaires :

  • Cet exemple utilise l’opération recognizeOnce pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
  • Pour reconnaître la parole à partir d’un fichier audio, utilisez initWithWavFileInput au lieu de initWithMicrophone :
    SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithWavFileInput:YourAudioFile];
    

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référencePackage (Télécharger)Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous exécutez une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Le kit de développement logiciel (SDK) Speech pour Swift est distribué en tant que bundle de framework. L’infrastructure prend en charge Objective-C et Swift sur iOS et macOS.

Le kit de développement logiciel (SDK) Speech peut être utilisé dans les projets Xcode en tant que CocoaPod, ou téléchargé directement ici et lié manuellement. Ce guide utilise un CocoaPod. Installez le gestionnaire de dépendances de CocoaPod comme décrit dans ses instructions d’installation.

Reconnaître la voix provenant d’un micro

Pour reconnaître la parole dans une application macOS, procédez comme suit.

  1. Clonez le référentiel Azure-Samples/cognitive-services-speech-sdk pour obtenir la reconnaissance vocale à partir d’un microphone dans l’exemple de projet Swift sur macOS. Le référentiel contient également des exemples iOS.

  2. Accédez au répertoire de l’exemple d’application téléchargé (helloworld) dans un terminal.

  3. Exécutez la commande pod install. Ceci génère espace de travail Xcode helloworld.xcworkspace contenant l’exemple d’application et le SDK Speech en tant que dépendance.

  4. Ouvrez l’espace de travail helloworld.xcworkspace dans Xcode.

  5. Ouvrez le fichier nommé AppDelegate.swift et recherchez les méthodes applicationDidFinishLaunching et recognizeFromMic comme indiqué ici.

    import Cocoa
    
    @NSApplicationMain
    class AppDelegate: NSObject, NSApplicationDelegate {
        var label: NSTextField!
        var fromMicButton: NSButton!
    
        var sub: String!
        var region: String!
    
        @IBOutlet weak var window: NSWindow!
    
        func applicationDidFinishLaunching(_ aNotification: Notification) {
            print("loading")
            // load subscription information
            sub = "YourSubscriptionKey"
            region = "YourServiceRegion"
    
            label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
            label.textColor = NSColor.black
            label.lineBreakMode = .byWordWrapping
    
            label.stringValue = "Recognition Result"
            label.isEditable = false
    
            self.window.contentView?.addSubview(label)
    
            fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
            fromMicButton.title = "Recognize"
            fromMicButton.target = self
            fromMicButton.action = #selector(fromMicButtonClicked)
            self.window.contentView?.addSubview(fromMicButton)
        }
    
        @objc func fromMicButtonClicked() {
            DispatchQueue.global(qos: .userInitiated).async {
                self.recognizeFromMic()
            }
        }
    
        func recognizeFromMic() {
            var speechConfig: SPXSpeechConfiguration?
            do {
                try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
            } catch {
                print("error \(error) happened")
                speechConfig = nil
            }
            speechConfig?.speechRecognitionLanguage = "en-US"
    
            let audioConfig = SPXAudioConfiguration()
    
            let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)
    
            reco.addRecognizingEventHandler() {reco, evt in
                print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
                self.updateLabel(text: evt.result.text, color: .gray)
            }
    
            updateLabel(text: "Listening ...", color: .gray)
            print("Listening...")
    
            let result = try! reco.recognizeOnce()
            print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
            updateLabel(text: result.text, color: .black)
    
            if result.reason != SPXResultReason.recognizedSpeech {
                let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
                print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
                print("Did you set the speech resource key and region values?")
                updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
            }
        }
    
        func updateLabel(text: String?, color: NSColor) {
            DispatchQueue.main.async {
                self.label.stringValue = text!
                self.label.textColor = color
            }
        }
    }
    
  6. Dans AppDelegate.m, remplacez YourSubscriptionKey par votre clé de ressource Speech et remplacez YourServiceRegion par votre région de ressource Speech.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

  7. Pour modifier la langue de la reconnaissance vocale, remplacez en-US par une autre langue prise en charge. Par exemple, es-ES pour l’espagnol (Espagne). La langue par défaut est en-US si vous ne spécifiez pas de langue. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.

  8. Affichez la sortie de débogage en sélectionnant View>Debug Area>Activate Console.

  9. Générez et exécutez l’exemple de code en sélectionnant Product ->Run dans le menu, ou en sélectionnant le bouton Play.

Après avoir sélectionné le bouton dans l’application et prononcé quelques mots, vous devez voir le texte énoncé sur la partie inférieure de l’écran. Quand vous exécutez l’application pour la première fois, vous devez normalement être invité à autoriser l’application à accéder au microphone de votre ordinateur.

Notes

Maintenant que vous avez terminé le guide de démarrage rapide, voici quelques considérations supplémentaires :

Cet exemple utilise l’opération recognizeOnce pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référencePackage (PyPi)Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous exécutez une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Le kit SDK Speech pour Python est disponible sous forme de module Python Package Index (PyPI). Le Kit de développement logiciel (SDK) Speech pour Python est compatible avec Windows, Linux et macOS.

Installez une version récente de Python (version 3.7 à 3.10). Vérifiez d’abord le guide d’installation SDK pour toute information complémentaire.

Reconnaître la voix provenant d’un micro

Suivez ces étapes pour créer une nouvelle application console.

  1. Ouvrez une invite de commandes à l’emplacement où vous souhaitez placer le nouveau projet, puis créez un nouveau fichier nommé speech-recognition.py.

  2. Exécutez cette commande pour installer le SDK Speech :

    pip install azure-cognitiveservices-speech
    
  3. Copiez le code ci-après dans speech_recognition.py :

    import azure.cognitiveservices.speech as speechsdk
    
    def recognize_from_microphone():
        speech_config = speechsdk.SpeechConfig(subscription="YourSubscriptionKey", region="YourServiceRegion")
        speech_config.speech_recognition_language="en-US"
    
        audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
        speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)
    
        print("Speak into your microphone.")
        speech_recognition_result = speech_recognizer.recognize_once_async().get()
    
        if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
            print("Recognized: {}".format(speech_recognition_result.text))
        elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
            print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
        elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
            cancellation_details = speech_recognition_result.cancellation_details
            print("Speech Recognition canceled: {}".format(cancellation_details.reason))
            if cancellation_details.reason == speechsdk.CancellationReason.Error:
                print("Error details: {}".format(cancellation_details.error_details))
                print("Did you set the speech resource key and region values?")
    
    recognize_from_microphone()
    
  4. Dans speech_recognition.py, remplacez YourSubscriptionKey par votre clé de ressource Speech et remplacez YourServiceRegion par votre région de ressource Speech.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

  5. Pour modifier la langue de la reconnaissance vocale, remplacez en-US par une autre langue prise en charge. Par exemple, es-ES pour l’espagnol (Espagne). La langue par défaut est en-US si vous ne spécifiez pas de langue. Pour plus d’informations sur l’identification de l’une des langues qui peuvent être parlées, consultez Identification de la langue.

Exécutez votre nouvelle application console pour démarrer la reconnaissance vocale à partir d’un microphone :

python speech_recognition.py

Parlez dans votre microphone lorsque vous y êtes invité. Ce que vous dites devrait être généré sous forme de texte :

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Notes

Maintenant que vous avez terminé le guide de démarrage rapide, voici quelques considérations supplémentaires :

  • Cet exemple utilise l’opération recognize_once_async pour transcrire les énoncés de jusqu’à 30 secondes ou jusqu’à ce que le silence soit détecté. Pour plus d’informations sur la reconnaissance continue des données audio plus longues, y compris les conversations multilingues, consultez Comment effectuer la reconnaissance vocale.
  • Pour reconnaître la parole à partir d’un fichier audio, utilisez filename au lieu de use_default_microphone :
    audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
    
  • Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez PullAudioInputStream ou PushAudioInputStream. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Informations de référence sur l’API REST de reconnaissance vocale v3.0 | Informations de référence sur l’API REST de reconnaissance vocale pour l’audio court | Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous allez exécuter une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Utiliser la reconnaissance vocale à partir d’un fichier

Depuis une invite de commandes, exécutez la commande cURL suivante. Insérez les valeurs suivantes dans la commande. Remplacez YourSubscriptionKey par votre clé de ressource Speech, YourServiceRegion par votre région de ressource Speech, et YourAudioFile.wav par le chemin d’accès et le nom de votre fichier audio.

Important

N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité de Cognitive Services.

key="YourSubscriptionKey"
region="YourServiceRegion"
audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://$region.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US" \
--header "Ocp-Apim-Subscription-Key: $key" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

Vous devriez recevoir une réponse similaire à ce qui est présenté ici. DisplayText doit être le texte qui a été reconnu à partir de votre fichier audio. Jusqu’à 30 secondes d’audio seront reconnues et converties en texte.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

Pour plus d’informations, consultez API REST de reconnaissance vocale pour l’audio court.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Dans ce guide de démarrage rapide, vous allez exécuter une application pour reconnaître et transcrire les paroles humaines (ce qu’on appelle souvent reconnaissance vocale).

Conseil

Pour tester le service Speech sans écrire de code, créez un projet dans Speech Studio.

Prérequis

Configurer l’environnement

Suivez ces étapes et consultez le guide de démarrage rapide de l’interface CLI Speech pour connaître les autres conditions requises pour votre plateforme.

  1. Installez l’interface CLI Speech à l’aide de l’interface CLI .NET en entrant cette commande :

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Configurez la clé et la région de votre ressource Speech en exécutant les commandes suivantes. Remplacez SUBSCRIPTION-KEY par la clé de votre ressource Speech et REGION par la région de votre ressource Speech :

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Reconnaître la voix provenant d’un micro

Exécutez la commande suivante pour démarrer la reconnaissance vocale à partir d’un microphone :

spx recognize --microphone --source en-US

Parlez dans le microphone et vous verrez la transcription de vos mots en texte en temps réel. L’interface CLI Speech s’arrête après une période de silence de 30 secondes ou quand vous appuyez sur Ctrl+C.

Connection CONNECTED...
RECOGNIZED: I'm excited to try speech to text.

Notes

Maintenant que vous avez terminé le guide de démarrage rapide, voici quelques considérations supplémentaires :

  • Pour effectuer une reconnaissance vocale à partir d’un fichier audio, utilisez --file au lieu de --microphone. Pour les fichiers audio compressés tels que les fichiers MP4, installez GStreamer et utilisez --format. Pour plus d’informations, consultez Utilisation de l’audio d’entrée compressée.
    spx recognize --file YourAudioFile.wav
    spx recognize --file YourAudioFile.mp4 --format any
    
  • Pour améliorer la précision de la reconnaissance de mots ou d’énoncés spécifiques, utilisez une liste d’expressions. Vous incluez une liste d’expressions en ligne ou via un fichier texte avec la commande recognize :
    spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
    spx recognize --microphone --phrases @phrases.txt
    
  • Pour modifier la langue de la reconnaissance vocale, remplacez en-US par une autre langue prise en charge. Par exemple, es-ES pour l’espagnol (Espagne). La langue par défaut est en-US si vous ne spécifiez pas de langue.
    spx recognize --microphone --source es-ES
    
  • Pour une reconnaissance continue d’un élément audio de plus de 30 secondes, ajoutez --continuous :
    spx recognize --microphone --source es-ES --continuous
    

Exécutez cette commande pour obtenir des informations sur d’autres options de reconnaissance vocale, telles que l’entrée et la sortie de fichiers :

spx help recognize

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Étapes suivantes