Quickstart: Spraak herkennen en converteren naar tekst

Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een toepassing uit om menselijke spraak te herkennen en te transcriberen (vaak spraak-naar-tekst genoemd).

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder dat u zich hoeft te registreren of code hoeft te schrijven.

Vereisten

De omgeving instellen

De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt op halen, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en publiceer deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige console die wordt uitgevoerd, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen met een microfoon

Volg deze stappen om een nieuwe consoletoepassing te maken en de Speech SDK te installeren.

  1. Open een opdrachtprompt waar u het nieuwe project wilt en maak een consoletoepassing met de .NET CLI. Het Program.cs bestand moet worden gemaakt in de projectmap.

    dotnet new console
    
  2. Installeer de Speech SDK in uw nieuwe project met de .NET CLI.

    dotnet add package Microsoft.CognitiveServices.Speech
    
  3. Vervang de inhoud van Program.cs door de volgende code.

    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
        {
            switch (speechRecognitionResult.Reason)
            {
                case ResultReason.RecognizedSpeech:
                    Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                    break;
                case ResultReason.NoMatch:
                    Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                    break;
                case ResultReason.Canceled:
                    var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);        
            speechConfig.SpeechRecognitionLanguage = "en-US";
    
            using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
            using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            Console.WriteLine("Speak into your microphone.");
            var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
            OutputSpeechRecognitionResult(speechRecognitionResult);
        }
    }
    
  4. Als u de taal voor spraakherkenning wilt wijzigen, vervangt u door en-US een andere ondersteunde taal. Bijvoorbeeld es-ES voor Spaans (Spanje). De standaardtaal is en-US als u geen taal opgeeft. Zie Taalidentificatie voor meer informatie over het identificeren van een van meerdere talen die mogelijk worden gesproken.

Voer de nieuwe consoletoepassing uit om spraakherkenning te starten vanaf een microfoon:

dotnet run

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

Spreek in de microfoon wanneer u hierom wordt gevraagd. Wat u spreekt, moet worden uitgevoerd als tekst:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Opmerkingen

Nu u de quickstart hebt voltooid, volgen hier enkele aanvullende overwegingen:

  • In dit voorbeeld wordt de RecognizeOnceAsync bewerking gebruikt om uitingen van maximaal 30 seconden te transcriberen, of totdat stilte wordt gedetecteerd. Zie Spraak herkennen voor informatie over continue herkenning voor langere audio, inclusief meertalige gesprekken.
  • Als u spraak uit een audiobestand wilt herkennen, gebruikt FromWavFileInput u in plaats van FromDefaultMicrophoneInput:
    using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
    
  • Voor gecomprimeerde audiobestanden zoals MP4 installeert u GStreamer en gebruikt PullAudioInputStream u of PushAudioInputStream. Zie Gecomprimeerde invoeraudio gebruiken voor meer informatie.

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een toepassing uit om menselijke spraak te herkennen en te transcriberen (vaak spraak-naar-tekst genoemd).

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder dat u zich hoeft te registreren of code hoeft te schrijven.

Vereisten

De omgeving instellen

De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt op halen, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en publiceer deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige actieve console, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen met een microfoon

Volg deze stappen om een nieuwe consoletoepassing te maken en de Speech SDK te installeren.

  1. Maak een nieuw C++-consoleproject in Visual Studio Community 2022 met de naam SpeechRecognition.

  2. Installeer de Speech SDK in uw nieuwe project met nuGet-pakketbeheer.

    Install-Package Microsoft.CognitiveServices.Speech
    
  3. Vervang de inhoud van SpeechRecognition.cpp door de volgende code:

    #include <iostream> 
    #include <stdlib.h>
    #include <speechapi_cxx.h>
    
    using namespace Microsoft::CognitiveServices::Speech;
    using namespace Microsoft::CognitiveServices::Speech::Audio;
    
    std::string GetEnvironmentVariable(const char* name);
    
    int main()
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
        auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");
    
        if ((size(speechKey) == 0) || (size(speechRegion) == 0)) {
            std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl;
            return -1;
        }
    
        auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion);
    
        speechConfig->SetSpeechRecognitionLanguage("en-US");
    
        auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
        auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);
    
        std::cout << "Speak into your microphone.\n";
        auto result = recognizer->RecognizeOnceAsync().get();
    
        if (result->Reason == ResultReason::RecognizedSpeech)
        {
            std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
        }
        else if (result->Reason == ResultReason::NoMatch)
        {
            std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
        }
        else if (result->Reason == ResultReason::Canceled)
        {
            auto cancellation = CancellationDetails::FromResult(result);
            std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;
    
            if (cancellation->Reason == CancellationReason::Error)
            {
                std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
                std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
                std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
            }
        }
    }
    
    std::string GetEnvironmentVariable(const char* name)
    {
    #if defined(_MSC_VER)
        size_t requiredSize = 0;
        (void)getenv_s(&requiredSize, nullptr, 0, name);
        if (requiredSize == 0)
        {
            return "";
        }
        auto buffer = std::make_unique<char[]>(requiredSize);
        (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
        return buffer.get();
    #else
        auto value = getenv(name);
        return value ? value : "";
    #endif
    }
    
  4. Als u de taal voor spraakherkenning wilt wijzigen, vervangt u door en-US een andere ondersteunde taal. Bijvoorbeeld es-ES voor Spaans (Spanje). De standaardtaal is en-US als u geen taal opgeeft. Zie Taalidentificatie voor meer informatie over het identificeren van een van de talen die mogelijk worden gesproken.

Bouw de nieuwe consoletoepassing en voer deze uit om spraakherkenning te starten vanaf een microfoon.

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

Spreek in uw microfoon wanneer u hierom wordt gevraagd. Wat u spreekt, moet worden uitgevoerd als tekst:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Opmerkingen

Nu u de quickstart hebt voltooid, volgen hier enkele aanvullende overwegingen:

  • In dit voorbeeld wordt de RecognizeOnceAsync bewerking gebruikt om uitingen van maximaal 30 seconden te transcriberen of totdat stilte wordt gedetecteerd. Zie Spraak herkennen voor informatie over continue herkenning voor langere audio, inclusief meertalige gesprekken.
  • Als u spraak uit een audiobestand wilt herkennen, gebruikt FromWavFileInput u in plaats van FromDefaultMicrophoneInput:
    auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav");
    
  • Voor gecomprimeerde audiobestanden zoals MP4 installeert u GStreamer en gebruikt u PullAudioInputStream of PushAudioInputStream. Zie Gecomprimeerde invoeraudio gebruiken voor meer informatie.

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Referentiedocumentatie | Pakket (Ga) | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een toepassing uit om menselijke spraak (vaak spraak-naar-tekst) te herkennen en te transcriberen.

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder u te registreren of code te schrijven.

Vereisten

De omgeving instellen

Installeer de Speech-SDK voor Go. Raadpleeg de SDK-installatiehandleiding voor meer vereisten.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Zodra u bijvoorbeeld een sleutel voor uw Spraak-resource hebt, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en plaats deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw spraakresourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige actieve console, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen met een microfoon

Volg deze stappen om een nieuwe GO-module te maken.

  1. Open een opdrachtprompt waar u de nieuwe module wilt en maak een nieuw bestand met de naam speech-recognition.go.

  2. Kopieer de volgende code naar speech-recognition.go:

    package main
    
    import (
    	"bufio"
    	"fmt"
    	"os"
    
    	"github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    	"github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
    )
    
    func sessionStartedHandler(event speech.SessionEventArgs) {
    	defer event.Close()
    	fmt.Println("Session Started (ID=", event.SessionID, ")")
    }
    
    func sessionStoppedHandler(event speech.SessionEventArgs) {
    	defer event.Close()
    	fmt.Println("Session Stopped (ID=", event.SessionID, ")")
    }
    
    func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    	defer event.Close()
    	fmt.Println("Recognizing:", event.Result.Text)
    }
    
    func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
    	defer event.Close()
    	fmt.Println("Recognized:", event.Result.Text)
    }
    
    func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
    	defer event.Close()
    	fmt.Println("Received a cancellation: ", event.ErrorDetails)
        fmt.Println("Did you set the speech resource key and region values?")
    }
    
    func main() {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        speechKey :=  os.Getenv("SPEECH_KEY")
        speechRegion := os.Getenv("SPEECH_REGION")
    
    	audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer audioConfig.Close()
    	speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer speechConfig.Close()
    	speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer speechRecognizer.Close()
    	speechRecognizer.SessionStarted(sessionStartedHandler)
    	speechRecognizer.SessionStopped(sessionStoppedHandler)
    	speechRecognizer.Recognizing(recognizingHandler)
    	speechRecognizer.Recognized(recognizedHandler)
    	speechRecognizer.Canceled(cancelledHandler)
    	speechRecognizer.StartContinuousRecognitionAsync()
    	defer speechRecognizer.StopContinuousRecognitionAsync()
    	bufio.NewReader(os.Stdin).ReadBytes('\n')
    }
    

Voer de volgende opdrachten uit om een go.mod bestand te maken dat is gekoppeld aan onderdelen die worden gehost op GitHub:

go mod init speech-recognition
go get github.com/Microsoft/cognitive-services-speech-sdk-go

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

Bouw nu de code en voer deze uit:

go build
go run speech-recognition

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Referentiedocumentatie | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een toepassing uit om menselijke spraak te herkennen en te transcriberen (vaak spraak-naar-tekst genoemd).

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder dat u zich hoeft te registreren of code hoeft te schrijven.

Vereisten

De omgeving instellen

Voordat u iets kunt doen, moet u de Speech SDK installeren. Het voorbeeld in deze quickstart werkt met de Java-runtime.

  1. Installeer Apache Maven. Voer vervolgens uit mvn -v om te bevestigen dat de installatie is geslaagd.
  2. Maak een nieuw pom.xml bestand in de hoofdmap van uw project en kopieer het volgende erin:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.24.2</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Installeer de Speech SDK en afhankelijkheden.
    mvn clean dependency:copy-dependencies
    

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt op halen, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en publiceer deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige console die wordt uitgevoerd, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen met een microfoon

Volg deze stappen om een nieuwe consoletoepassing voor spraakherkenning te maken.

  1. Maak een nieuw bestand met de naam SpeechRecognition.java in dezelfde projecthoofdmap.

  2. Kopieer de volgende code naar SpeechRecognition.java:

    import com.microsoft.cognitiveservices.speech.*;
    import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
    
    import java.util.concurrent.ExecutionException;
    import java.util.concurrent.Future;
    
    public class SpeechRecognition {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        private static String speechKey = System.getenv("SPEECH_KEY");
        private static String speechRegion = System.getenv("SPEECH_REGION");
    
        public static void main(String[] args) throws InterruptedException, ExecutionException {
            SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion);
            speechConfig.setSpeechRecognitionLanguage("en-US");
            recognizeFromMicrophone(speechConfig);
        }
    
        public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
            SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            System.out.println("Speak into your microphone.");
            Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
            SpeechRecognitionResult speechRecognitionResult = task.get();
    
            if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
                System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
            }
            else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
                System.out.println("NOMATCH: Speech could not be recognized.");
            }
            else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
                CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
                System.out.println("CANCELED: Reason=" + cancellation.getReason());
    
                if (cancellation.getReason() == CancellationReason.Error) {
                    System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                    System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                    System.out.println("CANCELED: Did you set the speech resource key and region values?");
                }
            }
    
            System.exit(0);
        }
    }
    
  3. Als u de taal voor spraakherkenning wilt wijzigen, vervangt u door en-US een andere ondersteunde taal. Bijvoorbeeld es-ES voor Spaans (Spanje). De standaardtaal is en-US als u geen taal opgeeft. Zie Taalidentificatie voor meer informatie over het identificeren van een van meerdere talen die mogelijk worden gesproken.

Voer de nieuwe consoletoepassing uit om spraakherkenning te starten vanaf een microfoon:

javac SpeechRecognition.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechRecognition

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

Spreek in de microfoon wanneer u hierom wordt gevraagd. Wat u spreekt, moet worden uitgevoerd als tekst:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Opmerkingen

Nu u de quickstart hebt voltooid, volgen hier enkele aanvullende overwegingen:

  • In dit voorbeeld wordt de RecognizeOnceAsync bewerking gebruikt om uitingen van maximaal 30 seconden te transcriberen, of totdat stilte wordt gedetecteerd. Zie Spraak herkennen voor informatie over continue herkenning voor langere audio, inclusief meertalige gesprekken.
  • Als u spraak uit een audiobestand wilt herkennen, gebruikt fromWavFileInput u in plaats van fromDefaultMicrophoneInput:
    AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
    
  • Voor gecomprimeerde audiobestanden zoals MP4 installeert u GStreamer en gebruikt PullAudioInputStream u of PushAudioInputStream. Zie Gecomprimeerde invoeraudio gebruiken voor meer informatie.

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Referentiedocumentatie | Pakket (npm) | Aanvullende voorbeelden op GitHub | Broncode van bibliotheek

In deze quickstart voert u een toepassing uit om menselijke spraak te herkennen en te transcriberen (vaak spraak-naar-tekst genoemd).

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder dat u zich hoeft te registreren of code hoeft te schrijven.

Vereisten

U hebt ook een .wav audiobestand op uw lokale computer nodig. U kunt uw eigen .wav bestand gebruiken (maximaal 30 seconden) of het https://crbn.us/whatstheweatherlike.wav voorbeeldbestand downloaden.

De omgeving instellen

Voordat u iets kunt doen, moet u de Speech SDK voor JavaScript installeren. Als u alleen de pakketnaam wilt installeren, voert u uit npm install microsoft-cognitiveservices-speech-sdk. Zie de SDK-installatiehandleiding voor begeleide installatie-instructies.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Zodra u bijvoorbeeld een sleutel voor uw Spraak-resource hebt, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en plaats deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw spraakresourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige actieve console, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen uit een bestand

Volg deze stappen om een Node.js-consoletoepassing voor spraakherkenning te maken.

  1. Open een opdrachtprompt waar u het nieuwe project wilt en maak een nieuw bestand met de naam SpeechRecognition.js.

  2. Installeer de Speech SDK voor JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  3. Kopieer de volgende code naar SpeechRecognition.js:

    const fs = require("fs");
    const sdk = require("microsoft-cognitiveservices-speech-sdk");
    
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
    speechConfig.speechRecognitionLanguage = "en-US";
    
    function fromFile() {
        let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
        let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);
    
        speechRecognizer.recognizeOnceAsync(result => {
            switch (result.reason) {
                case sdk.ResultReason.RecognizedSpeech:
                    console.log(`RECOGNIZED: Text=${result.text}`);
                    break;
                case sdk.ResultReason.NoMatch:
                    console.log("NOMATCH: Speech could not be recognized.");
                    break;
                case sdk.ResultReason.Canceled:
                    const cancellation = sdk.CancellationDetails.fromResult(result);
                    console.log(`CANCELED: Reason=${cancellation.reason}`);
    
                    if (cancellation.reason == sdk.CancellationReason.Error) {
                        console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                        console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                        console.log("CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
            speechRecognizer.close();
        });
    }
    fromFile();
    
  4. YourAudioFile.wav Vervang in SpeechRecognition.jsdoor uw eigen WAV-bestand. In dit voorbeeld wordt alleen spraak uit een WAV-bestand herkend. Zie Gecomprimeerde invoeraudio gebruiken voor informatie over andere audio-indelingen. In dit voorbeeld wordt maximaal 30 seconden audio ondersteund.

  5. Als u de taal voor spraakherkenning wilt wijzigen, vervangt u door en-US een andere ondersteunde taal. Bijvoorbeeld es-ES voor Spaans (Spanje). De standaardtaal is en-US als u geen taal opgeeft. Zie Taalidentificatie voor meer informatie over het identificeren van een van de talen die mogelijk worden gesproken.

Voer de nieuwe consoletoepassing uit om spraakherkenning te starten vanuit een bestand:

node.exe SpeechRecognition.js

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

De spraak uit het audiobestand moet als tekst worden uitgevoerd:

RECOGNIZED: Text=I'm excited to try speech to text.

Opmerkingen

Nu u de quickstart hebt voltooid, volgen hier enkele aanvullende overwegingen:

In dit voorbeeld wordt de recognizeOnceAsync bewerking gebruikt om uitingen van maximaal 30 seconden te transcriberen of totdat stilte wordt gedetecteerd. Zie Spraak herkennen voor informatie over continue herkenning voor langere audio, inclusief meertalige gesprekken.

Notitie

Het herkennen van spraak vanuit een microfoon wordt niet ondersteund in Node.js. Het wordt alleen ondersteund in een browsergebaseerde JavaScript-omgeving. Zie het voorbeeld React en de implementatie van spraak-naar-tekst vanuit een microfoon op GitHub voor meer informatie. In het voorbeeld React ziet u ontwerppatronen voor de uitwisseling en het beheer van verificatietokens. Het toont ook de opname van audio van een microfoon of bestand voor spraak-naar-tekst-conversies.

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een toepassing uit om menselijke spraak (vaak spraak-naar-tekst) te herkennen en te transcriberen.

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder u te registreren of code te schrijven.

Vereisten

De omgeving instellen

De Speech SDK voor Objective-C wordt gedistribueerd als een frameworkbundel. Het framework ondersteunt zowel Objective-C als Swift op zowel iOS als macOS.

De Speech SDK kan in Xcode-projecten worden gebruikt als een CocoaPod of rechtstreeks hier worden gedownload en handmatig worden gekoppeld. In deze handleiding wordt gebruikgemaakt van een CocoaPod. Installeer het CocoaPod-afhankelijkheidsbeheer zoals beschreven in de installatie-instructies.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Zodra u bijvoorbeeld een sleutel voor uw Spraak-resource hebt, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en plaats deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw spraakresourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige actieve console, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen met een microfoon

Volg deze stappen om spraak te herkennen in een macOS-toepassing.

  1. Kloon de opslagplaats Azure-Samples/cognitive-services-speech-sdk om spraak herkennen op te halen uit een microfoon in het voorbeeldproject Objective-C in macOS . De opslagplaats bevat ook iOS-voorbeelden.

  2. Navigeer naar de map van de gedownloade voorbeeld-app (helloworld) in een terminal.

  3. Voer de opdracht pod install uit. Hiermee wordt een helloworld.xcworkspace-Xcode-werkruimte gegenereerd die de voorbeeld-app, de Speech SDK en een afhankelijkheid bevat.

  4. Open de werkruimte helloworld.xcworkspace in Xcode.

  5. Open het bestand met de naam AppDelegate.m en zoek de buttonPressed methode zoals hier wordt weergegeven.

    - (void)buttonPressed:(NSButton *)button {
        // Creates an instance of a speech config with specified subscription key and service region.
        NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
        NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
    
        SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithMicrophone:nil];
        SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion];
        SPXSpeechRecognizer *speechRecognizer = [[SPXSpeechRecognizer alloc] initWithSpeechConfiguration:speechConfig language:@"en-US" audioConfiguration:audioConfig];
    
        NSLog(@"Speak into your microphone.");
    
        SPXSpeechRecognitionResult *speechResult = [speechRecognizer recognizeOnce];
    
        // Checks result.
        if (SPXResultReason_Canceled == speechResult.reason) {
            SPXCancellationDetails *details = [[SPXCancellationDetails alloc] initFromCanceledRecognitionResult:speechResult];
            NSLog(@"Speech recognition was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails);
            [self.label setStringValue:([NSString stringWithFormat:@"Canceled: %@", details.errorDetails])];
        } else if (SPXResultReason_RecognizedSpeech == speechResult.reason) {
            NSLog(@"Speech recognition result received: %@", speechResult.text);
            [self.label setStringValue:(speechResult.text)];
        } else {
            NSLog(@"There was an error.");
            [self.label setStringValue:(@"Speech Recognition Error")];
        }
    }
    
  6. Gebruik in AppDelegate.mde omgevingsvariabelen die u eerder hebt ingesteld voor uw spraakresourcesleutel en -regio.

    NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
    NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
    
  7. Als u de taal voor spraakherkenning wilt wijzigen, vervangt u door en-US een andere ondersteunde taal. Bijvoorbeeld es-ES voor Spaans (Spanje). De standaardtaal is en-US als u geen taal opgeeft. Zie Taalidentificatie voor meer informatie over het identificeren van een van de talen die mogelijk worden gesproken.

  8. Maak de foutopsporingsuitvoer zichtbaar (View>Debug Area>Activate Console).

  9. Bouw de voorbeeldcode en voer deze uit door Productuitvoering> te selecteren in het menu of door de knop Afspelen te selecteren.

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

Nadat u de knop in de app hebt geselecteerd en een paar woorden hebt gezegd, ziet u de tekst die u hebt uitgesproken in het onderste deel van het scherm. Wanneer u de app voor de eerste keer uitvoert, wordt u gevraagd om de app toegang te geven tot de microfoon van uw computer.

Opmerkingen

Nu u de quickstart hebt voltooid, volgen hier enkele aanvullende overwegingen:

  • In dit voorbeeld wordt de recognizeOnce bewerking gebruikt om uitingen van maximaal 30 seconden te transcriberen of totdat stilte wordt gedetecteerd. Zie Spraak herkennen voor informatie over continue herkenning voor langere audio, inclusief meertalige gesprekken.
  • Als u spraak uit een audiobestand wilt herkennen, gebruikt initWithWavFileInput u in plaats van initWithMicrophone:
    SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithWavFileInput:YourAudioFile];
    

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een toepassing uit om menselijke spraak (vaak spraak-naar-tekst) te herkennen en te transcriberen.

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder u te registreren of code te schrijven.

Vereisten

De omgeving instellen

De Speech SDK voor Swift wordt gedistribueerd als een frameworkbundel. Het framework ondersteunt zowel Objective-C als Swift op zowel iOS als macOS.

De Speech SDK kan in Xcode-projecten worden gebruikt als een CocoaPod of rechtstreeks hier worden gedownload en handmatig worden gekoppeld. In deze handleiding wordt gebruikgemaakt van een CocoaPod. Installeer het CocoaPod-afhankelijkheidsbeheer zoals beschreven in de installatie-instructies.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Zodra u bijvoorbeeld een sleutel voor uw Spraak-resource hebt, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en plaats deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw spraakresourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige actieve console, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen met een microfoon

Volg deze stappen om spraak te herkennen in een macOS-toepassing.

  1. Kloon de opslagplaats Azure-Samples/cognitive-services-speech-sdk om het voorbeeldproject Spraak herkennen uit een microfoon in Swift op macOS op te halen. De opslagplaats bevat ook iOS-voorbeelden.

  2. Navigeer naar de map van de gedownloade voorbeeld-app (helloworld) in een terminal.

  3. Voer de opdracht pod install uit. Hiermee wordt een helloworld.xcworkspace-Xcode-werkruimte gegenereerd die de voorbeeld-app, de Speech SDK en een afhankelijkheid bevat.

  4. Open de werkruimte helloworld.xcworkspace in Xcode.

  5. Open het bestand met de naam AppDelegate.swift en zoek de applicationDidFinishLaunching methoden en recognizeFromMic zoals hier wordt weergegeven.

    import Cocoa
    
    @NSApplicationMain
    class AppDelegate: NSObject, NSApplicationDelegate {
        var label: NSTextField!
        var fromMicButton: NSButton!
    
        var sub: String!
        var region: String!
    
        @IBOutlet weak var window: NSWindow!
    
        func applicationDidFinishLaunching(_ aNotification: Notification) {
            print("loading")
            // load subscription information
            sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
            region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
            label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
            label.textColor = NSColor.black
            label.lineBreakMode = .byWordWrapping
    
            label.stringValue = "Recognition Result"
            label.isEditable = false
    
            self.window.contentView?.addSubview(label)
    
            fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
            fromMicButton.title = "Recognize"
            fromMicButton.target = self
            fromMicButton.action = #selector(fromMicButtonClicked)
            self.window.contentView?.addSubview(fromMicButton)
        }
    
        @objc func fromMicButtonClicked() {
            DispatchQueue.global(qos: .userInitiated).async {
                self.recognizeFromMic()
            }
        }
    
        func recognizeFromMic() {
            var speechConfig: SPXSpeechConfiguration?
            do {
                try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
            } catch {
                print("error \(error) happened")
                speechConfig = nil
            }
            speechConfig?.speechRecognitionLanguage = "en-US"
    
            let audioConfig = SPXAudioConfiguration()
    
            let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)
    
            reco.addRecognizingEventHandler() {reco, evt in
                print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
                self.updateLabel(text: evt.result.text, color: .gray)
            }
    
            updateLabel(text: "Listening ...", color: .gray)
            print("Listening...")
    
            let result = try! reco.recognizeOnce()
            print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
            updateLabel(text: result.text, color: .black)
    
            if result.reason != SPXResultReason.recognizedSpeech {
                let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
                print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
                print("Did you set the speech resource key and region values?")
                updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
            }
        }
    
        func updateLabel(text: String?, color: NSColor) {
            DispatchQueue.main.async {
                self.label.stringValue = text!
                self.label.textColor = color
            }
        }
    }
    
  6. Gebruik in AppDelegate.mde omgevingsvariabelen die u eerder hebt ingesteld voor uw spraakresourcesleutel en -regio.

    sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
    region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
  7. Als u de taal voor spraakherkenning wilt wijzigen, vervangt u door en-US een andere ondersteunde taal. Bijvoorbeeld es-ES voor Spaans (Spanje). De standaardtaal is en-US als u geen taal opgeeft. Zie Taalidentificatie voor meer informatie over het identificeren van een van meerdere talen die mogelijk worden gesproken.

  8. Maak de foutopsporingsuitvoer zichtbaar door View>Debug Area>Activate Console te selecteren.

  9. Bouw de voorbeeldcode en voer deze uit door Productuitvoering> te selecteren in het menu of door de knop Afspelen te selecteren.

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

Nadat u de knop in de app hebt geselecteerd en een paar woorden hebt gezegd, ziet u de tekst die u hebt gesproken in het onderste deel van het scherm. Wanneer u de app voor de eerste keer uitvoert, wordt u gevraagd om de app toegang te geven tot de microfoon van uw computer.

Opmerkingen

Nu u de quickstart hebt voltooid, volgen hier enkele aanvullende overwegingen:

In dit voorbeeld wordt de recognizeOnce bewerking gebruikt om uitingen van maximaal 30 seconden te transcriberen, of totdat stilte wordt gedetecteerd. Zie Spraak herkennen voor informatie over continue herkenning voor langere audio, inclusief meertalige gesprekken.

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Referentiedocumentatie | Pakket (PyPi) | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een toepassing uit om menselijke spraak te herkennen en te transcriberen (vaak spraak-naar-tekst genoemd).

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder dat u zich hoeft te registreren of code hoeft te schrijven.

Vereisten

De omgeving instellen

De Speech SDK voor Python is beschikbaar als een PyPI-module (Python Package Index). De Speech SDK voor Python is compatibel met Windows, Linux en macOS.

Installeer een versie van Python van 3.7 tot 3.10. Controleer eerst de SDK-installatiehandleiding voor meer vereisten.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt op halen, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en publiceer deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige console die wordt uitgevoerd, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen met een microfoon

Volg deze stappen om een nieuwe consoletoepassing te maken.

  1. Open een opdrachtprompt waar u het nieuwe project wilt en maak een nieuw bestand met de naam speech_recognition.py.

  2. Voer deze opdracht uit om de Speech SDK te installeren:

    pip install azure-cognitiveservices-speech
    
  3. Kopieer de volgende code naar speech_recognition.py:

    import os
    import azure.cognitiveservices.speech as speechsdk
    
    def recognize_from_microphone():
        # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
        speech_config.speech_recognition_language="en-US"
    
        audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
        speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)
    
        print("Speak into your microphone.")
        speech_recognition_result = speech_recognizer.recognize_once_async().get()
    
        if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
            print("Recognized: {}".format(speech_recognition_result.text))
        elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
            print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
        elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
            cancellation_details = speech_recognition_result.cancellation_details
            print("Speech Recognition canceled: {}".format(cancellation_details.reason))
            if cancellation_details.reason == speechsdk.CancellationReason.Error:
                print("Error details: {}".format(cancellation_details.error_details))
                print("Did you set the speech resource key and region values?")
    
    recognize_from_microphone()
    
  4. Als u de taal voor spraakherkenning wilt wijzigen, vervangt u door en-US een andere ondersteunde taal. Bijvoorbeeld es-ES voor Spaans (Spanje). De standaardtaal is en-US als u geen taal opgeeft. Zie Taalidentificatie voor meer informatie over het identificeren van een van meerdere talen die mogelijk worden gesproken.

Voer de nieuwe consoletoepassing uit om spraakherkenning te starten vanaf een microfoon:

python speech_recognition.py

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

Spreek in de microfoon wanneer u hierom wordt gevraagd. Wat u spreekt, moet worden uitgevoerd als tekst:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Opmerkingen

Nu u de quickstart hebt voltooid, volgen hier enkele aanvullende overwegingen:

  • In dit voorbeeld wordt de recognize_once_async bewerking gebruikt om uitingen van maximaal 30 seconden te transcriberen, of totdat stilte wordt gedetecteerd. Zie Spraak herkennen voor informatie over continue herkenning voor langere audio, inclusief meertalige gesprekken.
  • Als u spraak uit een audiobestand wilt herkennen, gebruikt filename u in plaats van use_default_microphone:
    audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
    
  • Voor gecomprimeerde audiobestanden zoals MP4 installeert u GStreamer en gebruikt PullAudioInputStream u of PushAudioInputStream. Zie Gecomprimeerde invoeraudio gebruiken voor meer informatie.

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Naslaginformatie | over de REST API voor spraak-naar-tekstREST API voor spraak-naar-tekst voor korte audioverwijzing | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een toepassing uit om menselijke spraak te herkennen en te transcriberen (vaak spraak-naar-tekst genoemd).

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder dat u zich hoeft te registreren of code hoeft te schrijven.

Vereisten

U hebt ook een .wav audiobestand op uw lokale computer nodig. U kunt uw eigen .wav bestand gebruiken (maximaal 30 seconden) of het https://crbn.us/whatstheweatherlike.wav voorbeeldbestand downloaden.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd om toegang te krijgen tot Cognitive Services-resources. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt op halen, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en publiceer deze nooit openbaar. Zie het artikel Beveiliging van Cognitive Services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u door your-key een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u door your-region een van de sleutels voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabele in de huidige console die wordt uitgevoerd, kunt u de omgevingsvariabele instellen met set in plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle actieve programma's opnieuw starten die de omgevingsvariabele moeten lezen, inclusief het consolevenster. Als u bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Spraak herkennen uit een bestand

Voer bij een opdrachtprompt de volgende cURL-opdracht uit. Vervang door YourAudioFile.wav het pad en de naam van het audiobestand.

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

Belangrijk

Zorg ervoor dat u de SPEECH__KEY omgevingsvariabelen en SPEECH__REGION instelt zoals hierboven wordt beschreven. Als u deze variabelen niet instelt, mislukt het voorbeeld met een foutbericht.

Als het goed is, ontvangt u een antwoord dat vergelijkbaar is met wat hier wordt weergegeven. De DisplayText moet de tekst zijn die is herkend uit het audiobestand. Er wordt maximaal 30 seconden audio herkend en geconverteerd naar tekst.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

Zie speech-to-text REST API voor korte audio voor meer informatie.

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

In deze quickstart voert u een toepassing uit om menselijke spraak te herkennen en te transcriberen (vaak spraak-naar-tekst genoemd).

Tip

U kunt spraak-naar-tekst proberen in Speech Studio zonder dat u zich hoeft te registreren of code hoeft te schrijven.

Vereisten

De omgeving instellen

Volg deze stappen en zie de Speech CLI-quickstart voor aanvullende vereisten voor uw platform.

  1. Installeer de Speech CLI via de .NET CLI door deze opdracht in te voeren:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Configureer uw spraakresourcesleutel en -regio door de volgende opdrachten uit te voeren. Vervang door SUBSCRIPTION-KEY uw spraakresourcesleutel en vervang door REGION uw spraakresourceregio:

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Spraak herkennen met een microfoon

Voer de volgende opdracht uit om spraakherkenning te starten vanaf een microfoon:

spx recognize --microphone --source en-US

Spreek in de microfoon en u ziet de transcriptie van uw woorden in tekst in realtime. De Spraak-CLI stopt na een periode van stilte, 30 seconden of wanneer u op Ctrl+C drukt.

Connection CONNECTED...
RECOGNIZED: I'm excited to try speech to text.

Opmerkingen

Nu u de quickstart hebt voltooid, volgen hier enkele aanvullende overwegingen:

  • Als u spraak uit een audiobestand wilt herkennen, gebruikt --file u in plaats van --microphone. Voor gecomprimeerde audiobestanden zoals MP4 installeert u GStreamer en gebruikt u --format. Zie Gecomprimeerde invoeraudio gebruiken voor meer informatie.
    spx recognize --file YourAudioFile.wav
    spx recognize --file YourAudioFile.mp4 --format any
    
  • Als u de nauwkeurigheid van de herkenning van specifieke woorden of uitingen wilt verbeteren, gebruikt u een woordgroepenlijst. U voegt een woordgroepenlijst toe in de regel of met een tekstbestand, samen met de opdracht herkennen:
    spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
    spx recognize --microphone --phrases @phrases.txt
    
  • Als u de taal voor spraakherkenning wilt wijzigen, vervangt u door en-US een andere ondersteunde taal. Bijvoorbeeld es-ES voor Spaans (Spanje). De standaardtaal is en-US als u geen taal opgeeft.
    spx recognize --microphone --source es-ES
    
  • Voor continue herkenning van audio langer dan 30 seconden, voegt u toe --continuous:
    spx recognize --microphone --source es-ES --continuous
    

Voer deze opdracht uit voor informatie over aanvullende opties voor spraakherkenning, zoals bestandsinvoer en -uitvoer:

spx help recognize

Resources opschonen

U kunt de Azure Portal of azure-opdrachtregelinterface (CLI) gebruiken om de spraakresource die u hebt gemaakt, te verwijderen.

Volgende stappen