Mulai cepat: Mengenali dan mengonversi ucapan menjadi teks

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti dalam panduan ini, tetapi pertama-tama periksa panduan penginstalan SDK untuk persyaratan lainnya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol baru dan memasang Speech SDK.

  1. Buka perintah di mana Anda menginginkan proyek baru, dan buat aplikasi konsol dengan .NET CLI.

    dotnet new console
    
  2. Pasang Speech SDK di proyek baru Anda dengan .NET CLI.

    dotnet add package Microsoft.CognitiveServices.Speech
    
  3. Ganti isi Program.cs dengan kode berikut.

    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
        {
            switch (speechRecognitionResult.Reason)
            {
                case ResultReason.RecognizedSpeech:
                    Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                    break;
                case ResultReason.NoMatch:
                    Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                    break;
                case ResultReason.Canceled:
                    var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);        
            speechConfig.SpeechRecognitionLanguage = "en-US";
    
            using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
            using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            Console.WriteLine("Speak into your microphone.");
            var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
            OutputSpeechRecognitionResult(speechRecognitionResult);
        }
    }
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, es-ES untuk Spanyol (Spanyol). Bahasa default adalah en-US jika Anda tidak menentukan bahasa. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

dotnet run

Bicaralah ke mikrofon Saat diminta. Apa yang Anda bicarakan harus dikeluarkan sebagai teks:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Sekarang setelah Anda menyelesaikan mulai cepat, berikut beberapa pertimbangan tambahan:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
  • Untuk mengenali ucapan dari file audio, gunakan FromWavFileInput sebagai pengganti FromDefaultMicrophoneInput:
    using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti dalam panduan ini, tetapi pertama-tama periksa panduan penginstalan SDK untuk persyaratan lainnya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol baru dan memasang Speech SDK.

  1. Buat proyek konsol C++ baru di Visual Studio.

  2. Pasang Speech SDK di proyek baru Anda dengan manajer paket NuGet.

    Install-Package Microsoft.CognitiveServices.Speech
    
  3. Ganti isi main.cpp dengan kode berikut:

    #include <iostream> 
    #include <stdlib.h>
    #include <speechapi_cxx.h>
    
    using namespace Microsoft::CognitiveServices::Speech;
    using namespace Microsoft::CognitiveServices::Speech::Audio;
    
    std::string getEnvironmentVariable(const char* name);
    
    int main()
    {
        auto speechKey = getEnvironmentVariable("SPEECH_KEY");
        auto speechRegion = getEnvironmentVariable("SPEECH_REGION");
    
        if ((size(speechKey) == 0) || (size(speechRegion) == 0)) {
            std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl;
            return -1;
        }
    
        auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion);
    
        speechConfig->SetSpeechRecognitionLanguage("en-US");
    
        auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
        auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);
    
        std::cout << "Speak into your microphone.\n";
        auto result = recognizer->RecognizeOnceAsync().get();
    
        if (result->Reason == ResultReason::RecognizedSpeech)
        {
            std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
        }
        else if (result->Reason == ResultReason::NoMatch)
        {
            std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
        }
        else if (result->Reason == ResultReason::Canceled)
        {
            auto cancellation = CancellationDetails::FromResult(result);
            std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;
    
            if (cancellation->Reason == CancellationReason::Error)
            {
                std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
                std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
                std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
            }
        }
    }
    
    std::string getEnvironmentVariable(const char* name)
    {
    #if defined(_MSC_VER)
        size_t requiredSize = 0;
        (void)getenv_s(&requiredSize, nullptr, 0, name);
        if (requiredSize == 0)
        {
            return "";
        }
        auto buffer = std::make_unique<char[]>(requiredSize);
        (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
        return buffer.get();
    #else
        auto value = getenv(name);
        return value ? value : "";
    #endif
    }
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, es-ES untuk Spanyol (Spanyol). Bahasa default adalah en-US jika Anda tidak menentukan bahasa. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

Bangun dan jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon.

Bicaralah ke mikrofon Saat diminta. Apa yang Anda bicarakan harus dikeluarkan sebagai teks:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Sekarang setelah Anda menyelesaikan mulai cepat, berikut beberapa pertimbangan tambahan:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
  • Untuk mengenali ucapan dari file audio, gunakan FromWavFileInput sebagai pengganti FromDefaultMicrophoneInput:
    auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Menyiapkan lingkungan

Pasang Speech SDK untuk Go. Periksa panduan penginstalan SDK untuk persyaratan lainnya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat modul GO baru.

  1. Buka perintah di mana Anda menginginkan modul baru, dan buat file baru bernama speech-recognition.go.

  2. Salin kode berikut ke dalam speech-recognition.go:

    package main
    
    import (
    	"bufio"
    	"fmt"
    	"os"
    
    	"github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    	"github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
    )
    
    func sessionStartedHandler(event speech.SessionEventArgs) {
    	defer event.Close()
    	fmt.Println("Session Started (ID=", event.SessionID, ")")
    }
    
    func sessionStoppedHandler(event speech.SessionEventArgs) {
    	defer event.Close()
    	fmt.Println("Session Stopped (ID=", event.SessionID, ")")
    }
    
    func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    	defer event.Close()
    	fmt.Println("Recognizing:", event.Result.Text)
    }
    
    func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
    	defer event.Close()
    	fmt.Println("Recognized:", event.Result.Text)
    }
    
    func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
    	defer event.Close()
    	fmt.Println("Received a cancellation: ", event.ErrorDetails)
        fmt.Println("Did you set the speech resource key and region values?")
    }
    
    func main() {
        speechKey :=  os.Getenv("SPEECH_KEY")
        speechRegion := os.Getenv("SPEECH_REGION")
    
    	audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer audioConfig.Close()
    	speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer speechConfig.Close()
    	speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer speechRecognizer.Close()
    	speechRecognizer.SessionStarted(sessionStartedHandler)
    	speechRecognizer.SessionStopped(sessionStoppedHandler)
    	speechRecognizer.Recognizing(recognizingHandler)
    	speechRecognizer.Recognized(recognizedHandler)
    	speechRecognizer.Canceled(cancelledHandler)
    	speechRecognizer.StartContinuousRecognitionAsync()
    	defer speechRecognizer.StopContinuousRecognitionAsync()
    	bufio.NewReader(os.Stdin).ReadBytes('\n')
    }
    

Jalankan perintah berikut untuk membuat file go.mod yang ditautkan ke komponen yang dihosting di GitHub:

go mod init speech-recognition
go get github.com/Microsoft/cognitive-services-speech-sdk-go

Sekarang, bangun dan jalankan kode:

go build
go run speech-recognition

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Menyiapkan lingkungan

Sebelum Anda dapat melakukan tindakan apa pun, Anda harus menginstal Speech SDK. Contoh dalam mulai cepat ini berfungsi dengan Runtime Java.

  1. Menginstal Apache Maven
  2. Buat file pom.xml baru di root proyek Anda, dan salin berikut ini ke dalamnya:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <repositories>
            <repository>
            <id>maven-cognitiveservices-speech</id>
            <name>Microsoft Cognitive Services Speech Maven Repository</name>
            <url>https://azureai.azureedge.net/maven/</url>
            </repository>
        </repositories>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.23.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Instal SDK Ucapan dan dependensi.
    mvn clean dependency:copy-dependencies
    

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol baru untuk pengenalan ucapan.

  1. Buat file baru bernama SpeechRecognition.java dalam direktori akar proyek yang sama.

  2. Salin kode berikut ke dalam SpeechRecognition.java:

    import com.microsoft.cognitiveservices.speech.*;
    import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
    
    import java.util.concurrent.ExecutionException;
    import java.util.concurrent.Future;
    
    public class SpeechRecognition {
        private static String speechKey = System.getenv("SPEECH_KEY");
        private static String speechRegion = System.getenv("SPEECH_REGION");
    
        public static void main(String[] args) throws InterruptedException, ExecutionException {
            SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion);
            speechConfig.setSpeechRecognitionLanguage("en-US");
            recognizeFromMicrophone(speechConfig);
        }
    
        public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
            SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            System.out.println("Speak into your microphone.");
            Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
            SpeechRecognitionResult speechRecognitionResult = task.get();
    
            if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
                System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
            }
            else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
                System.out.println("NOMATCH: Speech could not be recognized.");
            }
            else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
                CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
                System.out.println("CANCELED: Reason=" + cancellation.getReason());
    
                if (cancellation.getReason() == CancellationReason.Error) {
                    System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                    System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                    System.out.println("CANCELED: Did you set the speech resource key and region values?");
                }
            }
    
            System.exit(0);
        }
    }
    
  3. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, es-ES untuk Spanyol (Spanyol). Bahasa default adalah en-US jika Anda tidak menentukan bahasa. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

javac SpeechRecognition.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechRecognition

Bicaralah ke mikrofon Saat diminta. Apa yang Anda bicarakan harus dikeluarkan sebagai teks:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Sekarang setelah Anda menyelesaikan mulai cepat, berikut beberapa pertimbangan tambahan:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
  • Untuk mengenali ucapan dari file audio, gunakan fromWavFileInput sebagai pengganti fromDefaultMicrophoneInput:
    AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Anda juga akan memerlukan .wav file audio di komputer lokal Anda. Anda dapat menggunakan file Anda sendiri .wav (hingga 30 detik) atau mengunduh https://crbn.us/whatstheweatherlike.wav file sampel.

Menyiapkan lingkungan

Sebelum Anda dapat melakukan tindakan apa pun, Anda harus memasang Speech SDK untuk JavaScript. Jika Anda hanya ingin menginstal nama paket, jalankan npm install microsoft-cognitiveservices-speech-sdk. Untuk petunjuk penginstalan terpandu, lihat panduan penginstalan SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari file

Ikuti langkah-langkah ini untuk membuat aplikasi konsol Node.js untuk pengenalan ucapan.

  1. Buka perintah di mana Anda menginginkan proyek baru, dan buat file baru bernama SpeechRecognition.js.

  2. Instal SDK Ucapan untuk JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  3. Salin kode berikut ke dalam SpeechRecognition.js:

    const fs = require("fs");
    const sdk = require("microsoft-cognitiveservices-speech-sdk");
    const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
    speechConfig.speechRecognitionLanguage = "en-US";
    
    function fromFile() {
        let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
        let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);
    
        speechRecognizer.recognizeOnceAsync(result => {
            switch (result.reason) {
                case sdk.ResultReason.RecognizedSpeech:
                    console.log(`RECOGNIZED: Text=${result.text}`);
                    break;
                case sdk.ResultReason.NoMatch:
                    console.log("NOMATCH: Speech could not be recognized.");
                    break;
                case sdk.ResultReason.Canceled:
                    const cancellation = sdk.CancellationDetails.fromResult(result);
                    console.log(`CANCELED: Reason=${cancellation.reason}`);
    
                    if (cancellation.reason == sdk.CancellationReason.Error) {
                        console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                        console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                        console.log("CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
            speechRecognizer.close();
        });
    }
    fromFile();
    
  4. Di SpeechRecognition.js, ganti YourAudioFile.wav dengan file WAV Anda sendiri. Contoh ini hanya mengenali ucapan dari file WAV. Untuk informasi tentang format audio lainnya, lihat Cara menggunakan audio input terkompresi. Contoh ini mendukung audio hingga 30 detik.

  5. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, es-ES untuk Spanyol (Spanyol). Bahasa default adalah en-US jika Anda tidak menentukan bahasa. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari file:

node.exe SpeechRecognition.js

Ucapan dari file audio harus dikeluarkan sebagai teks:

RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Sekarang setelah Anda menyelesaikan mulai cepat, berikut beberapa pertimbangan tambahan:

Contoh ini menggunakan operasi recognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Catatan

Mengenali ucapan dari mikrofon tidak didukung di Node.js. Ini hanya didukung di lingkungan JavaScript berbasis browser. Untuk informasi selengkapnya, lihat sampel React dan penerapan ucapan ke teks dari mikrofon di GitHub. Sampel React menunjukkan pola desain untuk pertukaran dan pengelolaan token autentikasi. Ini juga menunjukkan pengambilan audio dari mikrofon atau file untuk konversi ucapan ke teks.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Menyiapkan lingkungan

Speech SDK untuk Objective-C didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Speech SDK dapat digunakan dalam proyek Xcode sebagai CocoaPod, atau diunduh langsung di sini dan ditautkan secara manual. Panduan ini menggunakan CocoaPod. Pasang manajer dependensi CocoaPod seperti yang dijelaskan dalam instruksi penginstalannya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk mengenali ucapan di aplikasi macOS.

  1. Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan ucapan Kenali dari mikrofon di Objective-C pada proyek sampel macOS. Repositori juga memiliki sampel iOS.

  2. Navigasikan ke direktori aplikasi sampel yang diunduh (helloworld) di terminal.

  3. Jalankan perintah pod install. Ini akan menghasilkan ruang kerja Xcodehelloworld.xcworkspace yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.

  4. Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

  5. Buka file bernama AppDelegate.m dan temukan metode seperti yang buttonPressed ditunjukkan di sini.

    - (void)buttonPressed:(NSButton *)button {
        // Creates an instance of a speech config with specified subscription key and service region.
        NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
        NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
    
        SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithMicrophone:nil];
        SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion];
        SPXSpeechRecognizer *speechRecognizer = [[SPXSpeechRecognizer alloc] initWithSpeechConfiguration:speechConfig language:@"en-US" audioConfiguration:audioConfig];
    
        NSLog(@"Speak into your microphone.");
    
        SPXSpeechRecognitionResult *speechResult = [speechRecognizer recognizeOnce];
    
        // Checks result.
        if (SPXResultReason_Canceled == speechResult.reason) {
            SPXCancellationDetails *details = [[SPXCancellationDetails alloc] initFromCanceledRecognitionResult:speechResult];
            NSLog(@"Speech recognition was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails);
            [self.label setStringValue:([NSString stringWithFormat:@"Canceled: %@", details.errorDetails])];
        } else if (SPXResultReason_RecognizedSpeech == speechResult.reason) {
            NSLog(@"Speech recognition result received: %@", speechResult.text);
            [self.label setStringValue:(speechResult.text)];
        } else {
            NSLog(@"There was an error.");
            [self.label setStringValue:(@"Speech Recognition Error")];
        }
    }
    
  6. Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.

    NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
    NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
    
  7. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, es-ES untuk Spanyol (Spanyol). Bahasa default adalah en-US jika Anda tidak menentukan bahasa. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

  8. Buat output debug terlihat (Tampilan>Area Debug>Aktifkan Konsol).

  9. Buat dan jalankan kode contoh dengan memilihEksekusiProduk> dari menu atau pilih tombol Putar.

Setelah Anda memilih tombol di aplikasi dan mengucapkan beberapa kata, Anda akan melihat teks yang telah Anda ucapkan di bagian bawah layar. Saat menjalankan aplikasi untuk pertama kalinya, Anda harus diminta untuk memberikan akses aplikasi ke mikrofon komputer Anda.

Keterangan

Sekarang setelah Anda menyelesaikan mulai cepat, berikut beberapa pertimbangan tambahan:

  • Contoh ini menggunakan operasi recognizeOnce untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
  • Untuk mengenali ucapan dari file audio, gunakan initWithWavFileInput sebagai pengganti initWithMicrophone:
    SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithWavFileInput:YourAudioFile];
    

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Menyiapkan lingkungan

Speech SDK untuk Swift didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Speech SDK dapat digunakan dalam proyek Xcode sebagai CocoaPod, atau diunduh langsung di sini dan ditautkan secara manual. Panduan ini menggunakan CocoaPod. Pasang manajer dependensi CocoaPod seperti yang dijelaskan dalam instruksi penginstalannya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk mengenali ucapan di aplikasi macOS.

  1. Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan ucapan Kenali dari mikrofon di Swift pada proyek sampel macOS. Repositori juga memiliki sampel iOS.

  2. Navigasikan ke direktori aplikasi sampel yang diunduh (helloworld) di terminal.

  3. Jalankan perintah pod install. Ini akan menghasilkan ruang kerja Xcodehelloworld.xcworkspace yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.

  4. Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

  5. Buka file bernama AppDelegate.swift dan temukan applicationDidFinishLaunching dan metode recognizeFromMic seperti yang ditunjukkan di sini.

    import Cocoa
    
    @NSApplicationMain
    class AppDelegate: NSObject, NSApplicationDelegate {
        var label: NSTextField!
        var fromMicButton: NSButton!
    
        var sub: String!
        var region: String!
    
        @IBOutlet weak var window: NSWindow!
    
        func applicationDidFinishLaunching(_ aNotification: Notification) {
            print("loading")
            // load subscription information
            sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
            region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
            label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
            label.textColor = NSColor.black
            label.lineBreakMode = .byWordWrapping
    
            label.stringValue = "Recognition Result"
            label.isEditable = false
    
            self.window.contentView?.addSubview(label)
    
            fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
            fromMicButton.title = "Recognize"
            fromMicButton.target = self
            fromMicButton.action = #selector(fromMicButtonClicked)
            self.window.contentView?.addSubview(fromMicButton)
        }
    
        @objc func fromMicButtonClicked() {
            DispatchQueue.global(qos: .userInitiated).async {
                self.recognizeFromMic()
            }
        }
    
        func recognizeFromMic() {
            var speechConfig: SPXSpeechConfiguration?
            do {
                try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
            } catch {
                print("error \(error) happened")
                speechConfig = nil
            }
            speechConfig?.speechRecognitionLanguage = "en-US"
    
            let audioConfig = SPXAudioConfiguration()
    
            let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)
    
            reco.addRecognizingEventHandler() {reco, evt in
                print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
                self.updateLabel(text: evt.result.text, color: .gray)
            }
    
            updateLabel(text: "Listening ...", color: .gray)
            print("Listening...")
    
            let result = try! reco.recognizeOnce()
            print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
            updateLabel(text: result.text, color: .black)
    
            if result.reason != SPXResultReason.recognizedSpeech {
                let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
                print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
                print("Did you set the speech resource key and region values?")
                updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
            }
        }
    
        func updateLabel(text: String?, color: NSColor) {
            DispatchQueue.main.async {
                self.label.stringValue = text!
                self.label.textColor = color
            }
        }
    }
    
  6. Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.

    sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
    region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
  7. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, es-ES untuk Spanyol (Spanyol). Bahasa default adalah en-US jika Anda tidak menentukan bahasa. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

  8. Buat output debug terlihat dengan memilih Tampilan>Area Debug>Aktifkan Konsol.

  9. Buat dan jalankan kode contoh dengan memilihEksekusiProduk> dari menu atau pilih tombol Putar.

Setelah Anda memilih tombol di aplikasi dan mengucapkan beberapa kata, Anda akan melihat teks yang telah Anda ucapkan di bagian bawah layar. Saat menjalankan aplikasi untuk pertama kalinya, Anda harus diminta untuk memberikan akses aplikasi ke mikrofon komputer Anda.

Keterangan

Sekarang setelah Anda menyelesaikan mulai cepat, berikut beberapa pertimbangan tambahan:

Contoh ini menggunakan operasi recognizeOnce untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Menyiapkan lingkungan

Speech SDK untuk Python tersedia sebagai modul Indeks Paket Python (PyPI). Speech SDK untuk Python kompatibel dengan Windows, Linux, dan macOS.

Pasang versi Python dari 3.7 hingga 3.10. Pertama-tama periksa panduan penginstalan SDK untuk persyaratan lain.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol baru.

  1. Buka perintah di mana Anda menginginkan proyek baru, dan buat file baru bernama speech-recognition.py.

  2. Jalankan perintah ini untuk menginstal SDK Ucapan:

    pip install azure-cognitiveservices-speech
    
  3. Salin kode berikut ke dalam speech_recognition.py:

    import os
    import azure.cognitiveservices.speech as speechsdk
    
    def recognize_from_microphone():
        speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
        speech_config.speech_recognition_language="en-US"
    
        audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
        speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)
    
        print("Speak into your microphone.")
        speech_recognition_result = speech_recognizer.recognize_once_async().get()
    
        if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
            print("Recognized: {}".format(speech_recognition_result.text))
        elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
            print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
        elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
            cancellation_details = speech_recognition_result.cancellation_details
            print("Speech Recognition canceled: {}".format(cancellation_details.reason))
            if cancellation_details.reason == speechsdk.CancellationReason.Error:
                print("Error details: {}".format(cancellation_details.error_details))
                print("Did you set the speech resource key and region values?")
    
    recognize_from_microphone()
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, es-ES untuk Spanyol (Spanyol). Bahasa default adalah en-US jika Anda tidak menentukan bahasa. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

python speech_recognition.py

Bicaralah ke mikrofon Saat diminta. Apa yang Anda bicarakan harus dikeluarkan sebagai teks:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Sekarang setelah Anda menyelesaikan mulai cepat, berikut beberapa pertimbangan tambahan:

  • Contoh ini menggunakan operasi recognize_once_async untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
  • Untuk mengenali ucapan dari file audio, gunakan filename sebagai pengganti use_default_microphone:
    audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Referensi | REST API ucapan ke teksREST API ucapan ke teks untuk referensi | audio pendek Sampel Tambahan di GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Anda juga akan memerlukan .wav file audio di komputer lokal Anda. Anda dapat menggunakan file Anda sendiri .wav (hingga 30 detik) atau mengunduh https://crbn.us/whatstheweatherlike.wav file sampel.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya Cognitive Services. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber , tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat artikel keamanan Cognitive Services untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda. Untuk mengatur SPEECH_KEY variabel lingkungan, ganti your-key dengan salah satu kunci untuk sumber daya Anda.

setx SPEECH_KEY your-key

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol yang sedang berjalan saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah Anda menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program yang sedang berjalan yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, hidupkan ulang Visual Studio sebelum menjalankan contoh.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya:westus

Mengenali ucapan dari file

Pada perintah, jalankan perintah cURL berikut ini. Ganti YourAudioFile.wav dengan jalur dan nama file audio Anda.

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

Anda harus menerima tanggapan yang serupa dengan apa yang ditunjukkan di sini. DisplayText haruslah teks yang dikenali dari file audio Anda. Audio hingga 30 detik akan dikenali dan dikonversi menjadi teks.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

Untuk informasi selengkapnya, lihat API REST ucapan ke teks untuk audio pendek.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dalam mulai cepat ini, Anda menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan manusia (sering disebut ucapan ke teks).

Tip

Anda dapat mencoba ucapan ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

Menyiapkan lingkungan

Ikuti langkah-langkah ini dan lihat mulai cepat CLI Ucapan untuk persyaratan tambahan untuk platform Anda.

  1. Instal CLI Ucapan melalui CLI .NET dengan memasukkan perintah ini:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Konfigurasikan kunci dan wilayah sumber daya Ucapan Anda, dengan menjalankan perintah berikut. Ganti SUBSCRIPTION-KEY dengan kunci sumber daya Ucapan Anda, dan ganti REGION dengan wilayah sumber daya Ucapan Anda:

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Mengenali ucapan dari mikrofon

Jalankan perintah berikut untuk memulai pengenalan ucapan dari mikrofon:

spx recognize --microphone --source en-US

Bicaralah ke mikrofon, dan Anda melihat transkripsi kata-kata Anda ke dalam teks secara real time. CLI Ucapan akan berhenti setelah periode keheningan, setelah 30 detik, atau saat Anda menekan Ctrl+C.

Connection CONNECTED...
RECOGNIZED: I'm excited to try speech to text.

Keterangan

Sekarang setelah Anda menyelesaikan mulai cepat, berikut beberapa pertimbangan tambahan:

  • Untuk mengenali ucapan dari file audio, gunakan --file sebagai pengganti --microphone. Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan --format. Untuk informasi selengkapnya, lihat Cara menggunakan audio input terkompresi.
    spx recognize --file YourAudioFile.wav
    spx recognize --file YourAudioFile.mp4 --format any
    
  • Untuk meningkatkan akurasi pengenalan kata atau ucapan tertentu, gunakan daftar frase. Anda menyertakan daftar frase secara in-line atau dengan file teks bersama dengan perintah kenali:
    spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
    spx recognize --microphone --phrases @phrases.txt
    
  • Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, es-ES untuk Spanyol (Spanyol). Bahasa default adalah en-US jika Anda tidak menentukan bahasa.
    spx recognize --microphone --source es-ES
    
  • Untuk terus melakukan pengenalan audio yang lebih dari 30 detik, tambahkan --continuous:
    spx recognize --microphone --source es-ES --continuous
    

Jalankan perintah ini untuk informasi tentang opsi pengenalan ucapan tambahan seperti input dan output file:

spx help recognize

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Langkah berikutnya