Bagikan melalui


Mulai cepat: Mengenali dan mengonversi ucapan menjadi teks

Penting

Item yang ditandai (pratinjau) dalam artikel ini sedang dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Dalam mulai cepat ini, Anda mencoba ucapan real-time ke teks di Azure AI Studio.

Prasyarat

Coba ucapan real-time ke teks

  1. Buka halaman Beranda di AI Studio lalu pilih Layanan AI dari panel kiri.

    Cuplikan layar halaman Layanan AI di Azure AI Studio.

  2. Pilih Ucapan dari daftar layanan AI.

  3. Pilih Ucapan real time ke teks.

    Cuplikan layar opsi untuk memilih ubin ucapan ke teks real-time.

  4. Di bagian Coba , pilih koneksi layanan AI hub Anda. Untuk informasi selengkapnya tentang koneksi layanan AI, lihat menyambungkan layanan AI ke hub Anda di AI Studio.

    Cuplikan layar opsi untuk memilih koneksi layanan AI dan pengaturan lainnya.

  5. Pilih Perlihatkan opsi tingkat lanjut untuk mengonfigurasi opsi ucapan ke teks seperti:

    • Identifikasi bahasa: Digunakan untuk mengidentifikasi bahasa yang diucapkan dalam audio jika dibandingkan dengan daftar bahasa yang didukung. Untuk informasi selengkapnya tentang opsi identifikasi bahasa seperti di awal dan pengenalan berkelanjutan, lihat Identifikasi bahasa.
    • Diarisasi pembicara: Digunakan untuk mengidentifikasi dan memisahkan speaker dalam audio. Diarisasi membedakan antara berbagai pembicara yang berpartisipasi dalam percakapan. Layanan Ucapan menyediakan informasi tentang pembicara mana yang berbicara bagian tertentu dari ucapan yang ditranskripsikan. Untuk informasi selengkapnya tentang diarisasi pembicara, lihat mulai cepat ucapan ke teks real-time dengan diarisasi pembicara.
    • Titik akhir kustom: Gunakan model yang disebarkan dari ucapan kustom untuk meningkatkan akurasi pengenalan. Untuk menggunakan model garis besar Microsoft, biarkan ini diatur ke Tidak Ada. Untuk informasi selengkapnya tentang ucapan kustom, lihat Ucapan Kustom.
    • Format output: Pilih antara format output sederhana dan terperinci. Output sederhana mencakup format tampilan dan tanda waktu. Output terperinci mencakup lebih banyak format (seperti tampilan, leksikal, ITN, dan ITN bertopeng), tanda waktu, dan daftar terbaik N.
    • Daftar frasa: Meningkatkan akurasi transkripsi dengan menyediakan daftar frasa yang diketahui, seperti nama orang atau lokasi tertentu. Gunakan koma atau titik koma untuk memisahkan setiap nilai dalam daftar frasa. Untuk informasi selengkapnya tentang daftar frasa, lihat Daftar frasa.
  6. Pilih file audio untuk diunggah, atau rekam audio secara real time. Dalam contoh ini, kami menggunakan Call1_separated_16k_health_insurance.wav file yang tersedia di repositori Speech SDK di GitHub. Anda dapat mengunduh file atau menggunakan file audio Anda sendiri.

    Cuplikan layar opsi untuk memilih file audio atau berbicara ke mikrofon.

  7. Anda dapat melihat hasil ucapan ke teks real-time di bagian Hasil .

    Cuplikan layar hasil transkripsi real time di Azure AI Studio.

Paket dokumentasi | referensi (NuGet) | Sampel tambahan di GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti di panduan ini. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Anda perlu mengautentikasi aplikasi Anda untuk mengakses layanan Azure AI. Artikel ini memperlihatkan kepada Anda cara menggunakan variabel lingkungan untuk menyimpan kredensial Anda. Anda kemudian dapat mengakses variabel lingkungan dari kode Anda untuk mengautentikasi aplikasi Anda. Untuk produksi, gunakan cara yang lebih aman untuk menyimpan dan mengakses kredensial Anda.

Penting

Kami merekomendasikan autentikasi ID Microsoft Entra dengan identitas terkelola untuk sumber daya Azure untuk menghindari penyimpanan kredensial dengan aplikasi Anda yang berjalan di cloud.

Jika Anda menggunakan kunci API, simpan dengan aman di tempat lain, seperti di Azure Key Vault. Jangan sertakan kunci API langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik.

Untuk informasi selengkapnya tentang keamanan layanan AI, lihat Mengautentikasi permintaan ke layanan Azure AI.

Untuk mengatur variabel lingkungan untuk kunci dan wilayah sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Tip

Cobalah Azure AI Speech Toolkit untuk membuat dan menjalankan sampel dengan mudah di Visual Studio Code.

Ikuti langkah-langkah ini untuk membuat aplikasi konsol dan menginstal Speech SDK.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Jalankan perintah ini untuk membuat aplikasi konsol dengan .NET CLI.

    dotnet new console
    

    Perintah ini membuat file Program.cs di direktori proyek Anda.

  2. Pasang Speech SDK di proyek baru Anda dengan .NET CLI.

    dotnet add package Microsoft.CognitiveServices.Speech
    
  3. Ganti konten Program.cs dengan kode berikut:

    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
        {
            switch (speechRecognitionResult.Reason)
            {
                case ResultReason.RecognizedSpeech:
                    Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                    break;
                case ResultReason.NoMatch:
                    Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                    break;
                case ResultReason.Canceled:
                    var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);        
            speechConfig.SpeechRecognitionLanguage = "en-US";
    
            using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
            using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            Console.WriteLine("Speak into your microphone.");
            var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
            OutputSpeechRecognitionResult(speechRecognitionResult);
        }
    }
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  5. Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

    dotnet run
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION . Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

    Speak into your microphone.
    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan FromWavFileInput sebagai pengganti FromDefaultMicrophoneInput:

    using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Paket dokumentasi | referensi (NuGet) | Sampel tambahan di GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti di panduan ini. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Anda perlu mengautentikasi aplikasi Anda untuk mengakses layanan Azure AI. Artikel ini memperlihatkan kepada Anda cara menggunakan variabel lingkungan untuk menyimpan kredensial Anda. Anda kemudian dapat mengakses variabel lingkungan dari kode Anda untuk mengautentikasi aplikasi Anda. Untuk produksi, gunakan cara yang lebih aman untuk menyimpan dan mengakses kredensial Anda.

Penting

Kami merekomendasikan autentikasi ID Microsoft Entra dengan identitas terkelola untuk sumber daya Azure untuk menghindari penyimpanan kredensial dengan aplikasi Anda yang berjalan di cloud.

Jika Anda menggunakan kunci API, simpan dengan aman di tempat lain, seperti di Azure Key Vault. Jangan sertakan kunci API langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik.

Untuk informasi selengkapnya tentang keamanan layanan AI, lihat Mengautentikasi permintaan ke layanan Azure AI.

Untuk mengatur variabel lingkungan untuk kunci dan wilayah sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Tip

Cobalah Azure AI Speech Toolkit untuk membuat dan menjalankan sampel dengan mudah di Visual Studio Code.

Ikuti langkah-langkah ini untuk membuat aplikasi konsol dan menginstal Speech SDK.

  1. Buat proyek konsol C++ baru di Komunitas Visual Studio bernama SpeechRecognition.

  2. Pilih Alat>Konsol Manajer Paket Manajer>Paket Nuget. Di Konsol Manajer Paket, jalankan perintah ini:

    Install-Package Microsoft.CognitiveServices.Speech
    
  3. Ganti isi SpeechRecognition.cpp dengan kode berikut:

    #include <iostream> 
    #include <stdlib.h>
    #include <speechapi_cxx.h>
    
    using namespace Microsoft::CognitiveServices::Speech;
    using namespace Microsoft::CognitiveServices::Speech::Audio;
    
    std::string GetEnvironmentVariable(const char* name);
    
    int main()
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
        auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");
    
        if ((size(speechKey) == 0) || (size(speechRegion) == 0)) {
            std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl;
            return -1;
        }
    
        auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion);
    
        speechConfig->SetSpeechRecognitionLanguage("en-US");
    
        auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
        auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);
    
        std::cout << "Speak into your microphone.\n";
        auto result = speechRecognizer->RecognizeOnceAsync().get();
    
        if (result->Reason == ResultReason::RecognizedSpeech)
        {
            std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
        }
        else if (result->Reason == ResultReason::NoMatch)
        {
            std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
        }
        else if (result->Reason == ResultReason::Canceled)
        {
            auto cancellation = CancellationDetails::FromResult(result);
            std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;
    
            if (cancellation->Reason == CancellationReason::Error)
            {
                std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
                std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
                std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
            }
        }
    }
    
    std::string GetEnvironmentVariable(const char* name)
    {
    #if defined(_MSC_VER)
        size_t requiredSize = 0;
        (void)getenv_s(&requiredSize, nullptr, 0, name);
        if (requiredSize == 0)
        {
            return "";
        }
        auto buffer = std::make_unique<char[]>(requiredSize);
        (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
        return buffer.get();
    #else
        auto value = getenv(name);
        return value ? value : "";
    #endif
    }
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  5. Bangun dan jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon.

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION . Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

    Speak into your microphone.
    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan FromWavFileInput sebagai pengganti FromDefaultMicrophoneInput:

    auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi | referensi Paket (Go) | Sampel tambahan di GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Menyiapkan lingkungan

Pasang Speech SDK untuk Go. Untuk persyaratan dan instruksi, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Anda perlu mengautentikasi aplikasi Anda untuk mengakses layanan Azure AI. Artikel ini memperlihatkan kepada Anda cara menggunakan variabel lingkungan untuk menyimpan kredensial Anda. Anda kemudian dapat mengakses variabel lingkungan dari kode Anda untuk mengautentikasi aplikasi Anda. Untuk produksi, gunakan cara yang lebih aman untuk menyimpan dan mengakses kredensial Anda.

Penting

Kami merekomendasikan autentikasi ID Microsoft Entra dengan identitas terkelola untuk sumber daya Azure untuk menghindari penyimpanan kredensial dengan aplikasi Anda yang berjalan di cloud.

Jika Anda menggunakan kunci API, simpan dengan aman di tempat lain, seperti di Azure Key Vault. Jangan sertakan kunci API langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik.

Untuk informasi selengkapnya tentang keamanan layanan AI, lihat Mengautentikasi permintaan ke layanan Azure AI.

Untuk mengatur variabel lingkungan untuk kunci dan wilayah sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat modul GO.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Buat file baru bernama speech-recognition.go.

  2. Salin kode berikut ke dalam speech-recognition.go:

    package main
    
    import (
        "bufio"
        "fmt"
        "os"
    
        "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
        "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
    )
    
    func sessionStartedHandler(event speech.SessionEventArgs) {
        defer event.Close()
        fmt.Println("Session Started (ID=", event.SessionID, ")")
    }
    
    func sessionStoppedHandler(event speech.SessionEventArgs) {
        defer event.Close()
        fmt.Println("Session Stopped (ID=", event.SessionID, ")")
    }
    
    func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
        defer event.Close()
        fmt.Println("Recognizing:", event.Result.Text)
    }
    
    func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
        defer event.Close()
        fmt.Println("Recognized:", event.Result.Text)
    }
    
    func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
        defer event.Close()
        fmt.Println("Received a cancellation: ", event.ErrorDetails)
        fmt.Println("Did you set the speech resource key and region values?")
    }
    
    func main() {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        speechKey :=  os.Getenv("SPEECH_KEY")
        speechRegion := os.Getenv("SPEECH_REGION")
    
        audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer audioConfig.Close()
        speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer speechConfig.Close()
        speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer speechRecognizer.Close()
        speechRecognizer.SessionStarted(sessionStartedHandler)
        speechRecognizer.SessionStopped(sessionStoppedHandler)
        speechRecognizer.Recognizing(recognizingHandler)
        speechRecognizer.Recognized(recognizedHandler)
        speechRecognizer.Canceled(cancelledHandler)
        speechRecognizer.StartContinuousRecognitionAsync()
        defer speechRecognizer.StopContinuousRecognitionAsync()
        bufio.NewReader(os.Stdin).ReadBytes('\n')
    }
    
  3. Jalankan perintah berikut untuk membuat file go.mod yang menautkan ke komponen yang dihosting di GitHub:

    go mod init speech-recognition
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION . Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  4. Bangun dan jalankan kode:

    go build
    go run speech-recognition
    

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi | referensi Sampel tambahan di GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Menyiapkan lingkungan

Untuk menyiapkan lingkungan Anda, instal Speech SDK. Contoh dalam mulai cepat ini berfungsi dengan Runtime Java.

  1. Menginstal Apache Maven. Kemudian jalankan mvn -v untuk mengonfirmasi keberhasilan penginstalan.

  2. Buat file baru pom.xml di akar proyek Anda, dan salin kode berikut ke dalamnya:

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.40.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Instal SDK Ucapan dan dependensi.

    mvn clean dependency:copy-dependencies
    

Atur variabel lingkungan

Anda perlu mengautentikasi aplikasi Anda untuk mengakses layanan Azure AI. Artikel ini memperlihatkan kepada Anda cara menggunakan variabel lingkungan untuk menyimpan kredensial Anda. Anda kemudian dapat mengakses variabel lingkungan dari kode Anda untuk mengautentikasi aplikasi Anda. Untuk produksi, gunakan cara yang lebih aman untuk menyimpan dan mengakses kredensial Anda.

Penting

Kami merekomendasikan autentikasi ID Microsoft Entra dengan identitas terkelola untuk sumber daya Azure untuk menghindari penyimpanan kredensial dengan aplikasi Anda yang berjalan di cloud.

Jika Anda menggunakan kunci API, simpan dengan aman di tempat lain, seperti di Azure Key Vault. Jangan sertakan kunci API langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik.

Untuk informasi selengkapnya tentang keamanan layanan AI, lihat Mengautentikasi permintaan ke layanan Azure AI.

Untuk mengatur variabel lingkungan untuk kunci dan wilayah sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol untuk pengenalan ucapan.

  1. Buat file baru bernama SpeechRecognition.java di direktori akar proyek yang sama.

  2. Salin kode berikut ke dalam SpeechRecognition.java:

    import com.microsoft.cognitiveservices.speech.*;
    import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
    
    import java.util.concurrent.ExecutionException;
    import java.util.concurrent.Future;
    
    public class SpeechRecognition {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        private static String speechKey = System.getenv("SPEECH_KEY");
        private static String speechRegion = System.getenv("SPEECH_REGION");
    
        public static void main(String[] args) throws InterruptedException, ExecutionException {
            SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion);
            speechConfig.setSpeechRecognitionLanguage("en-US");
            recognizeFromMicrophone(speechConfig);
        }
    
        public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
            SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            System.out.println("Speak into your microphone.");
            Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
            SpeechRecognitionResult speechRecognitionResult = task.get();
    
            if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
                System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
            }
            else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
                System.out.println("NOMATCH: Speech could not be recognized.");
            }
            else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
                CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
                System.out.println("CANCELED: Reason=" + cancellation.getReason());
    
                if (cancellation.getReason() == CancellationReason.Error) {
                    System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                    System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                    System.out.println("CANCELED: Did you set the speech resource key and region values?");
                }
            }
    
            System.exit(0);
        }
    }
    
  3. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  4. Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

    javac SpeechRecognition.java -cp ".;target\dependency\*"
    java -cp ".;target\dependency\*" SpeechRecognition
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION . Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  5. Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

    Speak into your microphone.
    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan fromWavFileInput sebagai pengganti fromDefaultMicrophoneInput:

    AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Paket dokumentasi | referensi (npm) | Sampel tambahan pada kode sumber Pustaka GitHub |

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Anda juga memerlukan file audio .wav di komputer lokal Anda. Anda dapat menggunakan file .wav Anda sendiri (hingga 30 detik) atau mengunduh https://crbn.us/whatstheweatherlike.wav file sampel.

Menyiapkan lingkungan

Untuk menyiapkan lingkungan Anda, instal Speech SDK untuk JavaScript. Jalankan perintah ini: npm install microsoft-cognitiveservices-speech-sdk. Untuk petunjuk penginstalan terpandu, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Anda perlu mengautentikasi aplikasi Anda untuk mengakses layanan Azure AI. Artikel ini memperlihatkan kepada Anda cara menggunakan variabel lingkungan untuk menyimpan kredensial Anda. Anda kemudian dapat mengakses variabel lingkungan dari kode Anda untuk mengautentikasi aplikasi Anda. Untuk produksi, gunakan cara yang lebih aman untuk menyimpan dan mengakses kredensial Anda.

Penting

Kami merekomendasikan autentikasi ID Microsoft Entra dengan identitas terkelola untuk sumber daya Azure untuk menghindari penyimpanan kredensial dengan aplikasi Anda yang berjalan di cloud.

Jika Anda menggunakan kunci API, simpan dengan aman di tempat lain, seperti di Azure Key Vault. Jangan sertakan kunci API langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik.

Untuk informasi selengkapnya tentang keamanan layanan AI, lihat Mengautentikasi permintaan ke layanan Azure AI.

Untuk mengatur variabel lingkungan untuk kunci dan wilayah sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari file

Tip

Cobalah Azure AI Speech Toolkit untuk membuat dan menjalankan sampel dengan mudah di Visual Studio Code.

Ikuti langkah-langkah ini untuk membuat aplikasi konsol Node.js untuk pengenalan ucapan.

  1. Buka jendela prompt perintah tempat Anda menginginkan proyek baru, dan buat file baru bernama SpeechRecognition.js.

  2. Instal SDK Ucapan untuk JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  3. Salin kode berikut ke SpeechRecognition.js:

    const fs = require("fs");
    const sdk = require("microsoft-cognitiveservices-speech-sdk");
    
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
    speechConfig.speechRecognitionLanguage = "en-US";
    
    function fromFile() {
        let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
        let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);
    
        speechRecognizer.recognizeOnceAsync(result => {
            switch (result.reason) {
                case sdk.ResultReason.RecognizedSpeech:
                    console.log(`RECOGNIZED: Text=${result.text}`);
                    break;
                case sdk.ResultReason.NoMatch:
                    console.log("NOMATCH: Speech could not be recognized.");
                    break;
                case sdk.ResultReason.Canceled:
                    const cancellation = sdk.CancellationDetails.fromResult(result);
                    console.log(`CANCELED: Reason=${cancellation.reason}`);
    
                    if (cancellation.reason == sdk.CancellationReason.Error) {
                        console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                        console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                        console.log("CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
            speechRecognizer.close();
        });
    }
    fromFile();
    
  4. Di SpeechRecognition.js, ganti YourAudioFile.wav dengan file .wav Anda sendiri. Contoh ini hanya mengenali ucapan dari file .wav . Untuk informasi tentang format audio lainnya, lihat Cara menggunakan audio input terkompresi. Contoh ini mendukung audio hingga 30 detik.

  5. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  6. Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari file:

    node.exe SpeechRecognition.js
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION . Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

    Ucapan dari file audio harus dikeluarkan sebagai teks:

    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Contoh ini menggunakan operasi recognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Catatan

Mengenali ucapan dari mikrofon tidak didukung di Node.js. Ini hanya didukung di lingkungan JavaScript berbasis browser. Untuk informasi selengkapnya, lihat sampel React dan implementasi ucapan ke teks dari mikrofon di GitHub.

Sampel React menunjukkan pola desain untuk pertukaran dan pengelolaan token autentikasi. Ini juga menunjukkan pengambilan audio dari mikrofon atau file untuk konversi ucapan ke teks.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Paket dokumentasi | referensi (PyPi) | Sampel tambahan di GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Menyiapkan lingkungan

Speech SDK untuk Python tersedia sebagai modul Indeks Paket Python (PyPI). Speech SDK untuk Python kompatibel dengan Windows, Linux, dan macOS.

Instal versi Python dari 3.7 atau yang lebih baru. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Anda perlu mengautentikasi aplikasi Anda untuk mengakses layanan Azure AI. Artikel ini memperlihatkan kepada Anda cara menggunakan variabel lingkungan untuk menyimpan kredensial Anda. Anda kemudian dapat mengakses variabel lingkungan dari kode Anda untuk mengautentikasi aplikasi Anda. Untuk produksi, gunakan cara yang lebih aman untuk menyimpan dan mengakses kredensial Anda.

Penting

Kami merekomendasikan autentikasi ID Microsoft Entra dengan identitas terkelola untuk sumber daya Azure untuk menghindari penyimpanan kredensial dengan aplikasi Anda yang berjalan di cloud.

Jika Anda menggunakan kunci API, simpan dengan aman di tempat lain, seperti di Azure Key Vault. Jangan sertakan kunci API langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik.

Untuk informasi selengkapnya tentang keamanan layanan AI, lihat Mengautentikasi permintaan ke layanan Azure AI.

Untuk mengatur variabel lingkungan untuk kunci dan wilayah sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Tip

Cobalah Azure AI Speech Toolkit untuk membuat dan menjalankan sampel dengan mudah di Visual Studio Code.

Ikuti langkah-langkah ini untuk membuat aplikasi konsol.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Buat file baru bernama speech_recognition.py.

  2. Jalankan perintah ini untuk menginstal SDK Ucapan:

    pip install azure-cognitiveservices-speech
    
  3. Salin kode berikut ke speech_recognition.py:

    import os
    import azure.cognitiveservices.speech as speechsdk
    
    def recognize_from_microphone():
        # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
        speech_config.speech_recognition_language="en-US"
    
        audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
        speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)
    
        print("Speak into your microphone.")
        speech_recognition_result = speech_recognizer.recognize_once_async().get()
    
        if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
            print("Recognized: {}".format(speech_recognition_result.text))
        elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
            print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
        elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
            cancellation_details = speech_recognition_result.cancellation_details
            print("Speech Recognition canceled: {}".format(cancellation_details.reason))
            if cancellation_details.reason == speechsdk.CancellationReason.Error:
                print("Error details: {}".format(cancellation_details.error_details))
                print("Did you set the speech resource key and region values?")
    
    recognize_from_microphone()
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

  5. Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

    python speech_recognition.py
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION . Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

    Speak into your microphone.
    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi recognize_once_async untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan filename sebagai pengganti use_default_microphone:

    audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Paket dokumentasi | referensi (unduh) | Sampel tambahan di GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Menyiapkan lingkungan

Speech SDK untuk Swift didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Speech SDK dapat digunakan dalam proyek Xcode sebagai CocoaPod, atau diunduh secara langsung dan ditautkan secara manual. Panduan ini menggunakan CocoaPod. Pasang manajer dependensi CocoaPod seperti yang dijelaskan dalam instruksi penginstalannya.

Atur variabel lingkungan

Anda perlu mengautentikasi aplikasi Anda untuk mengakses layanan Azure AI. Artikel ini memperlihatkan kepada Anda cara menggunakan variabel lingkungan untuk menyimpan kredensial Anda. Anda kemudian dapat mengakses variabel lingkungan dari kode Anda untuk mengautentikasi aplikasi Anda. Untuk produksi, gunakan cara yang lebih aman untuk menyimpan dan mengakses kredensial Anda.

Penting

Kami merekomendasikan autentikasi ID Microsoft Entra dengan identitas terkelola untuk sumber daya Azure untuk menghindari penyimpanan kredensial dengan aplikasi Anda yang berjalan di cloud.

Jika Anda menggunakan kunci API, simpan dengan aman di tempat lain, seperti di Azure Key Vault. Jangan sertakan kunci API langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik.

Untuk informasi selengkapnya tentang keamanan layanan AI, lihat Mengautentikasi permintaan ke layanan Azure AI.

Untuk mengatur variabel lingkungan untuk kunci dan wilayah sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk mengenali ucapan di aplikasi macOS.

  1. Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan ucapan Kenali dari mikrofon di Swift pada proyek sampel macOS. Repositori juga memiliki sampel iOS.

  2. Navigasikan ke direktori aplikasi sampel yang diunduh (helloworld) di terminal.

  3. Jalankan perintah pod install. Perintah ini menghasilkan helloworld.xcworkspace ruang kerja Xcode yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.

  4. Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

  5. Buka file bernama AppDelegate.swift dan temukan metode dan recognizeFromMic seperti yang ditunjukkan applicationDidFinishLaunching di sini.

    import Cocoa
    
    @NSApplicationMain
    class AppDelegate: NSObject, NSApplicationDelegate {
        var label: NSTextField!
        var fromMicButton: NSButton!
    
        var sub: String!
        var region: String!
    
        @IBOutlet weak var window: NSWindow!
    
        func applicationDidFinishLaunching(_ aNotification: Notification) {
            print("loading")
            // load subscription information
            sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
            region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
            label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
            label.textColor = NSColor.black
            label.lineBreakMode = .byWordWrapping
    
            label.stringValue = "Recognition Result"
            label.isEditable = false
    
            self.window.contentView?.addSubview(label)
    
            fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
            fromMicButton.title = "Recognize"
            fromMicButton.target = self
            fromMicButton.action = #selector(fromMicButtonClicked)
            self.window.contentView?.addSubview(fromMicButton)
        }
    
        @objc func fromMicButtonClicked() {
            DispatchQueue.global(qos: .userInitiated).async {
                self.recognizeFromMic()
            }
        }
    
        func recognizeFromMic() {
            var speechConfig: SPXSpeechConfiguration?
            do {
                try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
            } catch {
                print("error \(error) happened")
                speechConfig = nil
            }
            speechConfig?.speechRecognitionLanguage = "en-US"
    
            let audioConfig = SPXAudioConfiguration()
    
            let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)
    
            reco.addRecognizingEventHandler() {reco, evt in
                print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
                self.updateLabel(text: evt.result.text, color: .gray)
            }
    
            updateLabel(text: "Listening ...", color: .gray)
            print("Listening...")
    
            let result = try! reco.recognizeOnce()
            print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
            updateLabel(text: result.text, color: .black)
    
            if result.reason != SPXResultReason.recognizedSpeech {
                let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
                print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
                print("Did you set the speech resource key and region values?")
                updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
            }
        }
    
        func updateLabel(text: String?, color: NSColor) {
            DispatchQueue.main.async {
                self.label.stringValue = text!
                self.label.textColor = color
            }
        }
    }
    
  6. Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.

    sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
    region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
  7. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  8. Untuk membuat output debug terlihat, pilih Lihat>Area>Debug Aktifkan Konsol.

  9. Buat dan jalankan kode contoh dengan memilih Eksekusi Produk>dari menu atau pilih tombol Putar.

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION . Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Setelah memilih tombol di aplikasi dan mengucapkan beberapa kata, Anda akan melihat teks yang Anda ucapkan di bagian bawah layar. Saat Anda menjalankan aplikasi untuk pertama kalinya, aplikasi akan meminta Anda untuk memberi aplikasi akses ke mikrofon komputer Anda.

Keterangan

Contoh ini menggunakan operasi recognizeOnce untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Objective-C

Speech SDK untuk Objective-C berbagi pustaka klien dan dokumentasi referensi dengan Speech SDK for Swift. Untuk contoh kode Objective-C, lihat kenali ucapan dari mikrofon di Objective-C pada proyek sampel macOS di GitHub.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Rest API ucapan ke teks mereferensikan Ucapan ke teks REST API untuk referensi | audio singkat Sampel tambahan di GitHub |

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Anda juga memerlukan file audio .wav di komputer lokal Anda. Anda dapat menggunakan file .wav Anda sendiri hingga 60 detik atau mengunduh https://crbn.us/whatstheweatherlike.wav file sampel.

Atur variabel lingkungan

Anda perlu mengautentikasi aplikasi Anda untuk mengakses layanan Azure AI. Artikel ini memperlihatkan kepada Anda cara menggunakan variabel lingkungan untuk menyimpan kredensial Anda. Anda kemudian dapat mengakses variabel lingkungan dari kode Anda untuk mengautentikasi aplikasi Anda. Untuk produksi, gunakan cara yang lebih aman untuk menyimpan dan mengakses kredensial Anda.

Penting

Kami merekomendasikan autentikasi ID Microsoft Entra dengan identitas terkelola untuk sumber daya Azure untuk menghindari penyimpanan kredensial dengan aplikasi Anda yang berjalan di cloud.

Jika Anda menggunakan kunci API, simpan dengan aman di tempat lain, seperti di Azure Key Vault. Jangan sertakan kunci API langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik.

Untuk informasi selengkapnya tentang keamanan layanan AI, lihat Mengautentikasi permintaan ke layanan Azure AI.

Untuk mengatur variabel lingkungan untuk kunci dan wilayah sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari file

Buka jendela konsol dan jalankan perintah cURL berikut. Ganti YourAudioFile.wav dengan jalur dan nama file audio Anda.

curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION . Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Anda harus menerima tanggapan yang serupa dengan apa yang ditunjukkan di sini. DisplayText haruslah teks yang dikenali dari file audio Anda. Perintah mengenali hingga 60 detik audio dan mengonversinya menjadi teks.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

Untuk informasi selengkapnya, lihat REST API Ucapan ke teks untuk audio pendek.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure. Anda dapat membuatnya secara gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Dapatkan kunci dan wilayah sumber daya Ucapan. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci.

Menyiapkan lingkungan

Ikuti langkah-langkah ini dan lihat mulai cepat Speech CLI untuk persyaratan lain untuk platform Anda.

  1. Jalankan perintah .NET CLI berikut untuk menginstal Speech CLI:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Jalankan perintah berikut untuk mengonfigurasi kunci dan wilayah sumber daya Ucapan Anda. Ganti SUBSCRIPTION-KEY dengan kunci sumber daya Ucapan Anda dan ganti REGION dengan wilayah sumber daya Ucapan Anda.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Mengenali ucapan dari mikrofon

  1. Jalankan perintah berikut untuk memulai pengenalan ucapan dari mikrofon:

    spx recognize --microphone --source en-US
    
  2. Bicaralah ke mikrofon, dan Anda melihat transkripsi kata-kata Anda ke dalam teks secara real time. Speech CLI berhenti setelah periode keheningan, 30 detik, atau saat Anda memilih Ctrl+C.

    Connection CONNECTED...
    RECOGNIZED: I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Untuk mengenali ucapan dari file audio, gunakan --file sebagai pengganti --microphone. Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan --format. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

    spx recognize --file YourAudioFile.wav
    spx recognize --file YourAudioFile.mp4 --format any
    
  • Untuk meningkatkan akurasi pengenalan kata atau ucapan tertentu, gunakan daftar frase. Anda menyertakan daftar frasa sebaris atau dengan file teks bersama dengan recognize perintah :

    spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
    spx recognize --microphone --phrases @phrases.txt
    
  • Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US.

    spx recognize --microphone --source es-ES
    
  • Untuk terus melakukan pengenalan audio yang lebih dari 30 detik, tambahkan --continuous:

    spx recognize --microphone --source es-ES --continuous
    
  • Jalankan perintah ini untuk informasi tentang opsi pengenalan ucapan lainnya seperti input dan output file:

    spx help recognize
    

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Langkah selanjutnya