Apa yang baru dalam Azure AI Speech?

Azure AI Speech diperbarui secara berkelanjutan. Untuk tetap mengikuti perkembangan terbaru, artikel ini memberi Anda informasi tentang rilis dan fitur baru.

Sorotan terbaru

Catatan rilis

Memilih layanan atau sumber daya

Paket mendatang untuk pengguna Linux dan Android:

Perhatian

Artikel ini mereferensikan CentOS, distribusi Linux yang mendekati status End Of Life (EOL). Harap pertimbangkan penggunaan dan perencanaan Anda yang sesuai. Untuk informasi selengkapnya, lihat panduan Akhir Masa Pakai CentOS.

  • Ubuntu 18.04 juga mencapai akhir masa pakai kembali pada bulan April 2023, sehingga pengguna kami harus mempersiapkan diri bagi kami untuk memindahkan versi minimum kami hingga Ubuntu 20.04.

Speech SDK 1.37.0: Rilis April 2024

Fitur baru

  • Tambahkan dukungan untuk streaming teks input dalam sintesis ucapan.
  • Ubah suara sintesis ucapan default menjadi en-US-AvaMultilingualNeural.
  • Perbarui build Android untuk menggunakan OpenSSL 3.x.

Perbaikan bug

Sampel

  • Diperbarui untuk fitur baru.

Speech SDK 1.36.0: Rilis Maret 2024

Fitur baru

  • Tambahkan dukungan untuk identifikasi bahasa dalam terjemahan multibahasa pada titik akhir v2 menggunakan AutoDetectSourceLanguageConfig::FromOpenRange().

Perbaikan bug

  • Perbaiki peristiwa SynthesisCanceled yang tidak diaktifkan jika berhenti dipanggil selama peristiwa SynthesisStarted.

  • Perbaiki masalah kebisingan dalam sintesis ucapan yang disematkan.

  • Perbaiki crash dalam pengenalan ucapan yang disematkan saat menjalankan beberapa pengenal secara paralel.

  • Perbaiki pengaturan mode deteksi frasa pada titik akhir v1/v2.

  • Memperbaiki berbagai masalah dengan Microsoft Audio Stack.

Sampel

  • Pembaruan untuk fitur baru.

Speech SDK 1.35.0: Rilis Februari 2024

Fitur baru

  • Ubah teks default menjadi suara ucapan dari en-US-JennyMultilingualNeural menjadi en-US-AvaNeural.
  • Mendukung detail tingkat kata dalam hasil terjemahan ucapan yang disematkan menggunakan format output terperinci.

Perbaikan bug

  • Perbaiki API getter posisi AudioDataStream di Python.
  • Perbaiki terjemahan ucapan menggunakan titik akhir v2 tanpa deteksi bahasa.
  • Perbaiki crash acak dan duplikat peristiwa batas kata dalam teks yang disematkan ke ucapan.
  • Mengembalikan kode kesalahan pembatalan yang benar untuk kesalahan server internal pada koneksi WebSocket.
  • Perbaiki kegagalan memuat pustaka FPIEProcessor.dll saat MAS digunakan dengan C#.

Sampel

  • Pembaruan pemformatan kecil untuk sampel pengenalan yang disematkan.

Speech SDK 1.34.1: Rilis Januari 2024

Perubahan mencolok

  • Perbaikan bug saja

Fitur baru

  • Perbaikan bug saja

Perbaikan bug

  • Memperbaiki regresi yang diperkenalkan di 1.34.0 di mana url titik akhir layanan dibangun dengan info lokal yang buruk untuk pengguna di beberapa wilayah Tiongkok.

Speech SDK 1.34.0: Rilis November 2023

Perubahan mencolok

  • SpeechRecognizer telah diperbarui untuk menggunakan titik akhir baru secara default (yaitu ketika tidak secara eksplisit menentukan URL) yang tidak lagi mendukung parameter string kueri untuk sebagian besar properti. Alih-alih mengatur parameter string kueri secara langsung dengan ServicePropertyChannel.UriQueryParameter, silakan gunakan fungsi API yang sesuai.

Fitur baru

  • Kompatibilitas dengan .NET 8 (Perbaiki kecuali untuk https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 peringatan tentang centos7-x64)
  • Dukungan untuk metrik performa ucapan yang disematkan yang dapat digunakan untuk mengevaluasi kemampuan perangkat untuk menjalankan ucapan yang disematkan.
  • Dukungan untuk identifikasi bahasa sumber dalam terjemahan multibahasa yang disematkan.
  • Dukungan untuk ucapan ke teks, teks ke ucapan, dan terjemahan yang disematkan untuk iOS dan Swift/Objective-C dirilis dalam pratinjau.
  • Dukungan tersemat disediakan dalam MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Perbaikan bug

  • Perbaikan untuk iOS SDK x2 kali pertumbuhan ukuran biner · Masalah #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Perbaikan untuk Tidak bisa mendapatkan stempel waktu tingkat kata dari ucapan azure ke api teks · Masalah #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Perbaiki untuk DialogService Koneksi seor fase penghancuran untuk memutuskan peristiwa dengan benar. Ini menyebabkan crash sesekali.
  • Perbaiki untuk pengecualian selama pembuatan pengenal saat MAS digunakan.
  • FPIEProcessor.dll dari paket NuGet Microsoft.CognitiveServices.Speech.Extension.MAS untuk Windows UWP x64 dan ARM64 memiliki dependensi pada pustaka runtime VC untuk C++asli. Masalah ini telah diperbairah dengan memperbarui dependensi untuk memperbaiki pustaka runtime VC (untuk UWP).
  • Perbaikan untuk panggilan berulang [MAS] untuk mengenaliOnceAsync mengarah ke SPXERR_ALREADY_INITIALIZED saat menggunakan MAS · Masalah #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Perbaikan untuk crash pengenalan ucapan yang disematkan saat daftar frasa digunakan.

Sampel

  • Sampel iOS yang disematkan untuk ucapan ke teks, teks ke ucapan, dan terjemahan.

Speech CLI 1.34.0: Rilis November 2023

Fitur baru

  • Mendukung output peristiwa batas kata saat mensintesis ucapan.

Perbaikan bug

  • Dependensi JMESPath yang diperbarui ke rilis terbaru, meningkatkan evaluasi string

Speech SDK 1.33.0: Rilis Oktober 2023

Pemberitahuan perubahan yang melanggar

  • Paket NuGet baru yang ditambahkan untuk Microsoft Audio Stack (MAS) sekarang diperlukan untuk disertakan oleh aplikasi yang menggunakan MAS dalam file konfigurasi paket mereka.

Fitur baru

  • Menambahkan paket NuGet baru Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, yang memberikan peningkatan performa pembatalan gema saat menggunakan Microsoft Audio Stack
  • Penilaian Pengucapan: menambahkan dukungan untuk evaluasi prosodi dan konten, yang dapat menilai ucapan lisan dalam hal prosody, kosakata, tata bahasa, dan topik.

Perbaikan bug

Sampel

Speech CLI 1.33.0: Rilis Oktober 2023

Fitur baru

  • Mendukung output peristiwa batas kata saat mensintesis ucapan.

Perbaikan bug

  • tidak ada

Speech SDK 1.32.1: Rilis September 2023

Perbaikan bug

  • Pembaruan paket Android dengan perbaikan keamanan terbaru dari OpenSSL1.1.1v
  • JS – Properti WebWorkerLoadType ditambahkan untuk memungkinkan bypass beban URL data untuk pekerja batas waktu
  • JS – Perbaiki Terjemahan Percakapan terputus setelah 10 menit
  • JS – Token autentikasi Terjemahan Percakapan dari Percakapan sekarang disebarkan ke koneksi layanan Terjemahan

Sampel

Speech SDK 1.31.0: Rilis Agustus 2023

Fitur baru

  • Dukungan untuk diarisasi real time tersedia dalam pratinjau publik dengan Speech SDK 1.31.0. Fitur ini tersedia di SDK berikut: C#, C++, Java, JavaScript, Python dan Objective-C/Swift.

  • Batas kata sintesis ucapan yang disinkronkan dan peristiwa viseme dengan pemutaran audio

Perubahan mencolok

  • Skenario "transkripsi percakapan" sebelumnya diganti namanya menjadi "transkripsi rapat". Misalnya, gunakan MeetingTranscriber alih-alih ConversationTranscriber, dan gunakan CreateMeetingAsync alih-alih CreateConversationAsync. Meskipun nama objek dan metode SDK telah berubah, penggantian nama tidak mengubah fitur itu sendiri. Gunakan objek transkripsi rapat untuk transkripsi rapat dengan profil pengguna dan tanda tangan suara. Lihat Transkripsi rapat untuk informasi selengkapnya. Objek dan metode "terjemahan percakapan" tidak terpengaruh oleh perubahan ini. Anda masih dapat menggunakan ConversationTranslator objek dan metodenya untuk skenario terjemahan rapat.
  • Untuk diarisasi real time, objek baru ConversationTranscriber diperkenalkan. Model objek "transkripsi percakapan" baru dan pola panggilan mirip dengan pengenalan berkelanjutan dengan SpeechRecognizer objek . Perbedaan utamanya adalah bahwa ConversationTranscriber objek dirancang untuk digunakan dalam skenario percakapan di mana Anda ingin membedakan beberapa pembicara (diarisasi). Profil pengguna dan tanda tangan suara tidak berlaku. Lihat mulai cepat diarisasi real time untuk informasi selengkapnya.

Tabel ini memperlihatkan nama objek sebelumnya dan baru untuk diarisasi real time dan transkripsi rapat. Nama skenario berada di kolom pertama, nama objek sebelumnya berada di kolom kedua, dan nama objek baru berada di kolom ketiga.
Nama skenario Nama objek sebelumnya Nama objek baru
Diarisasi real time T/A ConversationTranscriber
Transkripsi rapat ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 Objek Participant, ParticipantChangedReason, dan User berlaku untuk skenario transkripsi rapat dan terjemahan rapat.

2 Objek Meeting baru dan digunakan dengan MeetingTranscriber objek .

Perbaikan bug

Sampel

Speech SDK 1.30.0: Rilis Juli 2023

Fitur baru

  • C++, C#, Java - Menambahkan dukungan untuk DisplayWords dalam hasil terperinci Pengenalan Ucapan Tersemat.
  • Objective-C/Swift - Menambahkan dukungan untuk ConnectionMessageReceived peristiwa di Objective-C/Swift.
  • Objective-C/Swift - Model spotting kata kunci yang ditingkatkan untuk iOS. Perubahan ini telah meningkatkan ukuran paket tertentu, yang berisi biner iOS (seperti NuGet, XCFramework). Kami berupaya mengurangi ukuran rilis mendatang.

Perbaikan bug

  • Memperbaiki kebocoran memori saat menggunakan pengenal ucapan dengan PhraseListGrammar, seperti yang dilaporkan oleh pelanggan (masalah GitHub).
  • Memperbaiki kebuntuan dalam API koneksi terbuka teks ke ucapan.

Catatan tambahan

  • Java - Beberapa metode Java API yang digunakan public secara internal diubah menjadi paket internal, protected atau private. Perubahan ini seharusnya tidak berpengaruh pada pengembang, karena kami tidak mengharapkan aplikasi menggunakannya. Dicatat di sini untuk transparansi.

Sampel

  • Sampel Penilaian Pengucapan Baru tentang cara menentukan bahasa pembelajaran di aplikasi Anda sendiri
    • C#: Lihat kode sampel.
    • C++: Lihat kode sampel.
    • JavaScript: Lihat kode sampel.
    • Objective-C: Lihat kode sampel.
    • Python: Lihat kode sampel.
    • Swift: Lihat kode sampel.

Speech SDK 1.29.0: Rilis Juni 2023

Fitur baru

  • C++, C#, Java - Pratinjau API Terjemahan Ucapan Tersemat. Sekarang Anda dapat melakukan terjemahan ucapan tanpa koneksi cloud!
  • JavaScript - Identifikasi Bahasa Berkelanjutan (LID) sekarang diaktifkan untuk terjemahan ucapan.
  • JavaScript - Kontribusi komunitas untuk menambahkan LocaleName properti ke VoiceInfo kelas. Terima kasih GitHub pengguna shivsarthak untuk permintaan pull.
  • C++, C#, Java - Menambahkan dukungan untuk pengambilan sampel ulang teks yang disematkan ke output ucapan dari laju sampel 16 kHz hingga 48 kHz.
  • Menambahkan dukungan untuk hi-IN lokal di Intent Recognizer dengan Pencocokan Pola Sederhana.

Perbaikan bug

  • Memperbaiki crash yang disebabkan oleh kondisi balapan di Speech Recognizer selama penghancuran objek, seperti yang terlihat di beberapa pengujian Android kami
  • Memperbaiki kemungkinan kebuntuan di Intent Recognizer dengan Simple Pattern Matcher

Sampel

  • Sampel Terjemahan Ucapan Tersemat Baru

Speech SDK 1.28.0: Rilis Mei 2023

Breaking change

  • JavaScript SDK: Protokol Status Sertifikat Online (OCSP) dihapus. Ini memungkinkan klien untuk lebih sesuai dengan standar browser dan Node untuk penanganan sertifikat. Versi 1.28 dan seterusnya tidak akan lagi menyertakan modul OCSP kustom kami.

Fitur baru

  • Pengenalan Ucapan yang Disematkan sekarang kembali NoMatchReason::EndSilenceTimeout ketika batas waktu keheningan terjadi di akhir ungkapan. Ini cocok dengan perilaku saat melakukan pengenalan menggunakan layanan ucapan real-time.
  • JavaScript SDK: Atur properti tentang SpeechTranslationConfig menggunakan PropertyId nilai enum.

Perbaikan bug

  • C# di Windows - Perbaiki potensi kondisi balapan/kebuntuan di ekstensi audio Windows. Dalam skenario bahwa kedua pembuangan perender audio dengan cepat dan juga menggunakan metode Synthesizer untuk berhenti berbicara, peristiwa yang mendasarinya tidak diatur ulang dengan berhenti, dan dapat menyebabkan objek perender tidak pernah dibuang, sementara itu bisa memegang kunci global untuk dibuang, membekukan utas dotnet GC.

Sampel

  • Menambahkan sampel ucapan yang disematkan untuk MAUI.
  • Memperbarui sampel ucapan yang disematkan untuk Android Java untuk menyertakan teks ke ucapan.

Speech SDK 1.27.0: Rilis April 2023

Pemberitahuan tentang perubahan yang akan datang

  • Kami berencana untuk menghapus Protokol Status Sertifikat Online (OCSP) dalam rilis JavaScript SDK berikutnya. Ini memungkinkan klien untuk lebih sesuai dengan standar browser dan Node untuk penanganan sertifikat. Versi 1.27 adalah rilis terakhir yang menyertakan modul OCSP kustom kami.

Fitur baru

  • JavaScript – Menambahkan dukungan untuk input mikrofon dari browser dengan Identifikasi dan Verifikasi Pembicara.
  • Pengenalan Ucapan Tersemat - Perbarui dukungan untuk PropertyId::Speech_SegmentationSilenceTimeoutMs pengaturan.

Perbaikan bug

  • Umum - Pembaruan keandalan dalam logika koneksi ulang layanan (semua bahasa pemrograman kecuali JavaScript).
  • Umum - Memperbaiki konversi string yang membocorkan memori di Windows (semua bahasa pemrograman yang relevan kecuali JavaScript).
  • Pengenalan Ucapan tersemat - Perbaiki crash di Pengenalan Ucapan Prancis saat menggunakan entri daftar tata bahasa tertentu.
  • Dokumentasi kode sumber - Koreksi pada komentar dokumentasi referensi SDK yang terkait dengan pengelogan audio pada layanan.
  • Pengenalan niat - Memperbaiki prioritas Pencocokan Pola yang terkait dengan entitas daftar.

Sampel

  • Tangani kegagalan autentikasi dengan benar dalam sampel C# Conversation Transcription (CTS).
  • Menambahkan contoh penilaian pengucapan streaming untuk Python, JavaScript, Objective-C dan Swift.

Speech SDK 1.26.0: Rilis Maret 2023

Perubahan mencolok

  • Bitcode telah dinonaktifkan di semua target iOS dalam paket berikut: Cocoapod dengan xcframework, NuGet (untuk Xamarin dan MAUI) dan Unity. Perubahan ini disebabkan oleh penghentian dukungan bitcode Apple dari Xcode 14 dan seterusnya. Perubahan ini juga berarti jika Anda menggunakan versi Xcode 13 atau Anda telah secara eksplisit mengaktifkan bitcode pada aplikasi Anda menggunakan Speech SDK, Anda mungkin mengalami kesalahan yang mengatakan "kerangka kerja tidak berisi bitcode dan Anda harus membangunnya kembali". Untuk mengatasi masalah ini, pastikan target Anda menonaktifkan bitcode.
  • Target penyebaran iOS minimum telah ditingkatkan ke 11.0 dalam rilis ini, yang berarti armv7 HW tidak lagi didukung.

Fitur baru

  • Pengenalan Ucapan (di perangkat) yang disematkan sekarang mendukung audio input laju pengambilan sampel 8 dan 16 kHz (16-bit per sampel, mono PCM).
  • Sintesis Ucapan sekarang melaporkan latensi koneksi, jaringan, dan layanan dalam hasil untuk membantu pengoptimalan latensi end-to-end.
  • Aturan pemecahan ikatan baru untuk Pengenalan Niat dengan pencocokan pola sederhana. Semakin banyak byte karakter yang dicocokkan, akan memenangkan kecocokan pola dengan jumlah byte karakter yang lebih rendah. Contoh: Pola "Pilih {something} di kanan atas" akan menang atas "Pilih {something}"

Perbaikan bug

  • Sintesis Ucapan: perbaiki bug di mana emoji tidak benar dalam peristiwa batas kata.
  • Pengenalan Niat dengan Pemahaman Bahasa Percakapan (CLU):
    • Niat dari Alur Kerja Orkestrator CLU sekarang muncul dengan benar.
    • Hasil JSON sekarang tersedia melalui ID LanguageUnderstandingServiceResponse_JsonResultproperti .
  • Pengenalan ucapan dengan aktivasi kata kunci: Perbaiki untuk audio ~150 ms yang hilang setelah pengenalan kata kunci.
  • Perbaikan untuk build Rilis MAUI Speech SDK NuGet iOS, dilaporkan oleh pelanggan (masalah GitHub)

Sampel

  • Perbaikan untuk sampel Swift iOS, dilaporkan oleh pelanggan (masalah GitHub)

Speech SDK 1.25.0: Rilis Januari 2023

Perubahan mencolok

  • API Identifikasi Bahasa (pratinjau) telah disederhanakan. Jika Anda memperbarui ke Speech SDK 1.25 dan melihat hentian build, silakan kunjungi halaman Identifikasi Bahasa untuk mempelajari tentang properti SpeechServiceConnection_LanguageIdModebaru . Properti tunggal ini menggantikan dua properti sebelumnya SpeechServiceConnection_SingleLanguageIdPriority dan SpeechServiceConnection_ContinuousLanguageIdPriority. Memprioritaskan antara latensi rendah dan akurasi tinggi tidak lagi diperlukan setelah peningkatan model terbaru. Sekarang, Anda hanya perlu memilih apakah akan menjalankan Identifikasi Bahasa di awal atau berkelanjutan saat melakukan pengenalan atau terjemahan ucapan berkelanjutan.

Fitur baru

  • C#/C++/Java: Embedded Speech SDK sekarang dirilis di bawah pratinjau publik yang terjaga. Lihat Dokumentasi Ucapan Tersemat (pratinjau). Anda sekarang dapat melakukan ucapan ke teks dan teks ke ucapan di perangkat saat konektivitas cloud terputus-putus atau tidak tersedia. Didukung di platform Android, Linux, macOS, dan Windows
  • C# MAUI: Dukungan ditambahkan untuk target iOS dan Mac Catalyst di Speech SDK NuGet (Masalah pelanggan)
  • Unity: Arsitektur Android x86_64 ditambahkan ke paket Unity (Masalah pelanggan)
  • Buka:
    • Dukungan streaming langsung ALAW/MULAW ditambahkan untuk pengenalan ucapan (Masalah pelanggan)
    • Menambahkan dukungan untuk PhraseListGrammar. Terima kasih GitHub pengguna czkoko untuk kontribusi komunitas!
  • C#/C++: Intent Recognizer sekarang mendukung model Pemahaman Bahasa Percakapan di C++ dan C# dengan orkestrasi pada layanan Microsoft

Perbaikan bug

  • Memperbaiki hang sesekali di KeywordRecognizer saat mencoba menghentikannya
  • Python:
    • Perbaikan untuk mendapatkan hasil Penilaian Pengucapan saat PronunciationAssessmentGranularity.FullText ditetapkan (Masalah pelanggan)
    • Perbaikan untuk properti gender untuk suara Laki-laki yang tidak diambil, saat mendapatkan suara sintesis ucapan
  • JavaScript
    • Perbaikan untuk mengurai beberapa file WAV yang direkam di perangkat iOS (Masalah pelanggan)
    • JS SDK sekarang dibangun tanpa menggunakan resolusi npm-force (Masalah pelanggan)
    • Percakapan Penerjemah sekarang mengatur titik akhir layanan dengan benar saat menggunakan instans speechConfig yang dibuat menggunakan SpeechConfig.fromEndpoint()

Sampel

  • Sampel yang ditambahkan memperlihatkan cara menggunakan Ucapan Tersemat

  • Menambahkan sampel Ucapan ke teks untuk MAUI

    Lihat Repositori sampel Speech SDK.

Speech SDK 1.24.2: Rilis November 2022

Fitur baru

  • Tidak ada fitur baru, hanya perbaikan mesin yang disematkan untuk mendukung file model baru.

Perbaikan bug

  • Semua bahasa pemrograman
    • Memperbaiki masalah dengan enkripsi model pengenalan ucapan yang disematkan.

Speech SDK 1.24.1: Rilis November 2022

Fitur baru

Perbaikan bug

  • Semua bahasa pemrograman
    • Memperbaiki crash TTS yang disematkan saat font suara tidak didukung
    • Memperbaiki stopSpeaking() tidak dapat menghentikan pemutaran di Linux (#1686)
  • JavaScript SDK
    • Memperbaiki regresi dalam cara transcriber percakapan memerah audio.
  • Java
    • File POM dan Javadocs yang dipublikasikan untuk sementara ke Maven Central untuk mengaktifkan alur dokumen untuk memperbarui dokumen referensi online.
  • Python
    • Perbaiki regresi di mana Python speak_text(ssml) mengembalikan kekosongan.

Speech SDK 1.24.0: Rilis Oktober 2022

Fitur baru

  • Semua bahasa pemrograman: AMR-WB (16khz) ditambahkan ke daftar format output audio Teks ke ucapan yang didukung
  • Python: Paket ditambahkan untuk Linux ARM64 untuk distribusi Linux yang didukung.
  • C#/C++/Java/Python: Dukungan ditambahkan untuk streaming langsung ALAW & MULAW ke layanan ucapan (selain aliran PCM yang ada) menggunakan AudioStreamWaveFormat.
  • C# MAUI: Paket NuGet diperbarui untuk mendukung target Android untuk pengembang .NET MAUI (Masalah pelanggan)
  • Mac: Menambahkan XCframework terpisah untuk Mac, yang tidak berisi biner iOS apa pun. Ini menawarkan opsi untuk pengembang yang hanya membutuhkan biner Mac menggunakan paket XCframework yang lebih kecil.
  • Microsoft Audio Stack (MAS):
    • Ketika sudut pembentukan sinar ditentukan, suara yang berasal dari luar rentang yang ditentukan akan ditekan dengan lebih baik.
    • Sekitar 70% pengurangan libMicrosoft.CognitiveServices.Speech.extension.mas.so ukuran untuk Linux ARM32 dan Linux ARM64.
  • Pengenalan Niat menggunakan pencocokan pola:
    • Menambahkan dukungan orthografi untuk bahasa fr, , de, esjp
    • Menambahkan dukungan bilangan bulat bawaan untuk bahasa es.

Perbaikan bug

  • iOS: memperbaiki kesalahan sintesis ucapan pada iOS 16 yang disebabkan oleh kegagalan decoding audio terkompresi (Masalah Pelanggan).
  • JavaScript:
    • Perbaiki token autentikasi tidak berfungsi saat mendapatkan daftar suara sintesis ucapan (Masalah pelanggan).
    • Gunakan URL data untuk pemuatan pekerja (Masalah pelanggan).
    • Buat worklet prosesor audio hanya ketika AudioWorklet didukung di browser (Masalah pelanggan). Ini adalah kontribusi komunitas oleh William Wong. Terima kasih William!
    • Perbaiki panggilan balik yang dikenali saat respons connectionMessage LUIS kosong (Masalah pelanggan).
    • Atur batas waktu segmentasi ucapan dengan benar.
  • Pengenalan Niat menggunakan pencocokan pola:
    • Karakter non-json di dalam model sekarang akan dimuat dengan benar.
    • Perbaiki masalah gantung saat recognizeOnceAsync(text) dipanggil selama pengenalan berkelanjutan.

Speech SDK 1.23.0: Rilis Juli 2022

Fitur baru

  • C#, C++, Java: Menambahkan dukungan untuk bahasa zh-cn dan zh-hk dalam Pengenalan Niat dengan Pencocokan Pola.
  • C#: Menambahkan dukungan untuk AnyCPUbuild .NET Framework

Perbaikan bug

  • Android: Memperbaiki kerentanan OpenSSL CVE-2022-2068 dengan memperbarui OpenSSL ke 1.1.1q
  • Python: Memperbaiki kerusakan saat menggunakan PushAudioInputStream
  • iOS: Memperbaiki "EXC_BAD_ACCESS: Mencoba mendereferensi pointer null" seperti yang dilaporkan di iOS (masalah GitHub)

Speech SDK 1.22.0: Rilis Juni 2022

Fitur baru

  • Java: API IntentRecognitionResult untuk getEntities(), applyLanguageModels(), dan recognizeOnceAsync(text) ditambahkan untuk mendukung mesin "pencocokan pola sederhana".
  • Unity: Menambahkan dukungan untuk Mac M1 (Apple Silicon) untuk paket Unity (masalah GitHub)
  • C#: Menambahkan dukungan untuk x86_64 untuk Xamarin Android (masalah GitHub)
  • C#: Versi minimum .NET framework diperbarui ke v4.6.2 untuk paket SDK C# karena v4.6.1 telah dihentikan (lihat Kebijakan Siklus Hidup Komponen Microsoft .NET Framework)
  • Linux: Menambahkan dukungan untuk Debian 11 dan Ubuntu 22.04 LTS. Ubuntu 22.04 LTS memerlukan penginstalan manual libssl1.1 baik sebagai paket biner dari sini (misalnya, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb atau yang lebih baru untuk x64), atau dengan mengkompilasi dari sumber.

Perbaikan bug

  • UWP: Dependensi OpenSSL dihapus dari pustaka UWP dan diganti dengan websocket WinRT dan API HTTP untuk memenuhi kepatuhan keamanan dan jejak biner yang lebih kecil.
  • Mac: Memperbaiki masalah "Modul MicrosoftCognitiveServicesSpeech Tidak Ditemukan" saat menggunakan proyek Swift yang menargetkan platform macOS
  • Windows, Mac: Memperbaiki masalah khusus platform di mana sumber audio yang dikonfigurasi melalui properti untuk melakukan streaming pada tingkat real time terkadang tertinggal dan akhirnya melebihi kapasitas

Sampel (GitHub)

  • C#: Sampel kerangka kerja .NET diperbarui untuk menggunakan v4.6.2
  • Unity: Sampel asisten virtual diperbaiki untuk Android dan UWP
  • Unity: Sampel Unity diperbarui untuk versi Unity 2020 LTS

Speech SDK 1.21.0: Rilis April 2022

Fitur baru

  • Java & JavaScript: Menambahkan dukungan untuk Identifikasi Bahasa Berkelanjutan saat menggunakan objek SpeechRecognizer
  • JavaScript: Menambahkan Diagnostics API untuk mengaktifkan tingkat pengelogan konsol dan (khusus Simpul) pengelogan file, untuk membantu Microsoft memecahkan masalah yang dilaporkan pelanggan
  • Python: Menambahkan dukungan untuk Transkripsi Percakapan
  • Go: Menambahkan dukungan untuk Pengenalan Penutur
  • C++ & C#: Menambahkan dukungan untuk sekelompok kata yang diperlukan di Intent Recognizer (pencocokan pola sederhana). Misalnya: "(set|start|begin) a timer" di mana "set", "start" atau "begin" harus ada untuk niat yang akan dikenali.
  • Semua bahasa pemrograman, Sintesis Ucapan: Menambahkan properti durasi dalam peristiwa batas kata. Menambahkan dukungan untuk batas tanda baca dan batas kalimat
  • Objective-C/Swift/Java: Menambahkan hasil tingkat kata pada objek hasil Penilaian Pengucapan (mirip dengan C#). Aplikasi tidak perlu lagi mengurai string hasil JSON untuk mendapatkan informasi tingkat kata (masalah GitHub)
  • Platform iOS: Menambahkan dukungan eksperimental untuk arsitektur ARMv7

Perbaikan bug

  • Platform iOS: Perbaiki untuk memungkinkan pembangunan untuk target "Perangkat iOS apa pun", saat menggunakan CocoaPod (masalah GitHub)
  • Platform Android: Versi OpenSSL telah diperbarui ke 1.1.1n untuk memperbaiki kerentanan keamanan CVE-2022-0778
  • JavaScript: Memperbaiki masalah saat header wav tidak diperbarui dengan ukuran file (masalah GitHub)
  • JavaScript: Memperbaiki masalah desinkronissi ID permintaan yang melanggar skenario terjemahan (masalah GitHub)
  • JavaScript: Memperbaiki masalah saat membuat instans SpeakerAudioDestination tanpa aliran (masalah GitHub)
  • C++: Memperbaiki header C++ untuk menghapus peringatan saat mengompilasi untuk C++17 atau yang lebih baru

GitHub Sampel

  • Sampel Java baru untuk Pengenalan Ucapan dengan Identifikasi Bahasa
  • Sampel Python dan Java baru untuk Transkripsi Percakapan
  • Sampel Go baru untuk Pengenalan Penutur
  • Alat C++ dan C# baru untuk Windows yang menghitung semua perangkat pengambilan dan render audio, untuk menemukan ID Perangkat mereka. ID ini diperlukan oleh Speech SDK jika Anda berencana untuk mengambil audio dari, atau merender audio ke, perangkat non-default.

Speech SDK 1.20.0: Rilis Januari 2022

Fitur baru

  • Objective-C, Swift, dan Python: Menambahkan dukungan untuk DialogServiceConnector, yang digunakan untuk skenario Voice-Assistant.
  • Python: Dukungan untuk Python 3.10 ditambahkan. Dukungan untuk Python 3.6 telah dihapus, per akhir masa pakai Python untuk 3.6.
  • Unity: Speech SDK sekarang didukung untuk aplikasi Unity di Linux.
  • C++, C#: IntentRecognizer menggunakan pencocokan pola sekarang didukung di C#. Selain itu, skenario dengan entitas kustom, grup opsional, dan peran entitas sekarang didukung dalam C ++ dan C#.
  • C++, C#: Diagnostik yang ditingkatkan melacak pencatatan menggunakan kelas baru FileLogger, MemoryLogger, dan EventLogger. Log SDK adalah alat penting bagi Microsoft untuk mendiagnosis masalah yang dilaporkan pelanggan. Kelas-kelas baru ini memudahkan pelanggan untuk mengintegrasikan log Speech SDK ke dalam sistem pengelogan mereka sendiri.
  • Semua bahasa pemrograman: PronunciationAssessmentConfig sekarang memiliki properti untuk mengatur alfabet fonem yang diinginkan (IPA atau SAPI) dan N-Best Phoneme Count (menghindari kebutuhan untuk menulis konfigurasi JSON sesuai GitHub masalah 1284). Selain itu, output level suku kata sekarang didukung.
  • Android, iOS, dan macOS (semua bahasa pemrograman): GStreamer tidak lagi diperlukan untuk mendukung jaringan bandwidth terbatas. SpeechSynthesizer sekarang menggunakan kemampuan decoding audio sistem operasi untuk mendekode audio terkompresi yang dialirkan dari layanan teks ke ucapan.
  • Semua bahasa pemrograman: SpeechSynthesizer sekarang mendukung tiga format Opus keluaran mentah baru (tanpa kontainer), yang banyak digunakan dalam skenario streaming langsung.
  • JavaScript: Menambahkan getVoicesAsync() API ke SpeechSynthesizer untuk mengambil daftar suara sintesis yang didukung (GitHub masalah 1350)
  • JavaScript: Menambahkan API getWaveFormat() ke AudioStreamFormat untuk mendukung format gelombang non-PCM (GitHub masalah 452)
  • JavaScript: Menambahkan volume getter/setter dan mute()/unmute() API ke SpeakerAudioDestination (GitHub issue 463)

Perbaikan bug

  • C++, C#, Java, JavaScript, Objective-C, dan Swift: Perbaiki untuk menghapus penundaan 10 detik sambil menghentikan pengenalan ucapan yang menggunakan PushAudioInputStream. Ini untuk kasus di mana tidak ada audio baru yang didorong setelah StopContinuousRecognition dipanggil (GitHub masalah 1318, 331)
  • Unity di Android dan UWP: File meta Unity diperbaiki untuk UWP, Android ARM64, dan Subsistem Windows untuk Android (WSA) ARM64 (edisi GitHub 1360)
  • iOS: Mengompilasi aplikasi Speech SDK Anda di Perangkat iOS apa pun saat menggunakan CocoaPods sekarang sudah diperbaiki (masalah GitHub 1320)
  • iOS: Ketika SpeechSynthesizer dikonfigurasi untuk mengeluarkan audio langsung ke speaker, pemutaran berhenti di awal dalam kondisi langka. Ini sudah diperbaiki.
  • JavaScript: Gunakan fallback prosesor skrip untuk input mikrofon jika tidak ada worklet audio yang ditemukan (GitHub masalah 455)
  • JavaScript: Menambahkan protokol ke agen untuk mengurangi bug yang ditemukan dengan integrasi Sentry (GitHub masalah 465)

GitHub Sampel

  • Sampel C++, C#, Python, dan Java menunjukkan cara mendapatkan hasil pengenalan terperinci. Rinciannya termasuk hasil pengenalan alternatif, skor kepercayaan, bentuk Leksikal, bentuk normalisasi, bentuk Normalisasi Bertopeng, dengan waktu tingkat kata untuk masing-masing.
  • Sampel iOS ditambahkan menggunakan AVFoundation sebagai sumber audio eksternal.
  • Sampel Java ditambahkan untuk menunjukkan cara mendapatkan format SRT (SubRip Text) menggunakan peristiwa WordBoundary.
  • Sampel Android untuk Penilaian Pengucapan.
  • C++, C# menampilkan penggunaan kelas Pencatatan Diagnostik baru.

SDK Ucapan 1.19.0: Rilis November 2021

Sorotan

  • Layanan Pengenalan Pembicara kini tersedia secara umum (GA). API Speech SDK tersedia di C ++, C#, Java dan JavaScript. Dengan Pengenalan Pembicara Anda dapat secara akurat memverifikasi dan mengidentifikasi pembicara dengan karakteristik suara mereka yang unik. Untuk informasi selengkapnya tentang topik ini, lihat dokumentasi.

  • Kami sudah tidak lagi memberikan dukungan untuk Ubuntu 16.04 bersama dengan Azure DevOps dan GitHub. Ubuntu 16.04 sudah tidak lagi mendapatkan dukungan pada bulan April 2021. Migrasikan alur kerja Ubuntu 16.04 Anda ke Ubuntu 18.04 atau yang lebih baru.

  • Penautan OpenSSL di biner Linux berubah menjadi dinamis. Ukuran biner Linux telah berkurang sekitar 50%.

  • Dukungan silikon untuk Mac M1 berbasis ARM telah ditambahkan.

Fitur baru

  • C++/C#/Java: API baru telah ditambahkan guna mengaktifkan dukungan pemrosesan audio untuk input ucapan dengan Microsoft Audio Stack. Dokumentasi di sini.

  • C ++ : API baru untuk pengenalan niat untuk memfasilitasi pencocokan pola yang lebih andal. Hal ini termasuk entitas Daftar dan Integer yang telah dibuat sebelumnya serta dukungan untuk mengelompokkan niat dan entitas sebagai model (Dokumentasi, pembaruan, dan sampel sedang dalam tahap pengembangan dan akan diterbitkan dalam waktu dekat).

  • Mac: Dukungan untuk silikon berbasis ARM64 (M1) untuk paket CocoaPod, Python, Java, dan NuGet yang terkait dengan edisi GitHub 1244.

  • iOS/Mac: Biner iOS dan macOS sekarang dikemas ke dalam xcframework berhubungan dengan GitHub mengeluarkan 919.

  • iOS/Mac: Dukungan untuk Mac catalyst berhubungan dengan GitHub mengeluarkan 1171.

  • Linux: Paket tar baru ditambahkan untuk CentOS7 Tentang SDK Ucapan. Paket .tar Linux sekarang berisi pustaka khusus untuk RHEL / CentOS 7 di lib/centos7-x64. Pustaka Speech SDK di lib/x64 masih berlaku untuk semua distribusi Linux x64 lain yang didukung (termasuk RHEL/CentOS 8) dan tidak akan berfungsi pada RHEL/CentOS 7.

  • JavaScript: API VoiceProfile & SpeakerRecognizer dibuat asinkron/dapat ditunggu.

  • JavaScript: Dukungan ditambahkan untuk wilayah Azure pemerintah AS.

  • Windows: Dukungan ditambahkan untuk pemutaran di Platform Windows Universal (UWP).

Perbaikan bug

  • Android: Pembaruan keamanan OpenSSL (diperbarui ke versi 1.1.1l) untuk paket Android.

  • Python: Menyelesaikan bug saat memilih perangkat speaker pada Python gagal.

  • Core: Secara otomatis menghubungkan kembali saat upaya koneksi gagal.

  • iOS: Kompresi audio dinonaktifkan pada paket iOS karena ketidakstabilan dan masalah pembuatan bitcode saat menggunakan GStreamer. Detailnya dapat dilihat di GitHub edisi 1209.

GitHub Sampel

  • Mac/iOS: Sampel dan mulai cepat yang diperbarui untuk menggunakan paket xcframework.

  • .NET: Sampel diperbarui untuk menggunakan versi .NET core 3.1.

  • JavaScript: Menambahkan sampel untuk Asisten Voice.

Ucapan SDK 1.18.0: Rilis Juli 2021

Catatan: Mulai gunakan Speech SDK di sini.

Ringkasan sorotan

  • Ubuntu 16.04 mencapai akhir masa penggunaan pada April 2021. Dengan Azure DevOps dan GitHub, kami akan menghilangkan dukungan untuk 16.04 pada Bulan September 2021. Migrasikan alur kerja ubuntu-16.04 ke ubuntu-18.04 atau yang lebih baru sebelum itu.

Fitur baru

  • C++ : Pencocokan Pola Bahasa Sederhana dengan Pengenal Niat kini membuat penerapan skenario pengenalan niat sederhana lebih mudah.
  • C++/C#/Java: Kami menambahkan API baru, GetActivationPhrasesAsync() ke kelas VoiceProfileClient guna menerima daftar frasa aktivasi valid di fase pendaftaran pengenal pembicara untuk skenario pengenalan independen.
    • Penting: Fitur Pengenal Pembicara sedang dalam Pratinjau. Semua profil suara yang dibuat di Pratinjau akan dihentikan 90 hari setelah fitur Pengenalan Pembicara dipindahkan dari Pratinjau ke Ketersediaan Umum. Pada saat itu, profil suara Pratinjau akan berhenti berfungsi.
  • Python: Menambahkan dukungan untuk Identifikasi Bahasa (LID) berkelanjutan pada objek SpeechRecognizer dan TranslationRecognizer yang ada.
  • Python: Menambahkan objek Python baru bernama SourceLanguageRecognizer untuk melakukan LID satu kali atau berkelanjutan (tanpa pengenalan atau terjemahan).
  • JavaScript: getActivationPhrasesAsync API ditambahkan ke kelas VoiceProfileClient guna menerima daftar frasa aktivasi yang valid di fase pendaftaran pengenalan pembicara untuk skenario pengenalan independen.
  • JavaScriptVoiceProfileClientenrollProfileAsync API kini asinkron yang dapat ditunggu. Lihat kode identifikasi independen ini, misalnya, penggunaan.

Perbaikan

  • Java: Dukungan AutoCloseable ditambahkan ke banyak objek Java. Model try-with-resources kini didukung untuk melepaskan sumber daya. Lihat sampel ini yang menggunakan try-with-resources. Lihat juga tutorial dokumentasi Oracle Java untuk Statemen try-with-resources untuk mempelajari pola ini.
  • Jejak disk telah berkurang secara signifikan untuk banyak platform dan arsitektur. Contoh untuk biner Microsoft.CognitiveServices.Speech.core: x64 Linux berukuran 475 KB lebih kecil (pengurangan 8,0%); ARM64 Windows UWP berukuran 464 KB lebih kecil (pengurangan 11,5%); x86 Windows berukuran 343 KB lebih kecil (pengurangan 17,5%); dan x64 Windows berukuran 451 KB lebih kecil (pengurangan 19,4%).

Perbaikan bug

  • Java: Kesalahan sintesis tetap saat teks sintesis berisi karakter pengganti. Lihat detailnya di sini.
  • JavaScript: Pemrosesan audio mikrofon browser kini menggunakan AudioWorkletNode dan bukan ScriptProcessorNode yang tidak digunakan lagi. Lihat detailnya di sini.
  • JavaScript: Menjaga percakapan tetap hidup dan dengan benar selama skenario terjemahan percakapan yang berjalan lama. Lihat detailnya di sini.
  • JavaScript: Memperbaiki masalah dengan pengenal yang tersambung kembali ke aliran media dalam pengenal berkelanjutan. Lihat detailnya di sini.
  • JavaScript: Memperbaiki masalah dengan pengenal yang tersambung kembali ke pushStream di pengenal berkelanjutan. Lihat detailnya di sini.
  • JavaScript: Mengoreksi perhitungan offset tingkat kata dalam hasil pengenalan yang rinci. Lihat detailnya di sini.

Sampel

  • Sampel mulai cepat Java diperbarui di sini.
  • Sampel Pengenalan Pembicara JavaScript diperbarui untuk menunjukkan penggunaan baru enrollProfileAsync(). Lihat sampel di sini.

Speech SDK 1.17.0: rilis Mei 2021

Catatan

Mulai gunakan Speech SDK di sini.

Ringkasan sorotan

  • Jejak yang lebih kecil - kami terus mengurangi memori dan jejak disk Speech SDK dan komponennya.
  • API identifikasi bahasa mandiri baru memungkinkan Anda mengenali bahasa apa yang sedang diucapkan.
  • Kembangkan aplikasi realitas campuran dan game yang didukung ucapan menggunakan Unity di macOS.
  • Anda sekarang dapat menggunakan Teks untuk ucapan selain pengenalan ucapan dari bahasa pemrograman Go.
  • Beberapa perbaikan Bug untuk mengatasi masalah ANDA, pelanggan kami yang berharga, telah ditandai di GitHub! TERIMA KASIH! Terus berikan umpan balik!

Fitur baru

  • C++/C#: Identifikasi Bahasa Mandiri Di Awal dan Berkelanjutan yang baru melalui API SourceLanguageRecognizer. Jika Anda hanya ingin mendeteksi bahasa yang diucapkan dalam konten audio, ini adalah API untuk melakukannya. Lihat detail untuk C ++ dan C#.
  • C++/C#: Pengenalan Ucapan dan Pengenalan Terjemahan sekarang mendukung Identifikasi Bahasa awal dan berkelanjutan sehingga Anda dapat menentukan bahasa mana yang diucapkan secara terprogram sebelum ditranskripsikan atau diterjemahkan. Lihat dokumentasi di sini untuk Pengenalan Ucapan dan di sini untuk Terjemahan Ucapan.
  • C#: Menambahkan dukungan Unity ke macOS (x64). Ini membuka kasus penggunaan pengenalan ucapan dan sintesis ucapan dalam realitas campuran dan game!
  • Go: Kami menambahkan dukungan untuk teks sintesis ucapan ke ucapan ke bahasa pemrograman Go untuk membuat sintesis ucapan tersedia dalam kasus penggunaan yang lebih banyak lagi. Lihat mulai cepat kami atau dokumentasi referensi kami.
  • C++/C#/Java/Python/Objective-C/Go: Synthesizer ucapan sekarang mendukung objek connection. Ini membantu Anda mengelola dan memantau koneksi ke layanan ucapan, dan sangat membantu untuk melakukan pra-sambungan untuk mengurangi latensi. Lihat dokumentasi di sini.
  • C++/C#/Java/Python/Objective-C/Go: Kami sekarang mengekspos latensi dan waktu underrun di SpeechSynthesisResult untuk membantu Anda memantau dan mendiagnosis masalah latensi sintesis ucapan. Lihat detail untuk C++, C#, Java, Python, Objective-C, dan Go.
  • C++/C#/Java/Python/Objective-C: Teks ke ucapan sekarang menggunakan suara neural secara default saat Anda tidak menentukan suara yang akan digunakan. Ini memberi Anda output keakuratan yang lebih tinggi secara default, tetapi juga meningkatkan harga default. Anda dapat menentukan salah satu dari lebih dari 70 suara standar kami atau lebih dari 130 suara neural untuk mengubah default.
  • C++/C#/Java/Python/Objective-C/Go: Kami menambahkan properti Jenis Kelamin ke info suara sintesis untuk memudahkan memilih suara berdasarkan jenis kelamin. Ini mengatasi masalah GitHub #1055.
  • C++, C#, Java, JavaScript: Kami sekarang mendukung retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync, dan getAllProfilesAsync() serta di Pengenalan Pembicara untuk memudahkan manajemen pengguna semua profil suara untuk akun tertentu. Lihat dokumentasi untuk C++, C#, Java, JavaScript. Ini mengatasi masalah GitHub #338.
  • JavaScript: Kami menambahkan coba lagi untuk kegagalan koneksi yang akan membuat aplikasi ucapan berbasis JavaScript Anda lebih kuat.

Penyempurnaan

  • Biner Linux dan Android Speech SDK telah diperbarui untuk menggunakan OpenSSL versi terbaru (1.1.1k)
  • Peningkatan Ukuran Kode:
    • Language Understanding sekarang dibagi menjadi pustaka "lu" terpisah.
    • Ukuran biner inti Windows x64 berkurang sebesar 14,4%.
    • Ukuran biner inti Windows ARM64 berkurang sebesar 13,7%.
    • komponen lain juga berkurang ukurannya.

Perbaikan bug

  • Semua: Memperbaiki masalah GitHub #842 untuk ServiceTimeout. Anda sekarang dapat mentranskripsikan file audio panjang menggunakan Speech SDK tanpa koneksi ke layanan yang berakhir dengan kesalahan ini. Namun, kami masih menyarankan Anda menggunakan transkripsi batch untuk file panjang.
  • C# : Memperbaiki masalah GitHub #947 ketika tidak ada input ucapan yang dapat meninggalkan aplikasi Anda dalam status buruk.
  • Java: Memperbaiki Masalah GitHub #997 ketika Speech SDK untuk Java 1.16 mengalami crash saat menggunakan DialogServiceConnector tanpa koneksi jaringan atau kunci langganan yang tidak valid.
  • Memperbaiki crash saat pengenalan ucapan berhenti mendadak (misalnya menggunakan CTRL+C pada aplikasi konsol).
  • Java: Menambahkan perbaikan untuk menghapus file sementara di Windows saat menggunakan Speech SDK untuk Java.
  • Java: Memperbaiki masalah GitHub #994 yang pemanggilan DialogServiceConnector.stopListeningAsync dapat mengakibatkan kesalahan.
  • Java: Memperbaiki masalah pelanggan di mulai cepat asisten virtual.
  • JavaScript: Memperbaiki masalah GitHub #366 di mana ConversationTranslator melemparkan kesalahan 'this.cancelSpeech bukan fungsi'.
  • JavaScript: Memperbaiki masalah GitHub #298 ketika sampel 'Dapatkan hasil sebagai aliran dalam memori' diputar dengan suara keras.
  • JavaScript: Memperbaiki masalah GitHub #350 di mana panggilan AudioConfig dapat mengakibatkan 'ReferenceError: MediaStream tidak ditentukan'.
  • JavaScript: Memperbaiki peringatan UnhandledPromiseRejection di Node.js untuk sesi yang berjalan lama.

Sampel

  • Memperbaiki dokumentasi sampel Unity untuk macOS di sini.
  • Sampel React Native untuk layanan pengenalan Ucapan Azure AI sekarang tersedia di sini.

Speech SDK 1.16.0: Rilis Maret 2021

Catatan

Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.

Fitur baru

  • C++/C#/Java/Python: Pindah ke versi terbaru GStreamer (1.18.3) untuk menambahkan dukungan untuk mentranskripsikan format media apa pun di Windows, Linux, dan Android. Lihat dokumentasi di sini.
  • C++/C#/Java/Objective-C/Python: Menambahkan dukungan untuk mendekode TTS/audio sintesis terkompresi ke SDK. Jika Anda mengatur format audio output ke PCM dan GStreamer tersedia di sistem Anda, SDK akan secara otomatis meminta audio terkompresi dari layanan untuk menyimpan bandwidth dan mendekode audio pada klien. Anda dapat mengatur SpeechServiceConnection_SynthEnableCompressedAudioTransmission ke false menonaktifkan fitur ini. Detail untuk C++, C#, Java, Objective-C, Python.
  • JavaScript: Pengguna Node.js sekarang dapat menggunakan AudioConfig.fromWavFileInput API. Ini mengatasi masalah GitHub #252.
  • C++/C#/Java/Objective-C/Python: Menambahkan metode GetVoicesAsync() bagi TTS untuk mengembalikan semua suara sintesis yang tersedia. Detail untuk C++, C#, Java, Objective-C, dan Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan peristiwa VisemeReceived untuk sintesis TTS/ucapan untuk mengembalikan animasi viseme sinkron. Lihat dokumentasi di sini.
  • C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan peristiwa BookmarkReached untuk TTS. Anda dapat mengatur marka buku di SSML input dan mendapatkan offset audio untuk setiap marka buku. Lihat dokumentasi di sini.
  • Java: Menambahkan dukungan untuk API Pengenalan Pembicara. Lihat detailnya di sini.
  • C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan dua format audio output baru dengan kontainer WebM untuk TTS (Webm16Khz16BitMonoOpus dan Webm24Khz16BitMonoOpus). Ini adalah format yang lebih baik untuk streaming audio dengan codec Opus. Detail untuk C++, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: Menambahkan dukungan untuk mengambil profil suara untuk skenario Pengenalan Pembicara. Detail untuk C++, C#, dan Java.
  • C++/C#/Java/Objective-C/Python: Menambahkan dukungan untuk pustaka bersama terpisah untuk mikrofon audio dan kontrol pembicara. Ini memungkinkan pengembang untuk menggunakan SDK di lingkungan yang tidak memerlukan dependensi pustaka audio.
  • Objective-C/Swift: Menambahkan dukungan untuk kerangka modul dengan header payung. Hal ini memungkinkan pengembang untuk mengimpor Speech SDK sebagai modul di aplikasi iOS/Mac Objective-C/Swift. Ini mengatasi masalah GitHub #452.
  • Python: Menambahkan dukungan untuk Python 3.9 dan menghapus dukungan untuk Python 3.5 per masa akhir Python untuk 3.5.

Masalah yang diketahui

  • C++/C#/Java: DialogServiceConnector tidak dapat menggunakan CustomCommandsConfig untuk mengakses aplikasi Perintah Kustom dan sebaliknya akan mengalami kesalahan koneksi. Ini dapat dikerjakan dengan menambahkan ID aplikasi Anda secara manual ke permintaan dengan config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Perilaku yang diharapkan dari CustomCommandsConfig akan dipulihkan pada rilis berikutnya.

Penyempurnaan

  • Sebagai bagian dari upaya multi-rilis kami untuk mengurangi penggunaan memori dan jejak disk Speech SDK, biner Android sekarang 3% hingga 5% lebih kecil.
  • Peningkatan akurasi, keterbacaan, dan lihat juga bagian dokumentasi referensi C# kami di sini.

Perbaikan bug

  • JavaScript: Header file WAV besar sekarang diurai dengan benar (meningkatkan potongan header menjadi 512 byte). Ini mengatasi masalah GitHub #962.
  • JavaScript: Memperbaiki Masalah waktu mikrofon jika aliran mikrofon berakhir sebelum menghentukan pengenalan, mengatasi masalah dengan Pengenalan Ucapan yang tidak berfungsi di Firefox.
  • JavaScript: Kami sekarang mengatasi janji inisialisasi dengan benar ketika browser memaksa mikrofon mati sebelum turnOn selesai.
  • JavaScript: Kami mengganti dependensi URL dengan url-parse. Ini mengatasi masalah GitHub #264.
  • Android: Panggilan balik tetap tidak berfungsi saat minifyEnabled diatur ke true.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY akan diatur dengan benar ke IO soket yang mendasarinya agar TTS mengurangi latensi.
  • C++/C#/Java/Python/Objective-C/Go: Memperbaiki crash sesekali ketika pengenal dihapus tepat setelah memulai pengenalan.
  • C++/C#/Java: Memperbaiki crash sesekali dalam penghapusan pengenal pembicara.

Sampel

Speech SDK 1.15.0: Rilis Januari 2021

Catatan

Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.

Ringkasan sorotan

  • Memori dan jejak disk yang lebih kecil menjadikan SDK lebih efisien.
  • Format output keakuratan yang lebih tinggi tersedia untuk pratinjau privat suara neural kustom.
  • Intent Recognizer sekarang bisa mendapatkan pengembalian lebih dari niat teratas, memberi Anda kemampuan untuk membuat penilaian terpisah tentang tujuan pelanggan Anda.
  • Asisten suara atau bot kini lebih mudah disiapkan, dan Anda dapat langsung membuatnya berhenti mendengarkan, dan menjalankan kontrol yang lebih ketat terhadap cara kesalahan direspons.
  • Meningkatkan performa perangkat melalui membuat kompresi opsional.
  • Gunakan Speech SDK di Windows ARM/ARM64.
  • Meningkatkan penelusuran kesalahan tingkat rendah.
  • Fitur Penilaian Pengucapan kini lebih banyak tersedia.
  • Beberapa perbaikan Bug untuk mengatasi masalah ANDA, pelanggan kami yang berharga, telah ditandai di GitHub! TERIMA KASIH! Terus berikan umpan balik!

Penyempurnaan

  • Speech SDK sekarang lebih efisien dan ringan. Kami telah memulai upaya multi rilis untuk mengurangi penggunaan memori dan jejak disk Speech SDK. Sebagai langkah pertama kami membuat pengurangan ukuran file yang signifikan di pustaka bersama di sebagian besar platform. Dibandingkan dengan rilis 1.14:
    • Pustaka Windows yang kompatibel dengan UWP 64-bit sekitar 30% lebih kecil.
    • Pustaka Windows 32-bit belum melihat peningkatan ukuran.
    • Pustaka Linux 20-25% lebih kecil.
    • Pustaka Android 3-5% lebih kecil.

Fitur baru

  • Semua: Format output 48 KHz baru tersedia untuk pratinjau privat suara neural kustom melalui API sintesis ucapan TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Semua: Suara kustom juga lebih mudah digunakan. Menambahkan dukungan untuk mengatur suara kustom melalui EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Sebelum perubahan ini, pengguna suara kustom perlu mengatur URL titik akhir melalui metode FromEndpoint. Sekarang pelanggan dapat menggunakan metode FromSubscription seperti suara bawaan, lalu memberikan ID penyebaran dengan mengatur EndpointId. Ini menyederhanakan pengaturan suara kustom.
  • C++/C#/Java/Objective-C/Python: Dapatkan lebih dari niat teratas dari IntentRecognizer. Sekarang mendukung konfigurasi hasil JSON yang berisi semua maksud dan tidak hanya niat penilaian teratas melalui metode LanguageUnderstandingModel FromEndpoint dengan menggunakan verbose=true parameter uri. Ini mengatasi masalah GitHub #880. Lihat dokumentasi yang diperbarui di sini.
  • C++/C#/Java: Buat asisten suara atau bot Anda segera berhenti mendengarkan. DialogServiceConnector (C++, C#, Java) sekarang memiliki metode StopListeningAsync() untuk menyertai ListenOnceAsync(). Ini akan segera menghentikan pengambilan audio dan dengan baik menunggu hasil, membuatnya sempurna untuk digunakan dengan skenario tekan tombol "berhenti sekarang".
  • C++/C#/Java/JavaScript: Buat asisten suara atau bot Anda bereaksi lebih baik terhadap kesalahan sistem yang mendasarinya. DialogServiceConnector (C++, C#, Java, JavaScript) sekarang memiliki handler peristiwa TurnStatusReceived baru. Peristiwa opsional ini sesuai dengan setiap resolusi ITurnContext pada Bot dan akan melaporkan kegagalan eksekusi saat terjadi, misalnya sebagai akibat dari pengecualian, waktu habis, atau penurunan jaringan yang tidak tertangani antara Direct Line Speech dan bot. TurnStatusReceived membuatnya lebih mudah untuk merespons kondisi kegagalan. Misalnya, jika bot terlalu lama pada kueri database ujung belakang (misalnya mencari produk), TurnStatusReceived memungkinkan klien mengetahui untuk memerintah ulang dengan "maaf, saya tidak terlalu mengerti, bisakah Anda mencoba lagi" atau sesuatu yang serupa.
  • C++/C# : Gunakan Speech SDK di lebih banyak platform. Paket Speech SDK NuGet sekarang mendukung biner asli desktop Windows ARM/ARM64 (UWP sudah didukung) untuk membuat Speech SDK lebih berguna di lebih banyak jenis mesin.
  • Java: DialogServiceConnector sekarang memiliki metode setSpeechActivityTemplate() yang secara tidak sengaja dikecualikan dari bahasa sebelumnya. Ini setara dengan pengaturan properti Conversation_Speech_Activity_Template dan akan meminta semua aktivitas Bot Framework di masa depan yang berasal dari layanan Direct Line Speech menggabungkan konten yang disediakan ke dalam muatan JSON mereka.
  • Java: Meningkatkan penelusuran kesalahan tingkat rendah. Kelas Connection sekarang memiliki peristiwa MessageReceived, mirip dengan bahasa pemrograman lainnya (C++, C#). Peristiwa ini menyediakan akses tingkat rendah ke data masuk dari layanan dan dapat berguna untuk diagnostik dan debugging.
  • JavaScript: Penyiapan yang lebih mudah untuk Asisten Suara dan bot melalui BotFrameworkConfig, yang sekarang memiliki metode pabrik fromHost() dan fromEndpoint() yang menyederhanakan penggunaan lokasi layanan kustom versus pengaturan properti secara manual. Kami juga menstandarkan spesifikasi botId opsional untuk menggunakan bot non-default di seluruh pabrik konfigurasi.
  • JavaScript: Ditingkatkan pada performa perangkat melalui properti kontrol string tambahan untuk kompresi websocket. Untuk alasan performa, kami menonaktifkan kompresi websocket secara default. Ini dapat diaktifkan kembali untuk skenario bandwidth rendah. Lihat detail lanjut di sini. Ini mengatasi masalah GitHub #242.
  • JavaScript: Menambahkan dukungan untuk lPronunciation Assessment untuk memungkinkan evaluasi pengucapan ucapan. Lihat mulai cepat di sini.

Perbaikan bug

  • Semua (kecuali JavaScript): Memperbaiki regresi di versi 1.14, ketika terlalu banyak memori dialokasikan oleh pengenal.
  • C++ : Memperbaiki masalah kumpulan sampah dengan DialogServiceConnector, mengatasi masalah GitHub #794.
  • C# : Memperbaiki masalah dengan pematian alur yang menyebabkan objek diblokir selama sekitar satu detik saat dibuang.
  • C++/C#/Java: Memperbaiki pengecualian yang mencegah aplikasi menetapkan token otorisasi ucapan atau templat aktivitas lebih dari sekali pada DialogServiceConnector.
  • C++/C#/Java: Memperbaiki crash recognizer karena kondisi balapan di teardown.
  • JavaScript: DialogServiceConnector sebelumnya tidak memenuhi paramater botId opsional yang ditentukan di pabrik BotFrameworkConfig. Ini membuatnya perlu untuk mengatur parameter string kueri botId secara manual untuk menggunakan bot non-default. Bug telah diperbaiki dan nilai botId yang diberikan ke pabrik BotFrameworkConfig akan dipenuhi dan digunakan, termasuk fromHost() baru dan tambahan fromEndpoint(). Ini juga berlaku untuk parameter applicationId untuk CustomCommandsConfig.
  • JavaScript: Memperbaiki masalah GitHub #881, memungkinkan penggunaan kembali objek pengenal.
  • JavaScript: Memperbaiki masalah ketika SKD mengirim speech.config beberapa kali dalam satu sesi TTS, membuang-buang bandwidth.
  • JavaScript: Penanganan kesalahan yang disederhanakan pada otorisasi mikrofon, memungkinkan pesan yang lebih deskriptif bergelombang saat pengguna belum mengizinkan input mikrofon di browser mereka.
  • JavaScript: Memperbaiki masalah GitHub #249 ketika kesalahan jenis di ConversationTranslator dan ConversationTranscriber menyebabkan kesalahan kompilasi untuk pengguna TypeScript.
  • Objective-C: Memperbaiki masalah ketika build GStreamer gagal untuk iOS pada Xcode 11.4, mengatasi masalah GitHub #911.
  • Python: Memperbaiki GitHub #870, menghapus "DeprecationWarning: modul imp ditolak demi importlib".

Sampel

Speech SDK 1.14.0: Rilis Oktober 2020

Catatan

Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.

Fitur baru

  • Linux: Menambahkan dukungan untuk Debian 10 dan Ubuntu 20.04 LTS.
  • Python/Objective-C: Menambahkan dukungan untuk KeywordRecognizer API. Dokumentasi akan tersedia di sini.
  • C++/Java/C# : Menambahkan dukungan untuk mengatur HttpHeader kunci/nilai apa pun melalui ServicePropertyChannel::HttpHeader.
  • JavaScript: Menambahkan dukungan untuk ConversationTranscriber API. Baca dokumentasi di sini.
  • C++/C# : Menambahkan metode AudioDataStream FromWavFileInput baru (untuk membaca file .WAV) di sini (C++) dan di sini (C#).
  • C++/C#/Java/Python/Objective-C/Swift: Menambahkan stopSpeakingAsync() metode untuk menghentikan teks ke sintesis ucapan. Baca Dokumentasi referensi di sini (C++), di sini (C#), di sini (Java), di sini (Python), dan di sini (Objective-C/Swift).
  • C#, C++, Java: Menambahkan fungsi FromDialogServiceConnector() ke kelas Connection yang dapat digunakan untuk memantau peristiwa koneksi dan melepas koneksi untuk DialogServiceConnector. Baca Dokumentasi referensi di sini (C#), di sini (C++), dan di sini (Java).
  • C++/C#/Java/Python/Objective-C/Swift: Menambahkan dukungan untuk Penilaian Pengucapan, yang mengevaluasi pengucapan ucapan dan memberikan umpan balik kepada pembicara tentang keakuratan dan kefasihan audio lisan. Baca dokumentasi di sini.

Breaking change

  • JavaScript: PullAudioOutputStream.read() memiliki perubahan jenis pengembalian dari Janji internal menjadi Janji JavaScript Asli.

Perbaikan bug

  • Semua: Memperbaiki regresi 1.13 SetServiceProperty ketika nilai dengan karakter khusus tertentu diabaikan.
  • C# : Memperbaiki sampel konsol Windows di Visual Studio 2019 yang gagal menemukan DL asli.
  • C# : Memperbaiki crash dengan manajemen memori jika aliran digunakan sebagai input KeywordRecognizer.
  • ObjectiveC/Swift: Memperbaiki crash dengan manajemen memori jika aliran digunakan sebagai input pengenal.
  • Windows: Memperbaiki masalah ko-eksistensi dengan BT HFP/A2DP di UWP.
  • JavaScript: Memperbaiki pemetaan ID sesi untuk meningkatkan pengelogan dan bantuan dalam korelasi debug/layanan internal.
  • JavaScript: Menambahkan perbaikan untuk DialogServiceConnector menonaktifkan ListenOnce panggilan setelah panggilan pertama dilakukan.
  • JavaScript: Memperbaiki masalah ketika output hasil hanya akan pernah "sederhana".
  • JavaScript: Memperbaiki masalah pengenalan berkelanjutan di Safari di macOS.
  • JavaScript: Mitigasi beban CPU untuk skenario throughput permintaan tinggi.
  • JavaScript: Mengizinkan akses ke detail hasil Pendaftaran Profil Suara.
  • JavaScript: Menambahkan perbaikan untuk pengenalan berkelanjutan di IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: Memperbaiki url yang salah untuk australiaeast dan brazilsouth di IntentRecognizer.
  • C++/C# : Menambahkan VoiceProfileType sebagai argumen saat membuat objek VoiceProfile.
  • C++/C#/Java/Python/Swift/ObjectiveC: Memperbaiki potensi SPX_INVALID_ARG saat mencoba membuat AudioDataStream dari posisi tertentu.
  • IOS: Memperbaiki crash dengan pengenalan ucapan di Unity

Sampel

  • ObjectiveC: Menambahkan sampel untuk pengenalan kata kunci di sini.
  • C#/JavaScript: Menambahkan mulai cepat untuk transkripsi percakapan di sini (C#) dan di sini (JavaScript).
  • C++/C#/Java/Python/Swift/ObjectiveC: Menambahkan sampel untuk Penilaian Pengucapan di sini
  • Xamarin: Memperbaiki mulai cepat ke templat Visual Studio terbaru di sini.

Masalah yang diketahui

  • Sertifikat DigiCert Global Root G2 tidak didukung secara default di HoloLens 2 dan Android 4.4 (KitKat) dan perlu ditambahkan ke sistem untuk membuat Speech SDK berfungsi. Sertifikat akan ditambahkan ke gambar OS HoloLens 2 dalam waktu dekat. Pelanggan Android 4.4 perlu menambahkan sertifikat yang diperbarui ke sistem.

Tes singkat COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!

Speech SDK 1.13.0: Rilis 2020-Juli

Catatan

Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh dan instal dari sini.

Fitur baru

  • C# : Menambahkan dukungan untuk transkripsi percakapan asinkron. Lihat dokumentasi di sini.
  • JavaScript: Menambahkan dukungan Pengenalan Pembicara untuk browser dan Node.js.
  • JavaScript: Menambahkan dukungan untuk identifikasi bahasa/ID bahasa. Lihat dokumentasi di sini.
  • Objective-C: Menambahkan dukungan untuk percakapan multi-perangkat dan transkripsi percakapan.
  • Python: Menambahkan dukungan audio terkompresi untuk Python di Windows dan Linux. Lihat dokumentasi di sini.

Perbaikan bug

  • Semua: Memperbaiki masalah yang menyebabkan KeywordRecognizer tidak meneruskan streaming setelah pengenalan.
  • Semua: Memperbaiki masalah yang menyebabkan aliran yang diperoleh dari KeywordRecognitionResult tidak berisi kata kunci.
  • Semua: Memperbaiki masalah bahwa SendMessageAsync tidak benar-benar mengirim pesan melalui kabel setelah pengguna selesai menunggunya.
  • Semua: Memperbaiki crash di API Pengenalan Pembicara saat pengguna memanggil metode VoiceProfileClient:SpeakerRecEnrollProfileAsync beberapa kali dan tidak menunggu panggilan selesai.
  • Semua: Tetap aktifkan pengelogan file di kelas VoiceProfileClient dan SpeakerRecognizer.
  • JavaScript: Memperbaiki masalah dengan pembatasan saat browser diminimalkan.
  • JavaScript: Memperbaiki masalah dengan kebocoran memori di aliran.
  • JavaScript: Menambahkan caching untuk respons OCSP dari NodeJS.
  • Java: Memperbaiki masalah yang menyebabkan bidang BigInteger selalu mengembalikan 0.
  • iOS: Memperbaiki masalah penerbitan aplikasi berbasis Speech SDK di App Store iOS.

Sampel

  • C++ : Menambahkan kode sampel untuk Pengenalan Pembicara di sini.

Tes singkat COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!

Speech SDK 1.12.1: Rilis Juni 2020

Fitur baru

Perbaikan bug

  • C#, C++: Perekaman mikrofon tetap tidak berfungsi di 1.12 di Pengenalan Pembicara.
  • JavaScript: Memperbaiki Teks ke ucapan di Firefox, dan Safari di macOS dan iOS.
  • Perbaiki untuk crash pelanggaran akses pemverifikasi aplikasi Windows pada transkripsi percakapan ketika menggunakan aliran delapan saluran.
  • Perbaiki untuk crash pelanggaran akses pemverifikasi aplikasi Windows pada terjemahan percakapan multi-perangkat.

Sampel

Tes singkat COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!

Speech SDK 1.12.0: Rilis Mei 2020

Fitur baru

  • Go: Dukungan bahasa Go Baru untuk Pengenalan Ucapan dan asisten suara kustom. Siapkan lingkungan pengembang Anda d sini. Untuk contoh kode, lihat bagian Sampel di bawah ini.
  • JavaScript: Menambahkan dukungan Browser untuk teks ke ucapan. Lihat dokumentasi di sini.
  • C++, C#, Java: Objek KeywordRecognizer baru dan API yang didukung di platform Windows, Android, Linux & iOS. Baca dokumentasi di sini. Untuk contoh kode, lihat bagian Sampel di bawah ini.
  • Java: Menambahkan percakapan multi-perangkat dengan dukungan terjemahan. Lihat dokumen referensi di sini.

Peningkatan & Optimisasi

  • JavaScript: Mengoptimalkan mikrofon browser yang meningkatkan akurasi pengenalan ucapan.
  • Java:Merefaktor pengikatan data menggunakan implementasi JNI langsung tanpa SWIG. Perubahan ini mengurangi 10x ukuran pengikatan untuk semua paket Java yang digunakan untuk Windows, Android, Linux, dan Mac serta memudahkan pengembangan lebih lanjut dari implementasi Speech SDK Java.
  • Linux: Memperbarui dokumentasi dukungan dengan catatan spesifik RHEL 7 terbaru.
  • Meningkatkan logika koneksi untuk upaya menyambungkan beberapa kali ketika terjadi kesalahan layanan dan jaringan.
  • Memperbarui halaman portal.azure.com Speech Quickstart untuk membantu pengembang mengambil langkah berikutnya dalam perjalanan Azure AI Speech.

Perbaikan bug

  • C#, Java: Memperbaiki masalah dengan memuat pustaka SDK di Linux ARM (baik 32 bit maupun 64 bit).
  • C#: Memperbaiki pembuangan eksplisit handel asli untuk objek TranslationRecognizer, IntentRecognizer, dan Connection.
  • C# : Memperbaiki manajemen masa pakai input audio untuk objek ConversationTranscriber.
  • Memperbaiki masalah di mana IntentRecognizer alasan hasil tidak diatur dengan benar saat mengenali niat dari frasa sederhana.
  • Memperbaiki masalah di mana SpeechRecognitionEventArgs offset hasil tidak diatur dengan benar.
  • Memperbaiki kondisi balapan ketika SDK mencoba mengirim pesan jaringan sebelum membuka sambungan websocket. Direproduksi untuk TranslationRecognizer sambil menambahkan peserta.
  • Memperbaiki kebocoran memori di mesin pengenal kata kunci.

Sampel

Tes singkat COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kita melewatkan sesuatu, beri tahu kami di GitHub.
Tetap sehat!

Speech SDK 1.11.0: Rilis Maret 2020

Fitur baru

  • Linux: Menambahkan dukungan untuk Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 dengan instruksi tentang cara mengonfigurasi sistem untuk Speech SDK.
  • Linux: Menambahkan dukungan untuk .NET Core C# di Linux ARM32 dan ARM64. Baca selengkapnya di sini.
  • C#, C++: Menambahkan UtteranceId di ConversationTranscriptionResult, ID yang konsisten di semua perantara dan hasil pengenalan ucapan akhir. Detail untuk C#, C++.
  • Python: Menambahkan dukungan untuk Language ID. Lihat speech_sample.py di repositori GitHub.
  • Windows: Menambahkan dukungan format input audio terkompresi pada platform Windows untuk semua aplikasi konsol win32. Lihat detailnya di sini.
  • JavaScript: Mendukung sintesis ucapan (teks ke ucapan) di NodeJS. Pelajari lebih lanjut di sini.
  • JavaScript: Menambahkan API baru untuk mengaktifkan pemeriksaan semua pesan yang dikirim dan diterima. Pelajari lebih lanjut di sini.

Perbaikan bug

  • C#, C++: Memperbaiki masalah sehingga SendMessageAsync sekarang mengirim pesan biner sebagai jenis biner. Detail untuk C#, C++.
  • C#, C++: Memperbaiki masalah ketika menggunakan peristiwa Connection MessageReceived dapat menyebabkan crash jika Recognizer dihapus sebelum objek Connection. Detail untuk C#, C++.
  • Android: Ukuran buffer audio dari mikrofon menurun dari 800 md menjadi 100 md untuk meningkatkan latensi.
  • Android: Memperbaiki masalah emulatorAndroid x86 di Android Studio.
  • JavaScript: Menambahkan dukungan untuk Wilayah di Tiongkok dengan API fromSubscription. Lihat detailnya di sini.
  • JavaScript: Menambahkan informasi kesalahan lainnya untuk kegagalan koneksi dari NodeJS.

Sampel

  • Unity: Pengenalan niat sampel publik diperbaiki, ketika impor LUIS json gagal. Lihat detailnya di sini.
  • Python: Sampel ditambahkan untuk Language ID. Lihat detailnya di sini.

Tes singkat covid19: Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak yang biasa kami lakukan. Misalnya, kami tidak dapat menguji input mikrofon dan output speaker di Linux, iOS, dan macOS. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun di platform ini, dan tes otomatis kami semuanya lulus. Dalam peristiwa yang tidak mungkin bahwa kita melewatkan sesuatu, beri tahu kami di GitHub.
Terima kasih atas dukungan tanpa henti Anda. Seperti biasa, posting pertanyaan atau umpan balik tentang GitHub atau Stack Overflow.
Tetap sehat!

Speech SDK 1.10.0: Rilis Februari 2020

Fitur baru

  • Menambahkan paket Python untuk mendukung rilis Python 3.8 baru.
  • Dukungan Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Catatan

    Pelanggan harus mengonfigurasi OpenSSL sesuai dengan instruksi ini.

  • Dukungan Linux ARM32 untuk Debian dan Ubuntu.
  • DialogServiceConnector sekarang mendukung parameter "bot ID" opsional di BotFrameworkConfig. Parameter ini memungkinkan penggunaan beberapa bot Direct Line Speech dengan satu sumber daya Ucapan. Tanpa parameter yang ditentukan, bot default (sebagaimana ditentukan oleh halaman konfigurasi saluran Direct Line Speech) akan digunakan.
  • DialogServiceConnector sekarang memiliki properti SpeechActivityTemplate. Konten string JSON ini akan digunakan oleh Direct Line Speech untuk mengisi berbagai bidang yang didukung di semua aktivitas yang mencapai bot Direct Line Speech, termasuk aktivitas yang dihasilkan secara otomatis sebagai respons terhadap peristiwa seperti pengenalan ucapan.
  • TTS sekarang menggunakan kunci langganan untuk autentikasi, mengurangi latensi byte pertama dari hasil sintesis pertama setelah membuat synthesizer.
  • Model pengenalan ucapan yang diperbarui untuk 19 lokal untuk pengurangan tingkat kesalahan kata rata-rata 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Model baru ini menghadirkan peningkatan signifikan di beberapa domain termasuk dikte, Transkripsi Pusat Panggilan, dan skenario Pengindeksan Video.

Perbaikan bug

  • Memperbaiki bug ketika Conversation Transcriber tidak menunggu dengan benar di API JAVA
  • Perbaikan emulator Android x86 untuk masalah GitHub Xamarin
  • Menambahkan metode (Get|Set)Property yang hilang untuk AudioConfig
  • Memperbaiki bug TTS ketika audioDataStream tidak dapat dihentikan ketika koneksi gagal
  • Menggunakan titik akhir tanpa wilayah akan menyebabkan kegagalan USP untuk penerjemah percakapan
  • Pembuatan ID di Universal Windows Applications sekarang menggunakan algoritma GUID yang unik; ini sebelumnya dan secara tidak sengaja default ke implementasi yang terpotong yang sering menghasilkan tabrakan atas serangkaian interaksi besar.

Sampel

Perubahan lain

Speech SDK 1.9.0: Rilis Januari 2020

Fitur baru

  • Percakapan multi-perangkat: sambungkan beberapa perangkat ke ucapan atau percakapan berbasis teks yang sama, dan secara opsional menerjemahkan pesan yang dikirim di antara perangkat tersebut. Pelajari selengkapnya di artikel ini.
  • Dukungan pengenalan kata kunci ditambahkan untuk paket .aar Android dan menambahkan dukungan untuk ragam x86 dan x64.
  • Objective-C: Metode SendMessage dan SetMessageProperty yang ditambahkan ke objek Connection. Lihat dokumentasi di sini.
  • Api TTS C++ sekarang mendukung std::wstring sebagai input teks sintesis, menghapus kebutuhan untuk mengonversi wstring ke string sebelum meneruskannya ke SDK. Lihat detailnya di sini.
  • C#: ID Bahasa dan konfigurasi bahasa sumber sekarang tersedia.
  • JavaScript: Menambahkan fitur ke objek Connection untuk menyampaikan pesan kustom dari Layanan Ucapan sebagai panggilan balik receivedServiceMessage.
  • JavaScript: Menambahkan dukungan untuk FromHost API memudahkan penggunaan dengan kontainer lokal dan sovereign cloud. Lihat dokumentasi di sini.
  • JavaScript: Kami sekarang memenuhi NODE_TLS_REJECT_UNAUTHORIZED berkat kontribusi dari orgads. Lihat detailnya di sini.

Perubahan mencolok

  • OpenSSL telah diperbarui ke versi 1.1.1b dan secara statis ditautkan ke pustaka inti Speech SDK untuk Linux. Ini dapat menyebabkan jeda jika kotak OpenSSL masuk Anda belum diinstal ke /usr/lib/ssl direktori dalam sistem. Periksa dokumentasi kami di bawah dokumen Speech SDK untuk mengatasi masalah ini.
  • Kami telah mengubah tipe data yang dikembalikan untuk C# WordLevelTimingResult.Offset dari int untuk long memungkinkan akses ke WordLevelTimingResults saat data ucapan lebih dari 2 menit.
  • PushAudioInputStream dan PullAudioInputStream sekarang mengirim informasi header wav ke Layanan Ucapan berdasarkan AudioStreamFormat, secara opsional ditentukan kapan pembuatannya. Pelanggan sekarang harus menggunakan format input audio yang didukung. Format lain akan mendapatkan hasil pengenalan suboptimal atau dapat menyebabkan masalah lain.

Perbaikan bug

  • Lihat pembaruan OpenSSL di bagian Perubahan mencolok di atas. Kami memperbaiki crash terputus-terputus dan masalah performa (mengunci konten di bawah beban tinggi) di Linux dan Java.
  • Java: Melakukan perbaikan pada penutupan objek dalam skenario konkurensi tinggi.
  • Merestrukturisasi paket NuGet kami. Kami menghapus tiga salinan Microsoft.CognitiveServices.Speech.core.dll dan Microsoft.CognitiveServices.Speech.extension.kws.dll di bawah folder lib, membuat paket NuGet lebih kecil dan lebih cepat diunduh, dan kami menambahkan header yang diperlukan untuk mengompilasi beberapa aplikasi asli C++.
  • Memperbaiki sampel mulai cepat di sini. Ini keluar tanpa menampilkan pengecualian "mikrofon tidak ditemukan" di Linux, macOS, Windows.
  • Memperbaiki crash SDK dengan hasil pengenalan ucapan yang panjang pada jalur kode tertentu seperti sampel ini.
  • Memperbaiki kesalahan penyebaran SDK di lingkungan Azure Web App untuk mengatasi masalah pelanggan ini.
  • Memperbaiki kesalahan TTS saat menggunakan multi <voice> tag atau <audio> tag untuk mengatasi masalah pelangganini.
  • Memperbaiki kesalahan TTS 401 saat SDK dipulihkan dari ditangguhkan.
  • JavaScript: Memperbaiki impor data audio sirkuler berkat kontribusi dari euirim.
  • JavaScript: menambahkan dukungan untuk mengatur properti layanan, seperti yang ditambahkan dalam 1.7.
  • JavaScript: memperbaiki masalah ketika kesalahan koneksi dapat mengakibatkan upaya koneksi ulang websocket terus-menerus dan tidak berhasil.

Sampel

  • Menambahkan sampel pengenalan kata kunci untuk Android di sini.
  • Menambahkan sampel TTS untuk skenario server di sini.
  • Menambahkan Mulai cepat percakapan multi-perangkat untuk C# dan C++ di sini.

Perubahan lain

  • Ukuran pustaka inti SDK yang dioptimalkan di Android.
  • SDK di 1.9.0 dan seterusnya mendukung jenis int dan string di bidang versi tanda tangan suara untuk Conversation Transcriber.

Speech SDK 1.8.0: Rilis November 2019

Fitur baru

  • FromHost() Menambahkan API, untuk memudahkan penggunaan dengan kontainer lokal dan sovereign cloud.
  • Menambahkan Identifikasi Bahasa Sumber untuk Pengenalan Ucapan (dalam Java dan C++)
  • Menambahkan objek SourceLanguageConfig untuk Pengenalan Suara, digunakan untuk menentukan bahasa sumber yang diharapkan (dalam Java dan C++)
  • Menambahkan dukungan KeywordRecognizer pada Windows (UWP), Android, dan iOS melalui paket NuGet dan Unity
  • Menambahkan Remote Conversation Java API untuk melakukan Transkripsi Percakapan dalam batch asinkron.

Perubahan mencolok

  • Fungsi Conversation Transcriber dipindahkan di bawah namespace Microsoft.CognitiveServices.Speech.Transcription.
  • Bagian dari metode Conversation Transcriber dipindahkan ke kelas Conversation baru.
  • Menghapus dukungan untuk iOS 32-bit (ARMv7 dan x86)

Perbaikan bug

  • Memperbaiki crash jika KeywordRecognizer lokal digunakan tanpa kunci langganan layanan Ucapan yang valid

Sampel

  • Sampel Xamarin untuk KeywordRecognizer
  • Sampel Unity untuk KeywordRecognizer
  • Sampel C++ dan Java untuk Identifikasi Bahasa Sumber Otomatis.

Speech SDK 1.7.0: Rilis September 2019

Fitur baru

  • Menambahkan dukungan beta untuk Xamarin di Universal Windows Platform (UWP), Android, dan iOS
  • Menambahkan dukungan iOS untuk Unity
  • Menambahkan dukungan input Compressed untuk ALaw, Mulaw, FLAC di Android, iOS, dan Linux
  • Ditambahkan SendMessageAsync di kelas Connection untuk mengirim pesan ke layanan
  • Ditambahkan SetMessageProperty di kelas Connection untuk mengatur properti pesan
  • TTS menambahkan pengikatan untuk Java (JRE dan Android), Python, Swift, dan Objective-C
  • TTS menambahkan dukungan pemutaran untuk macOS, iOS, dan Android.
  • Menambahkan informasi "batas kata" untuk TTS.

Perbaikan bug

  • Memperbaiki masalah build IL2CPP di Unity 2019 untuk Android
  • Memperbaiki masalah header yang salah bentuk dalam input file wav yang diproses dengan tidak benar
  • Memperbaiki masalah UUID yang tidak unik di beberapa properti sambungan
  • Memperbaiki beberapa peringatan tentang penentu nullabilitas dalam pengikatan Swift (mungkin memerlukan perubahan kode kecil)
  • Memperbaiki bug yang menyebabkan koneksi websocket ditutup paksa di bawah beban jaringan
  • Memperbaiki masalah di Android yang terkadang menghasilkan ID tayangan duplikat yang digunakan oleh DialogServiceConnector
  • Peningkatan stabilitas koneksi di seluruh interaksi multi-turn dan pelaporan kegagalan (melalui peristiwa Canceled) ketika terjadi dengan DialogServiceConnector
  • Mulai sesi DialogServiceConnector sekarang akan menyediakan peristiwa dengan benar, termasuk saat memanggil ListenOnceAsync() selama StartKeywordRecognitionAsync() aktif
  • Mengatasi crash yang terkait dengan DialogServiceConnector aktivitas yang diterima

Sampel

  • Mulai cepat untuk Xamarin
  • Memperbarui Mulai Cepat CPP dengan informasi Linux ARM64
  • Memperbarui mulai cepat Unity dengan informasi iOS

Speech SDK 1.6.0: Rilis Juni 2019

Sampel

  • Sampel mulai cepat untuk Teks Ke Ucapan di UWP dan Unity
  • Sampel mulai cepat untuk Swift di iOS
  • Sampel Unity untuk Pengenalan dan Terjemahan Ucapan & Niat
  • Memperbarui sampel mulai cepat untuk DialogServiceConnector

Peningkatan/Perubahan

  • Namespace dialog:
    • SpeechBotConnector telah diubah namanya menjadi DialogServiceConnector
    • BotConfig telah diubah namanya menjadi DialogServiceConfig
    • BotConfig::FromChannelSecret() telah dipetakan ulang ke DialogServiceConfig::FromBotSecret()
    • Semua klien Direct Line Speech yang ada terus didukung setelah perubahan nama
  • Memperbarui adaptor TTS REST untuk mendukung proksi, koneksi persisten
  • Meningkatkan pesan kesalahan saat wilayah yang tidak valid dilewati
  • Swift/Objective-C:
    • Meningkatkan pelaporan kesalahan: Metode yang dapat mengakibatkan kesalahan sekarang ada dalam dua versi: Satu metode yang mengekspos objek NSError untuk penanganan kesalahan, dan metode yang menimbulkan pengecualian. Yang pertama diekspos ke Swift. Perubahan ini memerlukan adaptasi ke kode Swift yang ada.
    • Meningkatkan penanganan peristiwa

Perbaikan bug

  • Perbaikan untuk TTS: SpeakTextAsync di mana masa mendatang dikembalikan tanpa menunggu sampai audio selesai dirender
  • Perbaikan untuk string marshaling di C# untuk mengaktifkan dukungan bahasa penuh
  • Perbaikan untuk masalah aplikasi inti .NET untuk memuat pustaka inti dengan kerangka kerja target net461 dalam sampel
  • Perbaikan untuk masalah tidak sering untuk menyebarkan pustaka asli ke folder output dalam sampel
  • Perbaikan untuk penutupan soket web dengan andal
  • Perbaikan untuk kemungkinan crash saat membuka koneksi di bawah beban berat di Linux
  • Perbaikan untuk metadata yang hilang dalam bundel kerangka kerja untuk macOS
  • Perbaikan untuk masalah dengan pip install --user di Windows

Speech SDK 1.5.1

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Perbaikan bug

  • Memperbaiki FromSubscription saat digunakan dengan Transkripsi Percakapan.
  • Memperbaiki bug dalam pencarian kata kunci untuk Asisten Voice.

Speech SDK 1.5.0: Rilis Mei 2019

Fitur baru

  • Pencarian kata kunci (KWS) sekarang tersedia untuk Windows dan Linux. Fungsionalitas KWS mungkin berfungsi dengan jenis mikrofon apa pun, dukungan resmi KWS, namun, saat ini terbatas pada array mikrofon yang ditemukan di perangkat keras Azure Kinect DK atau Speech Devices SDK.
  • Fungsionalitas yang sama tersedia melalui SDK. Untuk informasi selengkapnya, lihat di sini.
  • Fungsionalitas transkripsi percakapan tersedia melalui SDK.
  • Tambahkan dukungan untuk Asisten Voice menggunakan saluran Direct Line Speech.

Sampel

  • Menambahkan sampel untuk fitur baru atau layanan baru yang didukung oleh SDK.

Peningkatan/Perubahan

  • Menambahkan berbagai sifat recognizer untuk menyesuaikan perilaku layanan atau hasil layanan (seperti masking profanity dan lainnya).
  • Anda sekarang dapat mengonfigurasi recognizer melalui properti konfigurasi standar, bahkan jika Anda membuat recognizer FromEndpoint.
  • Objective-C: Properti OutputFormat ditambahkan ke SPXSpeechConfiguration.
  • SDK sekarang mendukung Debian 9 sebagai distribusi Linux.

Perbaikan bug

  • Memperbaiki masalah di mana sumber daya pembicara dihancurkan terlalu dini dalam teks ke ucapan.

Speech SDK 1.4.2

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Speech SDK 1.4.1

Ini adalah rilis khusus JavaScript. Tidak ada fitur yang ditambahkan. Perbaikan berikut dibuat:

  • Mencegah paket web memuat https-proxy-agent.

Speech SDK 1.4.0: Rilis April 2019

Fitur baru

  • SDK sekarang mendukung layanan Teks ke ucapan sebagai versi beta. Ini didukung pada Windows dan Linux Desktop dari C++ dan C#. Untuk informasi selengkapnya, periksa ringkasan Teks ke ucapan.
  • SDK sekarang mendukung file audio MP3 dan Opus/OGG sebagai file input aliran. Fitur ini hanya tersedia di Linux dari C++ dan C# serta saat ini dalam versi beta (detail selengkapnya di sini).
  • Speech SDK untuk Java, .NET core, C++, dan Objective-C sudah mendapatkan dukungan macOS. Dukungan Objective-C untuk macOS saat ini dalam versi beta.
  • iOS: Speech SDK untuk iOS (Objective-C) sekarang juga diterbitkan sebagai CocoaPod.
  • JavaScript: Dukungan untuk mikrofon non-default sebagai perangkat input.
  • JavaScript: Dukungan proksi untuk Node.js.

Sampel

  • Sampel untuk menggunakan Speech SDK dengan C++ dan dengan Objective-C di macOS telah ditambahkan.
  • Sampel yang menunjukkan penggunaan layanan Teks ke ucapan telah ditambahkan.

Peningkatan/Perubahan

  • Python: Properti tambahan hasil pengenalan sekarang diekspos melalui properti properties.
  • Untuk pengembangan tambahan dan dukungan debug, Anda dapat mengalihkan informasi pengelogan dan diagnostik SDK ke dalam file log (detail selengkapnya di sini).
  • JavaScript: Meningkatkan performa pemrosesan audio.

Perbaikan bug

  • Mac/iOS: Bug yang menyebabkan waktu tunggu lama ketika koneksi ke layanan Azure Cognitive Service untuk Ucapan tidak dapat dibuat telah diperbaiki.
  • Python: meningkatkan penanganan kesalahan untuk argumen di panggilan balik Python.
  • JavaScript: Memperbaiki pelaporan status yang salah untuk ucapan yang berakhir pada RequestSession.

Speech SDK 1.3.1: Diperbarui Februari 2019

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Perbaikan bug

  • Memperbaiki kebocoran memori saat menggunakan input mikrofon. Input berbasis aliran atau file tidak terpengaruh.

Speech SDK 1.3.0: Rilis Februari 2019

Fitur baru

  • Speech SDK mendukung pemilihan mikrofon input melalui kelas AudioConfig. Ini memungkinkan Anda melakukan streaming data audio ke layanan Ucapan dari mikrofon non-default. Untuk informasi selengkapnya, lihat dokumentasi yang menjelaskan pemilihan perangkat input audio. Fitur ini belum tersedia dari JavaScript.
  • Speech SDK sekarang mendukung Unity dalam versi beta. Berikan umpan balik melalui bagian masalah di repositori sampel GitHub. Rilis ini mendukung Unity pada Windows x86 dan x64 (aplikasi desktop atau Universal Windows Platform), dan Android (ARM32/64, x86). Informasi selengkapnya tersedia dalam Mulai cepat Unity kami.
  • File Microsoft.CognitiveServices.Speech.csharp.bindings.dll (dikirim dalam rilis sebelumnya) tidak diperlukan lagi. Fungsionalitasnya sekarang terintegrasi dalam SDK inti.

Sampel

Konten baru berikut tersedia di repositori sampel kami:

  • Sampel tambahan untuk AudioConfig.FromMicrophoneInput.
  • Sampel Python tambahan untuk pengenalan dan terjemahan niat.
  • Sampel tambahan untuk menggunakan objek Connection di iOS.
  • Sampel Java tambahan untuk terjemahan dengan output audio.
  • Sampel baru untuk penggunaan Batch Transcription REST API.

Peningkatan/Perubahan

  • Python
    • Meningkatkan verifikasi parameter dan pesan kesalahan dalam SpeechConfig.
    • Menambahkan dukungan untuk objek Connection.
    • Dukungan untuk Python 32-bit (x86) di Windows.
    • Speech SDK untuk Python adalah keluar dari beta.
  • Ios
    • SDK tersebut sekarang dibangun pada iOS SDK versi 12.1.
    • SDK sekarang mendukung iOS versi 9.2 dan yang lebih baru.
    • Meningkatkan dokumentasi referensi dan memperbaiki beberapa nama properti.
  • JavaScript
    • Menambahkan dukungan untuk objek Connection.
    • Menambahkan file definisi jenis untuk JavaScript yang dibundel
    • Dukungan awal dan implementasi untuk petunjuk frasa.
    • Mengembalikan koleksi properti dengan layanan JSON untuk pengenalan
  • DLL Windows sekarang berisi sumber daya versi.
  • Jika Anda membuat recognizer FromEndpoint, Anda dapat menambahkan parameter langsung ke titik akhir URL. Dengan menggunakan FromEndpoint, Anda tidak dapat mengonfigurasi recognizer melalui properti konfigurasi standar.

Perbaikan bug

  • Nama pengguna proksi kosong dan kata sandi proksi tidak dihandel dengan benar. Dengan rilis ini, jika Anda mengatur nama pengguna proksi dan kata sandi proksi ke string kosong, mereka tidak akan dikirimkan saat menyambungkan ke proksi.
  • SessionId yang dibuat oleh SDK tidak selalu benar-benar acak untuk beberapa bahasa/lingkungan. Menambahkan inisialisasi generator acak untuk memperbaiki masalah ini.
  • Meningkatkan penanganan token otorisasi. Jika Anda ingin menggunakan token otorisasi, tentukan di SpeechConfig dan biarkan kunci langganan kosong. Kemudian buat recognizer seperti biasa.
  • Dalam beberapa kasus, objek Connection tidak dirilis dengan benar. Masalah ini telah diperbaiki.
  • Sampel JavaScript juga diperbaiki untuk mendukung output audio untuk sintesis terjemahan di Safari.

Speech SDK 1.2.1

Ini adalah rilis khusus JavaScript. Tidak ada fitur yang ditambahkan. Perbaikan berikut dibuat:

  • Mengaktifkan akhir aliran di turn.end, bukan di speech.end.
  • Memperbaiki bug di dorongan audio yang tidak menjadwalkan pengiriman berikutnya jika pengiriman saat ini gagal.
  • Memperbaiki pengenalan berkelanjutan dengan token auth.
  • Perbaikan bug untuk recognizer/titik akhir yang berbeda.
  • Peningkatan dokumentasi.

Speech SDK 1.2.0: Rilis Desember 2018

Fitur baru

  • Python
    • Versi Beta dukungan Python (3.5 ke atas) tersedia pada rilis ini. Untuk informasi selengkapnya, lihat di sini](../../quickstart-python.md).
  • JavaScript
    • Speech SDK untuk JavaScript sudah bersumber terbuka. Kode sumber tersedia di GitHub.
    • Kami sekarang mendukung Node.js, info selengkapnya dapat ditemukan di sini.
    • Batasan panjang untuk sesi audio telah dihapus, koneksi ulang akan terjadi secara otomatis di bawah penutup.
  • Connection Objek
    • Dari Recognizer, Anda dapat mengakses objek Connection. Objek ini memungkinkan Anda secara eksplisit memulai sambungan layanan dan berlangganan untuk menyambungkan serta memutuskan sambungan peristiwa. (Fitur ini belum tersedia dari JavaScript dan Python.)
  • Dukungan untuk Ubuntu 18.04.
  • Android
    • Mengaktifkan dukungan ProGuard selama pembuatan APK.

Penyempurnaan

  • Peningkatan penggunaan alur internal, mengurangi jumlah alur, kunci, mutex.
  • Meningkatkan pelaporan/informasi kesalahan. Dalam beberapa kasus, pesan kesalahan belum disebarluaskan sepanjang jalan keluar.
  • Memperbarui dependensi pengembangan di JavaScript untuk menggunakan modul terbaru.

Perbaikan bug

  • Memperbaiki kebocoran memori karena ketidakcocokan jenis di RecognizeAsync.
  • Dalam beberapa kasus, pengecualian bocor.
  • Memperbaiki kebocoran memori dalam argumen peristiwa terjemahan.
  • Memperbaiki masalah penguncian pada sambungkan kembali dalam sesi jangka panjang.
  • Memperbaiki masalah yang dapat menyebabkan hasil akhir hilang untuk terjemahan yang gagal.
  • C#: Jika operasi async tidak ditunggu di alur utama, ada kemungkinan recognizer dapat dihapus sebelum tugas asinkron selesai.
  • Java: Memperbaiki masalah yang mengakibatkan crash Java VM.
  • Objective-C: Pemetaan enum tetap; RecognizedIntent dikembalikan bukan RecognizingIntent.
  • JavaScript: Atur format output default ke 'simple' di SpeechConfig.
  • JavaScript: Menghapus ketidakkonsistenan antara properti pada objek konfigurasi dalam JavaScript dan bahasa lainnya.

Sampel

  • Memperbarui dan memperbaiki beberapa sampel (misalnya suara output untuk terjemahan, dll.).
  • Menambahkan sampel Node.js dalam repositori sampel.

Speech SDK 1.1.0

Fitur baru

  • Dukungan untuk Android x86/x64.
  • Dukungan Proksi: Dalam ojek SpeechConfig, Anda sekarang dapat memanggil fungsi untuk mengatur informasi proksi (nama host, port, nama pengguna, dan kata sandi). Fitur ini belum tersedia di iOS.
  • Kode kesalahan dan pesan yang disempurnakan. Jika pengenalan mengembalikan kesalahan, ini sudah menetapkan Reason (dalam peristiwa yang dibatalkan) atau CancellationDetails (dalam hasil pengenalan) ke Error. Peristiwa yang dibatalkan sekarang berisi dua anggota tambahan, ErrorCode dan ErrorDetails. Jika server mengembalikan informasi kesalahan tambahan dengan kesalahan yang dilaporkan, server sekarang akan tersedia di anggota baru.

Penyempurnaan

  • Menambahkan verifikasi tambahan dalam konfigurasi recognizer, dan menambahkan pesan kesalahan tambahan.
  • Peningkatan penanganan keheningan lama di tengah file audio.
  • Paket NuGet: untuk proyek .NET Framework, mencegah pembangunan dengan konfigurasi AnyCPU.

Perbaikan bug

  • Memperbaiki beberapa pengecualian yang ditemukan dalam recognizer. Selain itu, pengecualian ditangkap dan dikonversi menjadi peristiwa Canceled.
  • Memperbaiki kebocoran memori dalam manajemen properti.
  • Memperbaiki bug ketika file input audio dapat menabrakkan recognizer.
  • Memperbaiki bug ketika peristiwa dapat diterima setelah peristiwa penghentian sesi.
  • Memperbaiki beberapa kondisi balapan dalam alur.
  • Memperbaiki masalah kompatibilitas iOS yang dapat mengakibatkan crash.
  • Peningkatan stabilitas untuk dukungan mikrofon Android.
  • Memperbaiki bug ketika recognizer di JavaScript akan mengabaikan bahasa pengenalan.
  • Memperbaiki bug yang mencegah pengaturan EndpointId (dalam beberapa kasus) di JavaScript.
  • Mengubah urutan parameter di AddIntent di JavaScript, dan menambahkan tanda tangan JavaScript AddIntent yang hilang.

Sampel

  • Menambahkan sampel C++ dan C# untuk penggunaan aliran pull dan push dalam repositori sampel.

Speech SDK 1.0.1

Peningkatan keandalan dan perbaikan bug:

  • Memperbaiki potensi kesalahan fatal karena kondisi balapan dalam menghapus recognizer
  • Memperbaiki potensi kesalahan fatal ketika properti yang belum diatur terjadi.
  • Menambahkan pemeriksaan kesalahan dan parameter tambahan.
  • Objective-C: Memperbaiki kemungkinan kesalahan fatal yang disebabkan oleh penimpaan nama di NSString.
  • Objective-C: Visibilitas API yang disesuaikan
  • JavaScript: Perbaikan terkait peristiwa dan payload-nya.
  • Peningkatan dokumentasi.

Dalam repositori sampel kami, sampel baru untuk JavaScript ditambahkan.

Azure AI Speech SDK 1.0.0: Rilis September 2018

Fitur baru

Perubahan mencolok

  • Dengan rilis ini, sejumlah perubahan yang melanggar diperkenalkan. Periksa halaman ini untuk detailnya.

Azure AI Speech SDK 0.6.0: Rilis Agustus 2018

Fitur baru

  • Aplikasi UWP yang dibangun dengan Speech SDK sekarang dapat meneruskan Windows App Certification Kit (WACK). Lihat Mulai cepat UWP.
  • Dukungan untuk .NET Standard 2.0 di Linux (Ubuntu 16.04 x64).
  • Eksperimental: Mendukung Java 8 di Windows (64-bit) dan Linux (Ubuntu 16.04 x64). Lihat mulai cepat Lingkungan Runtime Java.

Perubahan fungsional

  • Mengekspos informasi detail kesalahan tambahan tentang kesalahan koneksi.

Perubahan mencolok

  • Pada Java (Android), fungsi SpeechFactory.configureNativePlatformBindingWithDefaultCertificate ini tidak lagi memerlukan parameter jalur. Sekarang jalur secara otomatis terdeteksi pada semua platform yang didukung.
  • Get-accessor properti EndpointUrl di Java dan C# dihapus.

Perbaikan bug

  • Di Java, hasil sintesis audio pada recognizer terjemahan diimplementasikan sekarang.
  • Memperbaiki bug yang dapat menyebabkan alur tidak aktif dan peningkatan jumlah soket terbuka dan tidak digunakan.
  • Memperbaiki masalah, ketika pengenalan jangka panjang dapat berakhir di tengah transmisi.
  • Memperbaiki kondisi balapan dalam penonaktifan recognizer.

Azure AI Speech SDK 0.5.0: Rilis Juli 2018

Fitur baru

  • Mendukung platform Android (API 23: Android 6.0 Marshmallow atau yang lebih tinggi). Lihat mulai cepat Android.
  • Mendukung .NET Standard 2.0 di Windows. Lihat mulai cepat .NET Core.
  • Eksperimental: Mendukung UWP di Windows (versi 1709 atau yang lebih baru).
    • Lihat Mulai cepat UWP.
    • Perhatikan bahwa aplikasi UWP yang dibangun dengan Speech SDK belum lulus Windows App Certification Kit (WACK).
  • Mendukung pengenalan jangka panjang dengan koneksi ulang otomatis.

Mengubah fungsional

  • StartContinuousRecognitionAsync() mendukung pengenalan jangka panjang.
  • Hasil pengenalan berisi lebih banyak bidang. Hasil tersebut adalah offset dari awal audio dan durasi (keduanya dalam tick) teks yang dikenal dan nilai tambahan yang mewakili status pengenalan, misalnya, InitialSilenceTimeout dan InitialBabbleTimeout.
  • Mendukung AuthorizationToken untuk membuat instans pabrik.

Perubahan mencolok

  • Peristiwa pengenalan: Jenis peristiwa NoMatch digabungkan ke dalam peristiwa Error.
  • SpeechOutputFormat di C# diubah namanya ke OutputFormat agar tetap selaras dengan C++.
  • Jenis pengembalian beberapa metode AudioInputStream antarmuka sedikit berubah:
    • Di Java, metode read sekarang mengembalikan long bukan int.
    • Di C#, metode Read sekarang mengembalikan uint bukan int.
    • Di C++, metode Read dan GetFormat sekarang mengembalikan size_t bukan int.
  • C++: Instans aliran input audio sekarang hanya dapat diteruskan sebagai shared_ptr.

Perbaikan bug

  • Memperbaiki nilai pengembalian yang salah dalam hasil saat RecognizeAsync() waktu habis.
  • Dependensi pada pustaka pondasi media pada Windows telah dihapus. SDK sekarang menggunakan API Core Audio.
  • Perbaikan dokumentasi: Menambahkan halaman wilayah untuk menjelaskan wilayah yang didukung.

Masalah yang diketahui

  • Speech SDK untuk Android tidak melaporkan hasil sintesis ucapan untuk penerjemahan. Masalah ini akan diperbaiki di rilis mendatang.

Azure AI Speech SDK 0.4.0: Rilis Juni 2018

Mengubah fungsional

  • AudioInputStream

    Recognizer sekarang dapat menggunakan aliran sebagai sumber audio. Untuk informasi selengkapnya, lihat panduan cara.

  • Format output terperinci

    Saat membuat SpeechRecognizer, Anda dapat meminta format output Detailed atau Simple. DetailedSpeechRecognitionResult berisi skor keyakinan, teks yang dikenali, bentuk leksikal mentah, bentuk normalisasi, dan bentuk normalisasi dengan kata-kata kotor yang ditutupi.

Breaking change

  • Diubah ke SpeechRecognitionResult.Textdari SpeechRecognitionResult.RecognizedText di C#.

Perbaikan bug

  • Memperbaiki kemungkinan masalah panggil balik di lapisan USP selama penonaktifan.
  • Jika recognizer menggunakan file input audio, ini berpegang pada handel file lebih lama dari yang diperlukan.
  • Menghapus beberapa kebuntuan antara pompa pesan dan recognizer.
  • Aktifkan hasil NoMatch ketika respons dari layanan kehabisan waktu.
  • Pustaka pondasi media pada pemuatan Windows ditunda. Pustaka ini hanya diperlukan untuk input mikrofon.
  • Kecepatan pengunggahan untuk data audio dibatasi sekitar dua kali kecepatan audio asli.
  • Pada Windows, rakitan C# .NET sekarang diberi nama yang kuat.
  • Perbaikan dokumentasi: Region adalah informasi yang diperlukan untuk membuat recognizer.

Lebih banyak sampel sudah ditambahkan dan terus diperbarui. Untuk kumpulan sampel terbaru, lihat repositori GitHub sampel Speech SDK.

Azure AI Speech SDK 0.2.12733: Rilis Mei 2018

Rilis ini adalah rilis pratinjau publik pertama dari Azure AI Speech SDK.