Apa yang baru dalam Azure AI Speech?
Azure AI Speech diperbarui secara berkelanjutan. Untuk tetap mengikuti perkembangan terbaru, artikel ini memberi Anda informasi tentang rilis dan fitur baru.
Sorotan terbaru
- Ekstensi Azure AI Speech Toolkit sekarang tersedia untuk pengguna Visual Studio Code. Ini berisi daftar sampel mulai cepat ucapan dan skenario yang dapat dengan mudah dibangun dan dijalankan dengan klik sederhana. Untuk informasi selengkapnya, lihat Azure AI Speech Toolkit di Visual Studio Code Marketplace.
- Suara definisi tinggi ucapan Azure AI (HD) tersedia dalam pratinjau publik. Suara HD dapat memahami konten, secara otomatis mendeteksi emosi dalam teks input, dan menyesuaikan nada bicara secara real time agar sesuai dengan sentimen. Untuk informasi selengkapnya, lihat Apa itu suara definisi tinggi Azure AI Speech (HD)?.
- Transkripsi cepat sekarang tersedia dalam pratinjau publik. Ini dapat mentranskripsikan audio jauh lebih cepat daripada panjang audio yang sebenarnya. Untuk informasi selengkapnya, lihat panduan API transkripsi cepat.
- Terjemahan video sekarang tersedia di layanan Azure AI Speech. Untuk informasi selengkapnya, lihat Apa itu terjemahan video?.
- Layanan Azure AI Speech mendukung teks OpenAI ke suara ucapan. Untuk informasi selengkapnya, lihat Apa itu teks OpenAI ke suara ucapan?.
- API suara kustom tersedia untuk membuat dan mengelola model suara neural kustom profesional dan pribadi .
Catatan rilis
Memilih layanan atau sumber daya
Rilis November 2024
Ekstensi Azure AI Speech Toolkit sekarang tersedia untuk pengguna Visual Studio Code. Ini berisi daftar sampel mulai cepat ucapan dan skenario yang dapat dengan mudah dibangun dan dijalankan dengan klik sederhana. Untuk informasi selengkapnya, lihat Azure AI Speech Toolkit di Visual Studio Code Marketplace.
Speech SDK 1.41.1: Rilis Oktober 2024
Fitur baru
- Menambahkan dukungan untuk Amazon Linux 2023 dan Azure Linux 3.0.
- Menambahkan id properti publik SpeechServiceConnection_ProxyHostBypass untuk menentukan host yang proksinya tidak digunakan.
- Menambahkan properti untuk mengontrol strategi segmentasi frasa baru.
Perbaikan Bug
- Memperbaiki dukungan yang tidak lengkap untuk pengenalan kata kunci Model tingkat lanjut yang diproduksi setelah Agustus 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Perhatikan bahwa dengan Swift di iOS, proyek Anda harus menggunakan pod MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (dari https://aka.ms/csspeech/iosbinaryembedded) atau MicrosoftCognitiveServicesSpeechEmbedded-iOS yang menyertakan dukungan Model tingkat lanjut.
- Memperbaiki kebocoran memori di C# yang terkait dengan penggunaan string.
- Diperbaiki tidak bisa mendapatkan SPXAutoDetectSourceLanguageResult dari SPXConversationTranscriptionResult di Objective-C dan Swift.
- Memperbaiki crash sesekali saat menggunakan Microsoft Audio Stack sebagai pengenalan.
- Petunjuk jenis tetap di Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Diperbaiki tidak dapat mengambil daftar suara TTS saat menggunakan titik akhir kustom.
- Memperbaiki inisialisasi ulang TTS yang disematkan untuk setiap permintaan bicara saat suara ditentukan oleh nama pendek.
- Memperbaiki dokumentasi referensi API untuk durasi maksimum audio RecognizeOnce.
- Memperbaiki tingkat pengambilan sampel arbiter penanganan kesalahan di JavaScript
- Terima kasih kepada rseanhall untuk kontribusi ini.
- Memperbaiki kesalahan saat menghitung offset audio di JavaScript
- Terima kasih untuk motamed untuk kontribusi ini.
Memecahkan Perubahan
- Dukungan pengenalan kata kunci pada Windows ARM 32-bit telah dihapus karena runtime ONNX yang diperlukan tidak tersedia untuk platform ini.
Speech SDK 1.40: Rilis Agustus 2024
Catatan
Speech SDK versi 1.39.0 adalah rilis internal dan tidak hilang.
Fitur baru
- Menambahkan dukungan untuk streaming
G.722
audio terkompresi dalam pengenalan ucapan. - Menambahkan dukungan untuk pengaturan nada, laju, dan volume dalam streaming teks input dalam sintesis ucapan.
- Menambahkan dukungan untuk streaming teks input suara pribadi dengan memperkenalkan
PersonalVoiceSynthesisRequest
dalam sintesis ucapan. API ini dalam pratinjau dan dapat berubah dalam versi mendatang. - Menambahkan dukungan untuk diarisasi hasil perantara saat
ConversationTranscriber
digunakan. - Menghapus dukungan CentOS/RHEL 7 karena CentOS 7 EOL dan akhir Dukungan Pemeliharaan RHEL 7 2.
- Penggunaan model ucapan yang disematkan sekarang memerlukan lisensi model alih-alih kunci model. Jika Anda adalah pelanggan ucapan yang sudah disematkan dan ingin meningkatkannya, silakan hubungi orang dukungan Anda di Microsoft untuk detail tentang pembaruan model.
Perbaikan bug
- Biner Speech SDK bawaan untuk Windows dengan bendera _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR sebagai mitigasi untuk masalah runtime Visual C++ Pelanggaran akses dengan std::mutex::lock setelah meningkatkan ke VS 2022 versi 17.10.0 - Komunitas Pengembang (visualstudio.com). Aplikasi Windows C++ yang menggunakan Speech SDK mungkin perlu menerapkan bendera konfigurasi build yang sama jika kodenya menggunakan std::mutex (lihat detail dalam masalah yang ditautkan).
- Memperbaiki deteksi OpenSSL 3.x yang tidak berfungsi pada Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Memperbaiki masalah yang saat menyebarkan aplikasi UWP, pustaka, dan model dari paket MAS NuGet tidak akan disalin ke lokasi penyebaran.
- Memperbaiki konflik penyedia konten dalam paket Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Memperbaiki opsi pasca-pemrosesan yang tidak berlaku untuk hasil pengenalan ucapan perantara.
- Memperbaiki peringatan .NET 8 tentang pengidentifikasi runtime khusus distribusi (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
Sampel
- Sampel ucapan yang disematkan yang diperbarui untuk menggunakan lisensi model alih-alih kunci.
Speech SDK 1.38.0: Rilis Juni 2024
Fitur baru
- Meningkatkan persyaratan platform Speech SDK Linux:
- Garis besar minimum baru adalah Ubuntu 20.04 LTS atau kompatibel dengan
glibc
2.31 atau yang lebih baru. - Biner untuk Linux x86 dihapus sesuai dengan dukungan platform Ubuntu 20.04.
- Perhatikan bahwa RHEL/CentOS 7 tetap didukung hingga 30 Juni (akhir CentOS 7 dan akhir Dukungan Pemeliharaan RHEL 7 2). Biner untuk mereka akan dihapus dalam rilis Speech SDK 1.39.0.
- Garis besar minimum baru adalah Ubuntu 20.04 LTS atau kompatibel dengan
- Tambahkan dukungan untuk OpenSSL 3 di Linux.
- Tambahkan dukungan untuk format output audio g722-16khz-64kbps dengan speech synthesizer.
- Tambahkan dukungan untuk mengirim pesan melalui objek koneksi dengan synthesizer ucapan.
- Tambahkan API Start/StopKeywordRecognition di Objective-C dan Swift.
- Tambahkan API untuk memilih kategori model terjemahan kustom.
- Perbarui penggunaan GStreamer dengan speech synthesizer.
Perbaikan bug
- Memperbaiki kesalahan "Ukuran pesan Websocket tidak boleh melebihi 65.536 byte" selama Start/StopKeywordRecognition.
- Memperbaiki kesalahan segmentasi Python selama sintesis ucapan.
Sampel
- Perbarui sampel C# untuk menggunakan .NET 6.0 secara default.
Speech SDK 1.37.0: Rilis April 2024
Fitur baru
- Tambahkan dukungan untuk streaming teks input dalam sintesis ucapan.
- Ubah suara sintesis ucapan default menjadi en-US-AvaMultilingualNeural.
- Perbarui build Android untuk menggunakan OpenSSL 3.x.
Perbaikan bug
- Perbaiki crash JVM sesekali selama Pembuangan SpeechRecognizer saat menggunakan MAS. Aku akan menemuinya.https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125
- Meningkatkan deteksi perangkat audio default di Linux. Aku akan menemuinya.https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292
Sampel
- Diperbarui untuk fitur baru.
Speech SDK 1.36.0: Rilis Maret 2024
Fitur baru
- Tambahkan dukungan untuk identifikasi bahasa dalam terjemahan multibahasa pada titik akhir v2 menggunakan AutoDetectSourceLanguageConfig::FromOpenRange().
Perbaikan bug
Perbaiki peristiwa SynthesisCanceled yang tidak diaktifkan jika berhenti dipanggil selama peristiwa SynthesisStarted.
Perbaiki masalah kebisingan dalam sintesis ucapan yang disematkan.
Perbaiki crash dalam pengenalan ucapan yang disematkan saat menjalankan beberapa pengenal secara paralel.
Perbaiki pengaturan mode deteksi frasa pada titik akhir v1/v2.
Memperbaiki berbagai masalah dengan Microsoft Audio Stack.
Sampel
- Pembaruan untuk fitur baru.
Speech SDK 1.35.0: Rilis Februari 2024
Fitur baru
- Ubah teks default menjadi suara ucapan dari en-US-JennyMultilingualNeural menjadi en-US-AvaNeural.
- Mendukung detail tingkat kata dalam hasil terjemahan ucapan yang disematkan menggunakan format output terperinci.
Perbaikan bug
- Perbaiki API getter posisi AudioDataStream di Python.
- Perbaiki terjemahan ucapan menggunakan titik akhir v2 tanpa deteksi bahasa.
- Perbaiki crash acak dan duplikat peristiwa batas kata dalam teks yang disematkan ke ucapan.
- Mengembalikan kode kesalahan pembatalan yang benar untuk kesalahan server internal pada koneksi WebSocket.
- Perbaiki kegagalan memuat pustaka FPIEProcessor.dll saat MAS digunakan dengan C#.
Sampel
- Pembaruan pemformatan kecil untuk sampel pengenalan yang disematkan.
Speech SDK 1.34.1: Rilis Januari 2024
Perubahan mencolok
- Perbaikan bug saja
Fitur baru
- Perbaikan bug saja
Perbaikan bug
- Memperbaiki regresi yang diperkenalkan di 1.34.0 di mana url titik akhir layanan dibangun dengan info lokal yang buruk untuk pengguna di beberapa wilayah Tiongkok.
Speech SDK 1.34.0: Rilis November 2023
Perubahan mencolok
SpeechRecognizer
diperbarui untuk menggunakan titik akhir baru secara default (yaitu, ketika tidak secara eksplisit menentukan URL) yang tidak lagi mendukung parameter string kueri untuk sebagian besar properti. Alih-alih mengatur parameter string kueri secara langsung dengan ServicePropertyChannel.UriQueryParameter, silakan gunakan fungsi API yang sesuai.
Fitur baru
- Kompatibilitas dengan .NET 8 (Perbaiki kecuali untuk https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 peringatan tentang centos7-x64)
- Dukungan untuk metrik performa ucapan yang disematkan yang dapat digunakan untuk mengevaluasi kemampuan perangkat untuk menjalankan ucapan yang disematkan.
- Dukungan untuk identifikasi bahasa sumber dalam terjemahan multibahasa yang disematkan.
- Dukungan untuk ucapan ke teks, teks ke ucapan, dan terjemahan yang disematkan untuk iOS dan Swift/Objective-C dirilis dalam pratinjau.
- Dukungan tersemat disediakan dalam MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.
Perbaikan bug
- Perbaikan untuk iOS SDK x2 kali pertumbuhan ukuran biner · Masalah #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Perbaikan untuk Tidak bisa mendapatkan stempel waktu tingkat kata dari Ucapan Azure ke API teks · Masalah #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Perbaiki untuk fase penghancuran DialogServiceConnector untuk memutuskan peristiwa dengan benar. Ini menyebabkan crash sesekali.
- Perbaiki untuk pengecualian selama pembuatan pengenal saat MAS digunakan.
- FPIEProcessor.dll dari paket NuGet Microsoft.CognitiveServices.Speech.Extension.MAS untuk Windows UWP x64 dan Arm64 memiliki dependensi pada pustaka runtime VC untuk C++asli. Masalah ini telah diperbairah dengan memperbarui dependensi untuk memperbaiki pustaka runtime VC (untuk UWP).
- Perbaikan untuk panggilan berulang [MAS] untuk mengenaliOnceAsync mengarah ke SPXERR_ALREADY_INITIALIZED saat menggunakan MAS · Masalah #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Perbaikan untuk crash pengenalan ucapan yang disematkan saat daftar frasa digunakan.
Sampel
- Sampel iOS yang disematkan untuk ucapan ke teks, teks ke ucapan, dan terjemahan.
Speech CLI 1.34.0: Rilis November 2023
Fitur baru
- Mendukung output peristiwa batas kata saat mensintesis ucapan.
Perbaikan bug
- Dependensi JMESPath yang diperbarui ke rilis terbaru, meningkatkan evaluasi string
Speech SDK 1.33.0: Rilis Oktober 2023
Pemberitahuan perubahan yang melanggar
- Paket NuGet baru yang ditambahkan untuk Microsoft Audio Stack (MAS) sekarang diperlukan untuk disertakan oleh aplikasi yang menggunakan MAS dalam file konfigurasi paket mereka.
Fitur baru
- Menambahkan paket NuGet baru Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, yang memberikan peningkatan performa pembatalan gema saat menggunakan Microsoft Audio Stack
- Penilaian Pengucapan: menambahkan dukungan untuk evaluasi prosodi dan konten, yang dapat menilai ucapan lisan dalam hal prosody, kosakata, tata bahasa, dan topik.
Perbaikan bug
- Memperbaiki offset hasil pengenalan kata kunci sehingga cocok dengan aliran audio input sejak awal. Perbaikan ini berlaku untuk pengenalan kata kunci mandiri dan pengenalan ucapan yang dipicu kata kunci.
- Fixed Synthesizer stopSpeaking tidak segera mengembalikan metode SPXSpeechSynthesizer stopSpeaking() tidak dapat segera kembali di iOS 17 - Masalah #2081
- Memperbaiki masalah impor katalis Mac pada Dukungan modul Swift untuk katalis mac dengan silikon apple. Masalah #1948
- JS: Beban modul AudioWorkletNode sekarang menggunakan URL tepercaya, dengan fallback untuk browser CDN termasuk.
- JS: File lib yang dikemas sekarang menargetkan ES6 JS, dengan dukungan untuk ES5 JS dihapus.
- JS: peristiwa perantara untuk skenario terjemahan yang menargetkan titik akhir v2 ditangani dengan benar
- JS: Properti bahasa untuk TranslationRecognitionEventArgs sekarang diatur untuk peristiwa translation.hypothesis.
- Sintesis Ucapan: Peristiwa SynthesisCompleted dijamin akan dipancarkan setelah semua peristiwa metadata, sehingga dapat digunakan untuk menunjukkan hingga akhir peristiwa. Bagaimana cara mendeteksi kapan visam diterima sepenuhnya? Masalah #2093 Azure-Samples/cognitive-services-speech-sdk
Sampel
- Menambahkan sampel untuk menunjukkan streaming MULAW menggunakan Python)
- Perbaikan untuk sampel NAudio ucapan ke teks
Speech CLI 1.33.0: Rilis Oktober 2023
Fitur baru
- Mendukung output peristiwa batas kata saat mensintesis ucapan.
Perbaikan bug
- tidak ada
Speech SDK 1.32.1: Rilis September 2023
Perbaikan bug
- Pembaruan paket Android dengan perbaikan keamanan terbaru dari OpenSSL1.1.1v
- JS – Properti WebWorkerLoadType ditambahkan untuk memungkinkan bypass beban URL data untuk pekerja batas waktu
- JS – Perbaiki Terjemahan Percakapan terputus setelah 10 menit
- JS – Token autentikasi Terjemahan Percakapan dari Percakapan sekarang disebarkan ke koneksi layanan Terjemahan
Sampel
Speech SDK 1.31.0: Rilis Agustus 2023
Fitur baru
Dukungan untuk diarisasi real time tersedia dalam pratinjau publik dengan Speech SDK 1.31.0. Fitur ini tersedia di SDK berikut: C#, C++, Java, JavaScript, Python, dan Objective-C/Swift.
Batas kata sintesis ucapan yang disinkronkan dan peristiwa viseme dengan pemutaran audio
Perubahan mencolok
- Skenario "transkripsi percakapan" sebelumnya diganti namanya menjadi "transkripsi rapat". Misalnya, gunakan
MeetingTranscriber
alih-alihConversationTranscriber
, dan gunakanCreateMeetingAsync
alih-alihCreateConversationAsync
. Meskipun nama objek dan metode SDK telah berubah, penggantian nama tidak mengubah fitur itu sendiri. Gunakan objek transkripsi rapat untuk transkripsi rapat dengan profil pengguna dan tanda tangan suara. Lihat Transkripsi rapat untuk informasi selengkapnya. Objek dan metode "terjemahan percakapan" tidak terpengaruh oleh perubahan ini. Anda masih dapat menggunakanConversationTranslator
objek dan metodenya untuk skenario terjemahan rapat.
- Untuk diarisasi real time, objek baru
ConversationTranscriber
diperkenalkan. Model objek "transkripsi percakapan" baru dan pola panggilan mirip dengan pengenalan berkelanjutan denganSpeechRecognizer
objek . Perbedaan utamanya adalah bahwaConversationTranscriber
objek dirancang untuk digunakan dalam skenario percakapan di mana Anda ingin membedakan beberapa pembicara (diarisasi). Profil pengguna dan tanda tangan suara tidak berlaku. Lihat mulai cepat diarisasi real time untuk informasi selengkapnya.
Tabel ini memperlihatkan nama objek sebelumnya dan baru untuk diarisasi real time dan transkripsi rapat. Nama skenario berada di kolom pertama, nama objek sebelumnya berada di kolom kedua, dan nama objek baru berada di kolom ketiga.
Nama skenario | Nama objek sebelumnya | Nama objek baru |
---|---|---|
Diarisasi real time | T/A | ConversationTranscriber |
Transkripsi rapat | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1
|
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2
|
1 Objek Participant
, ParticipantChangedReason
, dan User
berlaku untuk skenario transkripsi rapat dan terjemahan rapat.
2 Objek Meeting
baru dan digunakan dengan MeetingTranscriber
objek .
Perbaikan bug
- Memperbaiki versi minimum macOS yang didukung https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Memperbaiki bug Penilaian Pengucapan:
- Masalah skor akurasi fonem yang ditangani, memastikan mereka sekarang secara akurat hanya mencerminkan fonem tertentu yang salah diucapkan. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Menyelesaikan masalah di mana fitur Penilaian Pengucapan secara tidak akurat mengidentifikasi pengucapan yang sepenuhnya benar sebagai salah, terutama dalam situasi di mana kata-kata dapat memiliki beberapa pengucapan yang valid. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Sampel
CSharp
JavaScript
Speech SDK 1.30.0: Rilis Juli 2023
Fitur baru
- C++, C#, Java - Menambahkan dukungan untuk
DisplayWords
dalam hasil terperinci Pengenalan Ucapan Tersemat. - Objective-C/Swift - Menambahkan dukungan untuk
ConnectionMessageReceived
peristiwa di Objective-C/Swift. - Objective-C/Swift - Model spotting kata kunci yang ditingkatkan untuk iOS. Perubahan ini telah meningkatkan ukuran paket tertentu, yang berisi biner iOS (seperti NuGet, XCFramework). Kami berupaya mengurangi ukuran rilis mendatang.
Perbaikan bug
- Memperbaiki kebocoran memori saat menggunakan pengenal ucapan dengan PhraseListGrammar, seperti yang dilaporkan oleh pelanggan (masalah GitHub).
- Memperbaiki kebuntuan dalam API koneksi terbuka teks ke ucapan.
Catatan lainnya
- Java - Beberapa metode Java API yang digunakan
public
secara internal diubah menjadi paketinternal
,protected
atauprivate
. Perubahan ini seharusnya tidak berpengaruh pada pengembang, karena kami tidak mengharapkan aplikasi menggunakannya. Dicatat di sini untuk transparansi.
Sampel
- Sampel Penilaian Pengucapan Baru tentang cara menentukan bahasa pembelajaran di aplikasi Anda sendiri
Speech SDK 1.29.0: Rilis Juni 2023
Fitur baru
- C++, C#, Java - Pratinjau API Terjemahan Ucapan Tersemat. Sekarang Anda dapat melakukan terjemahan ucapan tanpa koneksi cloud!
- JavaScript - Identifikasi Bahasa Berkelanjutan (LID) sekarang diaktifkan untuk terjemahan ucapan.
- JavaScript - Kontribusi komunitas untuk menambahkan
LocaleName
properti keVoiceInfo
kelas. Terima kasih GitHub pengguna shivsarthak untuk permintaan pull. - C++, C#, Java - Menambahkan dukungan untuk pengambilan sampel ulang teks yang disematkan ke output ucapan dari laju sampel 16 kHz hingga 48 kHz.
- Menambahkan dukungan untuk
hi-IN
lokal di Intent Recognizer dengan Pencocokan Pola Sederhana.
Perbaikan bug
- Memperbaiki crash yang disebabkan oleh kondisi balapan di Speech Recognizer selama penghancuran objek, seperti yang terlihat di beberapa pengujian Android kami
- Memperbaiki kemungkinan kebuntuan di Intent Recognizer dengan Simple Pattern Matcher
Sampel
- Sampel Terjemahan Ucapan Tersemat Baru
Speech SDK 1.28.0: Rilis Mei 2023
Breaking change
- JavaScript SDK: Protokol Status Sertifikat Online (OCSP) dihapus. Ini memungkinkan klien untuk lebih sesuai dengan standar browser dan Node untuk penanganan sertifikat. Versi 1.28 dan seterusnya tidak akan lagi menyertakan modul OCSP kustom kami.
Fitur baru
- Pengenalan Ucapan yang Disematkan sekarang kembali
NoMatchReason::EndSilenceTimeout
ketika batas waktu keheningan terjadi di akhir ungkapan. Ini cocok dengan perilaku saat melakukan pengenalan menggunakan layanan ucapan real-time. - JavaScript SDK: Atur properti tentang
SpeechTranslationConfig
menggunakanPropertyId
nilai enum.
Perbaikan bug
- C# di Windows - Perbaiki potensi kondisi balapan/kebuntuan di ekstensi audio Windows. Dalam skenario bahwa kedua pembuangan perender audio dengan cepat dan juga menggunakan metode Synthesizer untuk berhenti berbicara, peristiwa yang mendasarinya tidak diatur ulang dengan berhenti, dan dapat menyebabkan objek perender tidak pernah dibuang, sementara itu bisa memegang kunci global untuk dibuang, membekukan utas dotnet GC.
Sampel
- Menambahkan sampel ucapan yang disematkan untuk MAUI.
- Memperbarui sampel ucapan yang disematkan untuk Android Java untuk menyertakan teks ke ucapan.
Speech SDK 1.27.0: Rilis April 2023
Pemberitahuan tentang perubahan yang akan datang
- Kami berencana untuk menghapus Protokol Status Sertifikat Online (OCSP) dalam rilis JavaScript SDK berikutnya. Ini memungkinkan klien untuk lebih sesuai dengan standar browser dan Node untuk penanganan sertifikat. Versi 1.27 adalah rilis terakhir yang menyertakan modul OCSP kustom kami.
Fitur baru
- JavaScript – Menambahkan dukungan untuk input mikrofon dari browser dengan Identifikasi dan Verifikasi Pembicara.
- Pengenalan Ucapan Tersemat - Perbarui dukungan untuk
PropertyId::Speech_SegmentationSilenceTimeoutMs
pengaturan.
Perbaikan bug
- Umum - Pembaruan keandalan dalam logika koneksi ulang layanan (semua bahasa pemrograman kecuali JavaScript).
- Umum - Memperbaiki konversi string yang membocorkan memori di Windows (semua bahasa pemrograman yang relevan kecuali JavaScript).
- Pengenalan Ucapan tersemat - Perbaiki crash di Pengenalan Ucapan Prancis saat menggunakan entri daftar tata bahasa tertentu.
- Dokumentasi kode sumber - Koreksi pada komentar dokumentasi referensi SDK yang terkait dengan pengelogan audio pada layanan.
- Pengenalan niat - Memperbaiki prioritas Pencocokan Pola yang terkait dengan entitas daftar.
Sampel
- Tangani kegagalan autentikasi dengan benar dalam sampel C# Conversation Transcription (CTS).
- Menambahkan contoh penilaian pengucapan streaming untuk Python, JavaScript, Objective-C dan Swift.
Speech SDK 1.26.0: Rilis Maret 2023
Perubahan mencolok
- Bitcode telah dinonaktifkan di semua target iOS dalam paket berikut: Cocoapod dengan xcframework, NuGet (untuk Xamarin dan MAUI) dan Unity. Perubahan ini disebabkan oleh penghentian dukungan bitcode Apple dari Xcode 14 dan seterusnya. Perubahan ini juga berarti jika Anda menggunakan versi Xcode 13 atau Anda telah secara eksplisit mengaktifkan bitcode pada aplikasi Anda menggunakan Speech SDK, Anda mungkin mengalami kesalahan yang mengatakan "kerangka kerja tidak berisi bitcode dan Anda harus membangunnya kembali". Untuk mengatasi masalah ini, pastikan target Anda menonaktifkan bitcode.
- Target penyebaran iOS minimum ditingkatkan ke 11.0 dalam rilis ini, yang berarti armv7 HW tidak lagi didukung.
Fitur baru
- Pengenalan Ucapan (di perangkat) yang disematkan sekarang mendukung audio input laju pengambilan sampel 8 dan 16 kHz (16-bit per sampel, mono PCM).
- Sintesis Ucapan sekarang melaporkan latensi koneksi, jaringan, dan layanan dalam hasil untuk membantu pengoptimalan latensi end-to-end.
- Aturan pemecahan ikatan baru untuk Pengenalan Niat dengan pencocokan pola sederhana. Semakin banyak byte karakter yang dicocokkan, akan memenangkan kecocokan pola dengan jumlah byte karakter yang lebih rendah. Contoh: Pola "Pilih {something} di kanan atas" akan menang atas "Pilih {something}"
Perbaikan bug
- Sintesis Ucapan: perbaiki bug di mana emoji tidak benar dalam peristiwa batas kata.
- Pengenalan Niat dengan Pemahaman Bahasa Percakapan (CLU):
- Niat dari Alur Kerja Orkestrator CLU sekarang muncul dengan benar.
- Hasil JSON sekarang tersedia melalui ID
LanguageUnderstandingServiceResponse_JsonResult
properti .
- Pengenalan ucapan dengan aktivasi kata kunci: Perbaiki untuk audio ~150 ms yang hilang setelah pengenalan kata kunci.
- Perbaikan untuk build Rilis MAUI Speech SDK NuGet iOS, dilaporkan oleh pelanggan (masalah GitHub)
Sampel
- Perbaikan untuk sampel Swift iOS, dilaporkan oleh pelanggan (masalah GitHub)
Speech SDK 1.25.0: Rilis Januari 2023
Perubahan mencolok
- API Identifikasi Bahasa (pratinjau) telah disederhanakan. Jika Anda memperbarui ke Speech SDK 1.25 dan melihat hentian build, silakan kunjungi halaman Identifikasi Bahasa untuk mempelajari tentang properti
SpeechServiceConnection_LanguageIdMode
baru . Properti tunggal ini menggantikan dua properti sebelumnyaSpeechServiceConnection_SingleLanguageIdPriority
danSpeechServiceConnection_ContinuousLanguageIdPriority
. Memprioritaskan antara latensi rendah dan akurasi tinggi tidak lagi diperlukan setelah peningkatan model terbaru. Sekarang, Anda hanya perlu memilih apakah akan menjalankan Identifikasi Bahasa di awal atau berkelanjutan saat melakukan pengenalan atau terjemahan ucapan berkelanjutan.
Fitur baru
- C#/C++/Java: Embedded Speech SDK sekarang dirilis di bawah pratinjau publik yang terjaga. Lihat Dokumentasi Ucapan Tersemat (pratinjau). Anda sekarang dapat melakukan ucapan ke teks dan teks ke ucapan di perangkat saat konektivitas cloud terputus-putus atau tidak tersedia. Didukung di platform Android, Linux, macOS, dan Windows
- C# MAUI: Dukungan ditambahkan untuk target iOS dan Mac Catalyst di Speech SDK NuGet (Masalah pelanggan)
- Unity: Arsitektur Android x86_64 ditambahkan ke paket Unity (Masalah pelanggan)
- Buka:
- C#/C++: Intent Recognizer sekarang mendukung model Pemahaman Bahasa Percakapan di C++ dan C# dengan orkestrasi pada layanan Microsoft
Perbaikan bug
- Memperbaiki hang sesekali di KeywordRecognizer saat mencoba menghentikannya
- Python:
- Perbaikan untuk mendapatkan hasil Penilaian Pengucapan saat
PronunciationAssessmentGranularity.FullText
ditetapkan (Masalah pelanggan) - Perbaikan untuk properti gender untuk suara Laki-laki yang tidak diambil, saat mendapatkan suara sintesis ucapan
- Perbaikan untuk mendapatkan hasil Penilaian Pengucapan saat
- JavaScript
- Perbaikan untuk mengurai beberapa file WAV yang direkam di perangkat iOS (Masalah pelanggan)
- JS SDK sekarang dibangun tanpa menggunakan resolusi npm-force (Masalah pelanggan)
- Penerjemah Percakapan sekarang mengatur titik akhir layanan dengan benar saat menggunakan instans speechConfig yang dibuat menggunakan SpeechConfig.fromEndpoint()
Sampel
Sampel yang ditambahkan memperlihatkan cara menggunakan Ucapan Tersemat
Menambahkan sampel Ucapan ke teks untuk MAUI
Lihat Repositori sampel Speech SDK.
Speech SDK 1.24.2: Rilis November 2022
Fitur baru
- Tidak ada fitur baru, hanya perbaikan mesin yang disematkan untuk mendukung file model baru.
Perbaikan bug
- Semua bahasa pemrograman
- Memperbaiki masalah dengan enkripsi model pengenalan ucapan yang disematkan.
Speech SDK 1.24.1: Rilis November 2022
Fitur baru
- Paket yang diterbitkan untuk pratinjau Ucapan Tersemat. Lihat https://aka.ms/embedded-speech untuk informasi lebih lanjut.
Perbaikan bug
- Semua bahasa pemrograman
- Memperbaiki crash TTS yang disematkan saat font suara tidak didukung
- Memperbaiki stopSpeaking() tidak dapat menghentikan pemutaran di Linux (#1686)
- JavaScript SDK
- Memperbaiki regresi dalam cara transcriber percakapan memerah audio.
- Java
- File POM dan Javadocs yang dipublikasikan untuk sementara ke Maven Central untuk mengaktifkan alur dokumen untuk memperbarui dokumen referensi online.
- Python
- Perbaiki regresi di mana Python speak_text(ssml) mengembalikan kekosongan.
Speech SDK 1.24.0: Rilis Oktober 2022
Fitur baru
- Semua bahasa pemrograman: AMR-WB (16khz) ditambahkan ke daftar format output audio Teks ke ucapan yang didukung
- Python: Paket ditambahkan untuk Linux Arm64 untuk distribusi Linux yang didukung.
- C#/C++/Java/Python: Dukungan ditambahkan untuk streaming langsung ALAW & MULAW ke layanan ucapan (selain aliran PCM yang ada) menggunakan
AudioStreamWaveFormat
. - C# MAUI: Paket NuGet diperbarui untuk mendukung target Android untuk pengembang .NET MAUI (Masalah pelanggan)
- Mac: Menambahkan XCframework terpisah untuk Mac, yang tidak berisi biner iOS apa pun. Ini menawarkan opsi untuk pengembang yang hanya membutuhkan biner Mac menggunakan paket XCframework yang lebih kecil.
- Microsoft Audio Stack (MAS):
- Ketika sudut pembentukan sinar ditentukan, suara yang berasal dari luar rentang yang ditentukan akan ditekan dengan lebih baik.
- Sekitar 70% pengurangan
libMicrosoft.CognitiveServices.Speech.extension.mas.so
ukuran untuk Linux ARM32 dan Linux Arm64.
- Pengenalan Niat menggunakan pencocokan pola:
- Menambahkan dukungan orthografi untuk bahasa
fr
, ,de
,es
jp
- Menambahkan dukungan bilangan bulat bawaan untuk bahasa
es
.
- Menambahkan dukungan orthografi untuk bahasa
Perbaikan bug
- iOS: memperbaiki kesalahan sintesis ucapan pada iOS 16 yang disebabkan oleh kegagalan decoding audio terkompresi (Masalah Pelanggan).
- JavaScript:
- Perbaiki token autentikasi tidak berfungsi saat mendapatkan daftar suara sintesis ucapan (Masalah pelanggan).
- Gunakan URL data untuk pemuatan pekerja (Masalah pelanggan).
- Buat worklet prosesor audio hanya ketika AudioWorklet didukung di browser (Masalah pelanggan). Ini adalah kontribusi komunitas oleh William Wong. Terima kasih William!
- Perbaiki panggilan balik yang dikenali saat respons
connectionMessage
LUIS kosong (Masalah pelanggan). - Atur batas waktu segmentasi ucapan dengan benar.
- Pengenalan Niat menggunakan pencocokan pola:
- Karakter non-json di dalam model sekarang dimuat dengan benar.
- Perbaiki masalah gantung saat
recognizeOnceAsync(text)
dipanggil selama pengenalan berkelanjutan.
Speech SDK 1.23.0: Rilis Juli 2022
Fitur baru
- C#, C++, Java: Menambahkan dukungan untuk bahasa
zh-cn
danzh-hk
dalam Pengenalan Niat dengan Pencocokan Pola. - C#: Menambahkan dukungan untuk
AnyCPU
build .NET Framework
Perbaikan bug
- Android: Memperbaiki kerentanan OpenSSL CVE-2022-2068 dengan memperbarui OpenSSL ke 1.1.1q
- Python: Memperbaiki kerusakan saat menggunakan PushAudioInputStream
- iOS: Memperbaiki "EXC_BAD_ACCESS: Mencoba mendereferensi pointer null" seperti yang dilaporkan di iOS (masalah GitHub)
Speech SDK 1.22.0: Rilis Juni 2022
Fitur baru
- Java: API IntentRecognitionResult untuk getEntities(), applyLanguageModels(), dan recognizeOnceAsync(text) ditambahkan untuk mendukung mesin "pencocokan pola sederhana".
- Unity: Menambahkan dukungan untuk Mac M1 (Apple Silicon) untuk paket Unity (masalah GitHub)
- C#: Menambahkan dukungan untuk x86_64 untuk Xamarin Android (masalah GitHub)
- C#: Versi minimum .NET framework diperbarui ke v4.6.2 untuk paket SDK C# karena v4.6.1 telah dihentikan (lihat Kebijakan Siklus Hidup Komponen Microsoft .NET Framework)
- Linux: Menambahkan dukungan untuk Debian 11 dan Ubuntu 22.04 LTS. Ubuntu 22.04 LTS memerlukan penginstalan manual libssl1.1 baik sebagai paket biner dari sini (misalnya, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb atau yang lebih baru untuk x64), atau dengan mengkompilasi dari sumber.
Perbaikan bug
- UWP: Dependensi OpenSSL dihapus dari pustaka UWP dan diganti dengan websocket WinRT dan API HTTP untuk memenuhi kepatuhan keamanan dan jejak biner yang lebih kecil.
- Mac: Memperbaiki masalah "Modul MicrosoftCognitiveServicesSpeech Tidak Ditemukan" saat menggunakan proyek Swift yang menargetkan platform macOS
- Windows, Mac: Memperbaiki masalah khusus platform di mana sumber audio yang dikonfigurasi melalui properti untuk melakukan streaming pada tingkat real time terkadang tertinggal dan akhirnya melebihi kapasitas
Sampel (GitHub)
- C#: Sampel kerangka kerja .NET diperbarui untuk menggunakan v4.6.2
- Unity: Sampel asisten virtual diperbaiki untuk Android dan UWP
- Unity: Sampel Unity diperbarui untuk versi Unity 2020 LTS
Speech SDK 1.21.0: Rilis April 2022
Fitur baru
- Java & JavaScript: Menambahkan dukungan untuk Identifikasi Bahasa Berkelanjutan saat menggunakan objek SpeechRecognizer
- JavaScript: Menambahkan Diagnostics API untuk mengaktifkan tingkat pengelogan konsol dan (khusus Simpul) pengelogan file, untuk membantu Microsoft memecahkan masalah yang dilaporkan pelanggan
- Python: Menambahkan dukungan untuk Transkripsi Percakapan
- Go: Menambahkan dukungan untuk Pengenalan Penutur
- C++ & C#: Menambahkan dukungan untuk sekelompok kata yang diperlukan di Intent Recognizer (pencocokan pola sederhana). Misalnya: "(set|start|begin) a timer" di mana "set", "start" atau "begin" harus ada untuk niat yang akan dikenali.
- Semua bahasa pemrograman, Sintesis Ucapan: Menambahkan properti durasi dalam peristiwa batas kata. Menambahkan dukungan untuk batas tanda baca dan batas kalimat
- Objective-C/Swift/Java: Menambahkan hasil tingkat kata pada objek hasil Penilaian Pengucapan (mirip dengan C#). Aplikasi tidak perlu lagi mengurai string hasil JSON untuk mendapatkan informasi tingkat kata (masalah GitHub)
- Platform iOS: Menambahkan dukungan eksperimental untuk arsitektur ARMv7
Perbaikan bug
- Platform iOS: Perbaiki untuk memungkinkan pembangunan untuk target "Perangkat iOS apa pun", saat menggunakan CocoaPod (masalah GitHub)
- Platform Android: Versi OpenSSL telah diperbarui ke 1.1.1n untuk memperbaiki kerentanan keamanan CVE-2022-0778
- JavaScript: Memperbaiki masalah saat header wav tidak diperbarui dengan ukuran file (masalah GitHub)
- JavaScript: Memperbaiki masalah desinkronissi ID permintaan yang melanggar skenario terjemahan (masalah GitHub)
- JavaScript: Memperbaiki masalah saat membuat instans SpeakerAudioDestination tanpa aliran (masalah GitHub)
- C++: Memperbaiki header C++ untuk menghapus peringatan saat mengompilasi untuk C++17 atau yang lebih baru
GitHub Sampel
- Sampel Java baru untuk Pengenalan Ucapan dengan Identifikasi Bahasa
- Sampel Python dan Java baru untuk Transkripsi Percakapan
- Sampel Go baru untuk Pengenalan Penutur
- Alat C++ dan C# baru untuk Windows yang menghitung semua perangkat pengambilan dan render audio, untuk menemukan ID Perangkat mereka. ID ini diperlukan oleh Speech SDK jika Anda berencana untuk mengambil audio dari, atau merender audio ke, perangkat nondefault.
Speech SDK 1.20.0: Rilis Januari 2022
Fitur baru
- Objective-C, Swift, dan Python: Menambahkan dukungan untuk DialogServiceConnector, yang digunakan untuk skenario Voice-Assistant.
- Python: Dukungan untuk Python 3.10 ditambahkan. Dukungan untuk Python 3.6 telah dihapus, per akhir masa pakai Python untuk 3.6.
- Unity: Speech SDK sekarang didukung untuk aplikasi Unity di Linux.
- C++, C#: IntentRecognizer menggunakan pencocokan pola sekarang didukung di C#. Selain itu, skenario dengan entitas kustom, grup opsional, dan peran entitas sekarang didukung dalam C ++ dan C#.
- C++, C#: Diagnostik yang ditingkatkan melacak pencatatan menggunakan kelas baru FileLogger, MemoryLogger, dan EventLogger. Log SDK adalah alat penting bagi Microsoft untuk mendiagnosis masalah yang dilaporkan pelanggan. Kelas-kelas baru ini memudahkan pelanggan untuk mengintegrasikan log Speech SDK ke dalam sistem pengelogan mereka sendiri.
- Semua bahasa pemrograman: PronunciationAssessmentConfig sekarang memiliki properti untuk mengatur alfabet fonem yang diinginkan (IPA atau SAPI) dan N-Best Phoneme Count (menghindari kebutuhan untuk menulis konfigurasi JSON sesuai GitHub masalah 1284). Selain itu, output level suku kata sekarang didukung.
- Android, iOS, dan macOS (semua bahasa pemrograman): GStreamer tidak lagi diperlukan untuk mendukung jaringan bandwidth terbatas. SpeechSynthesizer sekarang menggunakan kemampuan decoding audio sistem operasi untuk mendekode audio terkompresi yang dialirkan dari layanan teks ke ucapan.
- Semua bahasa pemrograman: SpeechSynthesizer sekarang mendukung tiga format Opus keluaran mentah baru (tanpa kontainer), yang banyak digunakan dalam skenario streaming langsung.
- JavaScript: Menambahkan getVoicesAsync() API ke SpeechSynthesizer untuk mengambil daftar suara sintesis yang didukung (GitHub masalah 1350)
- JavaScript: Menambahkan API getWaveFormat() ke AudioStreamFormat untuk mendukung format gelombang non-PCM (GitHub masalah 452)
- JavaScript: Menambahkan volume getter/setter dan mute()/unmute() API ke SpeakerAudioDestination (GitHub issue 463)
Perbaikan bug
- C++, C#, Java, JavaScript, Objective-C, dan Swift: Perbaiki untuk menghapus penundaan 10 detik sambil menghentikan pengenalan ucapan yang menggunakan PushAudioInputStream. Ini untuk kasus di mana tidak ada audio baru yang didorong setelah StopContinuousRecognition dipanggil (GitHub masalah 1318, 331)
- Unity di Android dan UWP: File meta Unity diperbaiki untuk UWP, Android Arm64, dan Subsistem Windows untuk Android (WSA) Arm64 (masalah GitHub 1360)
- iOS: Mengompilasi aplikasi Speech SDK Anda di Perangkat iOS apa pun saat menggunakan CocoaPods sekarang sudah diperbaiki (masalah GitHub 1320)
- iOS: Ketika SpeechSynthesizer dikonfigurasi untuk mengeluarkan audio langsung ke speaker, pemutaran berhenti di awal dalam kondisi langka. Ini sudah diperbaiki.
- JavaScript: Gunakan fallback prosesor skrip untuk input mikrofon jika tidak ada worklet audio yang ditemukan (GitHub masalah 455)
- JavaScript: Menambahkan protokol ke agen untuk mengurangi bug yang ditemukan dengan integrasi Sentry (GitHub masalah 465)
GitHub Sampel
- Sampel C++, C#, Python, dan Java menunjukkan cara mendapatkan hasil pengenalan terperinci. Rinciannya termasuk hasil pengenalan alternatif, skor kepercayaan, bentuk Leksikal, bentuk normalisasi, bentuk Normalisasi Bertopeng, dengan waktu tingkat kata untuk masing-masing.
- Sampel iOS ditambahkan menggunakan AVFoundation sebagai sumber audio eksternal.
- Sampel Java ditambahkan untuk menunjukkan cara mendapatkan format SRT (SubRip Text) menggunakan peristiwa WordBoundary.
- Sampel Android untuk Penilaian Pengucapan.
- C++, C# menampilkan penggunaan kelas Pencatatan Diagnostik baru.
SDK Ucapan 1.19.0: Rilis November 2021
Sorotan
Layanan Pengenalan Pembicara kini tersedia secara umum (GA). API Speech SDK tersedia di C ++, C#, Java dan JavaScript. Dengan Pengenalan Pembicara Anda dapat secara akurat memverifikasi dan mengidentifikasi pembicara dengan karakteristik suara mereka yang unik. Untuk informasi selengkapnya tentang topik ini, lihat dokumentasi.
Kami sudah tidak lagi memberikan dukungan untuk Ubuntu 16.04 bersama dengan Azure DevOps dan GitHub. Ubuntu 16.04 sudah tidak lagi mendapatkan dukungan pada bulan April 2021. Migrasikan alur kerja Ubuntu 16.04 Anda ke Ubuntu 18.04 atau yang lebih baru.
Penautan OpenSSL di biner Linux berubah menjadi dinamis. Ukuran biner Linux telah berkurang sekitar 50%.
Dukungan silikon untuk Mac M1 berbasis ARM telah ditambahkan.
Fitur baru
C++/C#/Java: API baru telah ditambahkan guna mengaktifkan dukungan pemrosesan audio untuk input ucapan dengan Microsoft Audio Stack. Dokumentasi di sini.
C ++ : API baru untuk pengenalan niat untuk memfasilitasi pencocokan pola yang lebih andal. Hal ini termasuk entitas Daftar dan Integer yang telah dibuat sebelumnya serta dukungan untuk mengelompokkan niat dan entitas sebagai model (Dokumentasi, pembaruan, dan sampel sedang dalam tahap pengembangan dan akan diterbitkan dalam waktu dekat).
Mac: Dukungan untuk silikon berbasis Arm64 (M1) untuk paket CocoaPod, Python, Java, dan NuGet yang terkait dengan edisi GitHub 1244.
iOS/Mac: Biner iOS dan macOS sekarang dikemas ke dalam xcframework berhubungan dengan GitHub mengeluarkan 919.
iOS/Mac: Dukungan untuk Mac catalyst berhubungan dengan GitHub mengeluarkan 1171.
Linux: Paket tar baru ditambahkan untuk CentOS7 Tentang SDK Ucapan. Paket .tar Linux sekarang berisi pustaka khusus untuk RHEL / CentOS 7 di
lib/centos7-x64
. Pustaka Speech SDK di lib/x64 masih berlaku untuk semua distribusi Linux x64 lain yang didukung (termasuk RHEL/CentOS 8) dan tidak akan berfungsi pada RHEL/CentOS 7.JavaScript: API VoiceProfile & SpeakerRecognizer dibuat asinkron/dapat ditunggu.
JavaScript: Dukungan ditambahkan untuk wilayah Azure pemerintah AS.
Windows: Dukungan ditambahkan untuk pemutaran di Platform Windows Universal (UWP).
Perbaikan bug
Android: Pembaruan keamanan OpenSSL (diperbarui ke versi 1.1.1l) untuk paket Android.
Python: Menyelesaikan bug saat memilih perangkat speaker pada Python gagal.
Core: Secara otomatis menghubungkan kembali saat upaya koneksi gagal.
iOS: Kompresi audio dinonaktifkan pada paket iOS karena ketidakstabilan dan masalah pembuatan bitcode saat menggunakan GStreamer. Detailnya dapat dilihat di GitHub edisi 1209.
GitHub Sampel
Mac/iOS: Sampel dan mulai cepat yang diperbarui untuk menggunakan paket xcframework.
.NET: Sampel diperbarui untuk menggunakan versi .NET core 3.1.
JavaScript: Menambahkan sampel untuk Asisten Voice.
Ucapan SDK 1.18.0: Rilis Juli 2021
Catatan: Mulai gunakan Speech SDK di sini.
Ringkasan sorotan
- Ubuntu 16.04 mencapai akhir masa penggunaan pada April 2021. Dengan Azure DevOps dan GitHub, kami akan menghilangkan dukungan untuk 16.04 pada Bulan September 2021. Migrasikan alur kerja ubuntu-16.04 ke ubuntu-18.04 atau yang lebih baru sebelum itu.
Fitur baru
- C++ : Pencocokan Pola Bahasa Sederhana dengan Pengenal Niat kini membuat penerapan skenario pengenalan niat sederhana lebih mudah.
- C++/C#/Java: Kami menambahkan API baru,
GetActivationPhrasesAsync()
ke kelasVoiceProfileClient
guna menerima daftar frasa aktivasi valid di fase pendaftaran pengenal pembicara untuk skenario pengenalan independen.- Penting: Fitur Pengenal Pembicara sedang dalam Pratinjau. Semua profil suara yang dibuat di Pratinjau akan dihentikan 90 hari setelah fitur Pengenalan Pembicara dipindahkan dari Pratinjau ke Ketersediaan Umum. Pada saat itu, profil suara Pratinjau akan berhenti berfungsi.
- Python: Menambahkan dukungan untuk Identifikasi Bahasa (LID) berkelanjutan pada objek
SpeechRecognizer
danTranslationRecognizer
yang ada. - Python: Menambahkan objek Python baru bernama
SourceLanguageRecognizer
untuk melakukan LID satu kali atau berkelanjutan (tanpa pengenalan atau terjemahan). - JavaScript:
getActivationPhrasesAsync
API ditambahkan ke kelasVoiceProfileClient
guna menerima daftar frasa aktivasi yang valid di fase pendaftaran pengenalan pembicara untuk skenario pengenalan independen. - JavaScript
VoiceProfileClient
enrollProfileAsync
API kini asinkron yang dapat ditunggu. Lihat kode identifikasi independen ini, misalnya, penggunaan.
Perbaikan
- Java: Dukungan AutoCloseable ditambahkan ke banyak objek Java. Model try-with-resources kini didukung untuk melepaskan sumber daya. Lihat sampel ini yang menggunakan try-with-resources. Lihat juga tutorial dokumentasi Oracle Java untuk Statemen try-with-resources untuk mempelajari pola ini.
- Jejak disk telah berkurang secara signifikan untuk banyak platform dan arsitektur. Contoh untuk
Microsoft.CognitiveServices.Speech.core
biner: x64 Linux adalah 475KB lebih kecil (pengurangan 8,0%); Arm64 Windows UWP berukuran 464KB lebih kecil (pengurangan 11,5%); x86 Windows lebih kecil 343KB (pengurangan 17,5%); dan x64 Windows 451KB lebih kecil (pengurangan 19,4%).
Perbaikan bug
- Java: Kesalahan sintesis tetap saat teks sintesis berisi karakter pengganti. Lihat detailnya di sini.
- JavaScript: Pemrosesan audio mikrofon browser kini menggunakan
AudioWorkletNode
dan bukanScriptProcessorNode
yang tidak digunakan lagi. Lihat detailnya di sini. - JavaScript: Menjaga percakapan tetap hidup dan dengan benar selama skenario terjemahan percakapan yang berjalan lama. Lihat detailnya di sini.
- JavaScript: Memperbaiki masalah dengan pengenal yang tersambung kembali ke aliran media dalam pengenal berkelanjutan. Lihat detailnya di sini.
- JavaScript: Memperbaiki masalah dengan pengenal yang tersambung kembali ke pushStream di pengenal berkelanjutan. Lihat detailnya di sini.
- JavaScript: Mengoreksi perhitungan offset tingkat kata dalam hasil pengenalan yang rinci. Lihat detailnya di sini.
Sampel
- Sampel mulai cepat Java diperbarui di sini.
- Sampel Pengenalan Pembicara JavaScript diperbarui untuk menunjukkan penggunaan baru
enrollProfileAsync()
. Lihat sampel di sini.
Speech SDK 1.17.0: rilis Mei 2021
Catatan
Mulai gunakan Speech SDK di sini.
Ringkasan sorotan
- Jejak yang lebih kecil - kami terus mengurangi memori dan jejak disk Speech SDK dan komponennya.
- API identifikasi bahasa mandiri baru memungkinkan Anda mengenali bahasa apa yang sedang diucapkan.
- Kembangkan aplikasi realitas campuran dan game yang didukung ucapan menggunakan Unity di macOS.
- Anda sekarang dapat menggunakan Teks untuk ucapan selain pengenalan ucapan dari bahasa pemrograman Go.
- Beberapa perbaikan Bug untuk mengatasi masalah ANDA, pelanggan kami yang berharga, telah ditandai di GitHub! TERIMA KASIH! Terus berikan umpan balik!
Fitur baru
- C++/C#: Identifikasi Bahasa Mandiri Di Awal dan Berkelanjutan yang baru melalui API
SourceLanguageRecognizer
. Jika Anda hanya ingin mendeteksi bahasa yang diucapkan dalam konten audio, ini adalah API untuk melakukannya. Lihat detail untuk C ++ dan C#. - C++/C#: Pengenalan Ucapan dan Pengenalan Terjemahan sekarang mendukung Identifikasi Bahasa awal dan berkelanjutan sehingga Anda dapat menentukan bahasa mana yang diucapkan secara terprogram sebelum ditranskripsikan atau diterjemahkan. Lihat dokumentasi di sini untuk Pengenalan Ucapan dan di sini untuk Terjemahan Ucapan.
- C#: Menambahkan dukungan Unity ke macOS (x64). Ini membuka kasus penggunaan pengenalan ucapan dan sintesis ucapan dalam realitas campuran dan game!
- Go: Kami menambahkan dukungan untuk teks sintesis ucapan ke ucapan ke bahasa pemrograman Go untuk membuat sintesis ucapan tersedia dalam kasus penggunaan yang lebih banyak lagi. Lihat mulai cepat kami atau dokumentasi referensi kami.
- C++/C#/Java/Python/Objective-C/Go: Synthesizer ucapan sekarang mendukung objek
connection
. Ini membantu Anda mengelola dan memantau koneksi ke layanan ucapan, dan sangat membantu untuk melakukan pra-sambungan untuk mengurangi latensi. Lihat dokumentasi di sini. - C++/C#/Java/Python/Objective-C/Go: Kami sekarang mengekspos latensi dan waktu underrun di
SpeechSynthesisResult
untuk membantu Anda memantau dan mendiagnosis masalah latensi sintesis ucapan. Lihat detail untuk C++, C#, Java, Python, Objective-C, dan Go. - C++/C#/Java/Python/Objective-C: Teks ke ucapan sekarang menggunakan suara neural secara default saat Anda tidak menentukan suara yang akan digunakan. Ini memberi Anda output keakuratan yang lebih tinggi secara default, tetapi juga meningkatkan harga default. Anda dapat menentukan salah satu dari lebih dari 70 suara standar kami atau lebih dari 130 suara neural untuk mengubah default.
- C++/C#/Java/Python/Objective-C/Go: Kami menambahkan properti Jenis Kelamin ke info suara sintesis untuk memudahkan memilih suara berdasarkan jenis kelamin. Ini mengatasi masalah GitHub #1055.
- C++, C#, Java, JavaScript: Kami sekarang mendukung
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
, dangetAllProfilesAsync()
serta di Pengenalan Pembicara untuk memudahkan manajemen pengguna semua profil suara untuk akun tertentu. Lihat dokumentasi untuk C++, C#, Java, JavaScript. Ini mengatasi masalah GitHub #338. - JavaScript: Kami menambahkan coba lagi untuk kegagalan koneksi yang akan membuat aplikasi ucapan berbasis JavaScript Anda lebih kuat.
Penyempurnaan
- Biner Linux dan Android Speech SDK telah diperbarui untuk menggunakan OpenSSL versi terbaru (1.1.1k)
- Peningkatan Ukuran Kode:
- Language Understanding sekarang dibagi menjadi pustaka "lu" terpisah.
- Ukuran biner inti Windows x64 berkurang sebesar 14,4%.
- Ukuran biner inti Android Arm64 menurun 13,7%.
- komponen lain juga berkurang ukurannya.
Perbaikan bug
- Semua: Memperbaiki masalah GitHub #842 untuk ServiceTimeout. Anda sekarang dapat mentranskripsikan file audio panjang menggunakan Speech SDK tanpa koneksi ke layanan yang berakhir dengan kesalahan ini. Namun, kami masih menyarankan Anda menggunakan transkripsi batch untuk file panjang.
- C# : Memperbaiki masalah GitHub #947 ketika tidak ada input ucapan yang dapat meninggalkan aplikasi Anda dalam status buruk.
- Java: Memperbaiki Masalah GitHub #997 ketika Speech SDK untuk Java 1.16 mengalami crash saat menggunakan DialogServiceConnector tanpa koneksi jaringan atau kunci langganan yang tidak valid.
- Memperbaiki crash saat pengenalan ucapan berhenti mendadak (misalnya menggunakan CTRL+C pada aplikasi konsol).
- Java: Menambahkan perbaikan untuk menghapus file sementara di Windows saat menggunakan Speech SDK untuk Java.
- Java: Memperbaiki masalah GitHub #994 yang pemanggilan
DialogServiceConnector.stopListeningAsync
dapat mengakibatkan kesalahan. - Java: Memperbaiki masalah pelanggan di mulai cepat asisten virtual.
- JavaScript: Memperbaiki masalah GitHub #366 di mana
ConversationTranslator
melemparkan kesalahan 'this.cancelSpeech bukan fungsi'. - JavaScript: Memperbaiki masalah GitHub #298 ketika sampel 'Dapatkan hasil sebagai aliran dalam memori' diputar dengan suara keras.
- JavaScript: Memperbaiki masalah GitHub #350 di mana panggilan
AudioConfig
dapat mengakibatkan 'ReferenceError: MediaStream tidak ditentukan'. - JavaScript: Memperbaiki peringatan UnhandledPromiseRejection di Node.js untuk sesi yang berjalan lama.
Sampel
- Memperbaiki dokumentasi sampel Unity untuk macOS di sini.
- Sampel React Native untuk layanan pengenalan Ucapan Azure AI sekarang tersedia di sini.
Speech SDK 1.16.0: Rilis Maret 2021
Catatan
Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.
Fitur baru
- C++/C#/Java/Python: Pindah ke versi terbaru GStreamer (1.18.3) untuk menambahkan dukungan untuk mentranskripsikan format media apa pun di Windows, Linux, dan Android. Lihat dokumentasi di sini.
- C++/C#/Java/Objective-C/Python: Menambahkan dukungan untuk mendekode TTS/audio sintesis terkompresi ke SDK. Jika Anda mengatur format audio output ke PCM dan GStreamer tersedia di sistem Anda, SDK akan secara otomatis meminta audio terkompresi dari layanan untuk menyimpan bandwidth dan mendekode audio pada klien. Anda dapat mengatur
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
kefalse
menonaktifkan fitur ini. Detail untuk C++, C#, Java, Objective-C, Python. - JavaScript: Pengguna Node.js sekarang dapat menggunakan
AudioConfig.fromWavFileInput
API. Ini mengatasi masalah GitHub #252. - C++/C#/Java/Objective-C/Python: Menambahkan metode
GetVoicesAsync()
bagi TTS untuk mengembalikan semua suara sintesis yang tersedia. Detail untuk C++, C#, Java, Objective-C, dan Python. - C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan peristiwa
VisemeReceived
untuk sintesis TTS/ucapan untuk mengembalikan animasi viseme sinkron. Lihat dokumentasi di sini. - C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan peristiwa
BookmarkReached
untuk TTS. Anda dapat mengatur marka buku di SSML input dan mendapatkan offset audio untuk setiap marka buku. Lihat dokumentasi di sini. - Java: Menambahkan dukungan untuk API Pengenalan Pembicara. Lihat detailnya di sini.
- C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan dua format audio output baru dengan kontainer WebM untuk TTS (Webm16Khz16BitMonoOpus dan Webm24Khz16BitMonoOpus). Ini adalah format yang lebih baik untuk streaming audio dengan codec Opus. Detail untuk C++, C#, Java, JavaScript, Objective-C, Python.
- C++/C#/Java: Menambahkan dukungan untuk mengambil profil suara untuk skenario Pengenalan Pembicara. Detail untuk C++, C#, dan Java.
- C++/C#/Java/Objective-C/Python: Menambahkan dukungan untuk pustaka bersama terpisah untuk mikrofon audio dan kontrol pembicara. Ini memungkinkan pengembang untuk menggunakan SDK di lingkungan yang tidak memerlukan dependensi pustaka audio.
- Objective-C/Swift: Menambahkan dukungan untuk kerangka modul dengan header payung. Hal ini memungkinkan pengembang untuk mengimpor Speech SDK sebagai modul di aplikasi iOS/Mac Objective-C/Swift. Ini mengatasi masalah GitHub #452.
- Python: Menambahkan dukungan untuk Python 3.9 dan menghapus dukungan untuk Python 3.5 per masa akhir Python untuk 3.5.
Masalah yang diketahui
- C++/C#/Java:
DialogServiceConnector
tidak dapat menggunakanCustomCommandsConfig
untuk mengakses aplikasi Perintah Kustom dan sebaliknya akan mengalami kesalahan koneksi. Ini dapat dikerjakan dengan menambahkan ID aplikasi Anda secara manual ke permintaan denganconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. Perilaku yang diharapkan dariCustomCommandsConfig
akan dipulihkan pada rilis berikutnya.
Penyempurnaan
- Sebagai bagian dari upaya multi-rilis kami untuk mengurangi penggunaan memori dan jejak disk Speech SDK, biner Android sekarang 3% hingga 5% lebih kecil.
- Peningkatan akurasi, keterbacaan, dan lihat juga bagian dokumentasi referensi C# kami di sini.
Perbaikan bug
- JavaScript: Header file WAV besar sekarang diurai dengan benar (meningkatkan potongan header menjadi 512 byte). Ini mengatasi masalah GitHub #962.
- JavaScript: Memperbaiki Masalah waktu mikrofon jika aliran mikrofon berakhir sebelum menghentukan pengenalan, mengatasi masalah dengan Pengenalan Ucapan yang tidak berfungsi di Firefox.
- JavaScript: Kami sekarang mengatasi janji inisialisasi dengan benar ketika browser memaksa mikrofon mati sebelum turnOn selesai.
- JavaScript: Kami mengganti dependensi URL dengan url-parse. Ini mengatasi masalah GitHub #264.
- Android: Panggilan balik tetap tidak berfungsi saat
minifyEnabled
diatur ke true. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
akan diatur dengan benar ke IO soket yang mendasarinya agar TTS mengurangi latensi. - C++/C#/Java/Python/Objective-C/Go: Memperbaiki crash sesekali ketika pengenal dihapus tepat setelah memulai pengenalan.
- C++/C#/Java: Memperbaiki crash sesekali dalam penghapusan pengenal pembicara.
Sampel
- JavaScript: Sampel browser tidak lagi memerlukan unduhan file pustaka JavaScript terpisah.
Speech SDK 1.15.0: Rilis Januari 2021
Catatan
Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.
Ringkasan sorotan
- Memori dan jejak disk yang lebih kecil menjadikan SDK lebih efisien.
- Format output keakuratan yang lebih tinggi tersedia untuk pratinjau privat suara neural kustom.
- Intent Recognizer sekarang bisa mendapatkan pengembalian lebih dari niat teratas, memberi Anda kemampuan untuk membuat penilaian terpisah tentang tujuan pelanggan Anda.
- Asisten suara atau bot kini lebih mudah disiapkan, dan Anda dapat langsung membuatnya berhenti mendengarkan, dan menjalankan kontrol yang lebih ketat terhadap cara kesalahan direspons.
- Meningkatkan performa perangkat melalui membuat kompresi opsional.
- Gunakan Speech SDK pada Windows ARM/Arm64.
- Meningkatkan penelusuran kesalahan tingkat rendah.
- Fitur Penilaian Pengucapan kini lebih banyak tersedia.
- Beberapa perbaikan Bug untuk mengatasi masalah ANDA, pelanggan kami yang berharga, telah ditandai di GitHub! TERIMA KASIH! Terus berikan umpan balik!
Penyempurnaan
- Speech SDK sekarang lebih efisien dan ringan. Kami telah memulai upaya multi rilis untuk mengurangi penggunaan memori dan jejak disk Speech SDK. Sebagai langkah pertama kami membuat pengurangan ukuran file yang signifikan di pustaka bersama di sebagian besar platform. Dibandingkan dengan rilis 1.14:
- Pustaka Windows yang kompatibel dengan UWP 64-bit sekitar 30% lebih kecil.
- Pustaka Windows 32-bit belum melihat peningkatan ukuran.
- Pustaka Linux 20-25% lebih kecil.
- Pustaka Android 3-5% lebih kecil.
Fitur baru
- Semua: Format output 48 KHz baru tersedia untuk pratinjau privat suara neural kustom melalui API sintesis ucapan TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- Semua: Suara kustom juga lebih mudah digunakan. Menambahkan dukungan untuk mengatur suara kustom melalui
EndpointId
(C++, C#, Java, JavaScript, Objective-C, Python). Sebelum perubahan ini, pengguna suara kustom perlu mengatur URL titik akhir melalui metodeFromEndpoint
. Sekarang pelanggan dapat menggunakan metodeFromSubscription
seperti suara bawaan, lalu memberikan ID penyebaran dengan mengaturEndpointId
. Ini menyederhanakan pengaturan suara kustom. - C++/C#/Java/Objective-C/Python: Dapatkan lebih dari niat teratas dari
IntentRecognizer
. Sekarang mendukung konfigurasi hasil JSON yang berisi semua maksud dan tidak hanya niat penilaian teratas melalui metodeLanguageUnderstandingModel FromEndpoint
dengan menggunakanverbose=true
parameter uri. Ini mengatasi masalah GitHub #880. Lihat dokumentasi yang diperbarui di sini. - C++/C#/Java: Buat asisten suara atau bot Anda segera berhenti mendengarkan.
DialogServiceConnector
(C++, C#, Java) sekarang memiliki metodeStopListeningAsync()
untuk menyertaiListenOnceAsync()
. Ini akan segera menghentikan pengambilan audio dan dengan baik menunggu hasil, membuatnya sempurna untuk digunakan dengan skenario tekan tombol "berhenti sekarang". - C++/C#/Java/JavaScript: Buat asisten suara atau bot Anda bereaksi lebih baik terhadap kesalahan sistem yang mendasarinya.
DialogServiceConnector
(C++, C#, Java, JavaScript) sekarang memiliki handler peristiwaTurnStatusReceived
baru. Peristiwa opsional ini sesuai dengan setiap resolusiITurnContext
pada Bot dan akan melaporkan kegagalan eksekusi saat terjadi, misalnya sebagai akibat dari pengecualian, waktu habis, atau penurunan jaringan yang tidak tertangani antara Direct Line Speech dan bot.TurnStatusReceived
membuatnya lebih mudah untuk merespons kondisi kegagalan. Misalnya, jika bot terlalu lama pada kueri database ujung belakang (misalnya mencari produk),TurnStatusReceived
memungkinkan klien mengetahui untuk memerintah ulang dengan "maaf, saya tidak terlalu mengerti, bisakah Anda mencoba lagi" atau sesuatu yang serupa. - C++/C# : Gunakan Speech SDK di lebih banyak platform. Paket Speech SDK NuGet sekarang mendukung biner asli desktop Windows ARM/Arm64 (UWP sudah didukung) untuk membuat Speech SDK lebih berguna pada lebih banyak jenis komputer.
- Java:
DialogServiceConnector
sekarang memiliki metodesetSpeechActivityTemplate()
yang secara tidak sengaja dikecualikan dari bahasa sebelumnya. Ini setara dengan pengaturan propertiConversation_Speech_Activity_Template
dan akan meminta semua aktivitas Bot Framework di masa depan yang berasal dari layanan Direct Line Speech menggabungkan konten yang disediakan ke dalam muatan JSON mereka. - Java: Meningkatkan penelusuran kesalahan tingkat rendah. Kelas
Connection
sekarang memiliki peristiwaMessageReceived
, mirip dengan bahasa pemrograman lainnya (C++, C#). Peristiwa ini menyediakan akses tingkat rendah ke data masuk dari layanan dan dapat berguna untuk diagnostik dan debugging. - JavaScript: Penyiapan yang lebih mudah untuk Asisten Suara dan bot melalui
BotFrameworkConfig
, yang sekarang memiliki metode pabrikfromHost()
danfromEndpoint()
yang menyederhanakan penggunaan lokasi layanan kustom versus pengaturan properti secara manual. Kami juga menstandarkan spesifikasibotId
opsional untuk menggunakan bot non-default di seluruh pabrik konfigurasi. - JavaScript: Ditingkatkan pada performa perangkat melalui properti kontrol string tambahan untuk kompresi websocket. Untuk alasan performa, kami menonaktifkan kompresi websocket secara default. Ini dapat diaktifkan kembali untuk skenario bandwidth rendah. Lihat detail lanjut di sini. Ini mengatasi masalah GitHub #242.
- JavaScript: Menambahkan dukungan untuk lPronunciation Assessment untuk memungkinkan evaluasi pengucapan ucapan. Lihat mulai cepat di sini.
Perbaikan bug
- Semua (kecuali JavaScript): Memperbaiki regresi di versi 1.14, ketika terlalu banyak memori dialokasikan oleh pengenal.
- C++ : Memperbaiki masalah kumpulan sampah dengan
DialogServiceConnector
, mengatasi masalah GitHub #794. - C# : Memperbaiki masalah dengan pematian alur yang menyebabkan objek diblokir selama sekitar satu detik saat dibuang.
- C++/C#/Java: Memperbaiki pengecualian yang mencegah aplikasi menetapkan token otorisasi ucapan atau templat aktivitas lebih dari sekali pada
DialogServiceConnector
. - C++/C#/Java: Memperbaiki crash recognizer karena kondisi balapan di teardown.
- JavaScript:
DialogServiceConnector
sebelumnya tidak memenuhi paramaterbotId
opsional yang ditentukan di pabrikBotFrameworkConfig
. Ini membuatnya perlu untuk mengatur parameter string kueribotId
secara manual untuk menggunakan bot non-default. Bug telah diperbaiki dan nilaibotId
yang diberikan ke pabrikBotFrameworkConfig
akan dipenuhi dan digunakan, termasukfromHost()
baru dan tambahanfromEndpoint()
. Ini juga berlaku untuk parameterapplicationId
untukCustomCommandsConfig
. - JavaScript: Memperbaiki masalah GitHub #881, memungkinkan penggunaan kembali objek pengenal.
- JavaScript: Memperbaiki masalah ketika SKD mengirim
speech.config
beberapa kali dalam satu sesi TTS, membuang-buang bandwidth. - JavaScript: Penanganan kesalahan yang disederhanakan pada otorisasi mikrofon, memungkinkan pesan yang lebih deskriptif bergelombang saat pengguna belum mengizinkan input mikrofon di browser mereka.
- JavaScript: Memperbaiki masalah GitHub #249 ketika kesalahan jenis di
ConversationTranslator
danConversationTranscriber
menyebabkan kesalahan kompilasi untuk pengguna TypeScript. - Objective-C: Memperbaiki masalah ketika build GStreamer gagal untuk iOS pada Xcode 11.4, mengatasi masalah GitHub #911.
- Python: Memperbaiki GitHub #870, menghapus "DeprecationWarning: modul imp ditolak demi importlib".
Sampel
- Sampel dari file untuk browser JavaScript sekarang menggunakan file untuk pengenalan ucapan. Ini mengatasi masalah GitHub #884.
Speech SDK 1.14.0: Rilis Oktober 2020
Catatan
Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.
Fitur baru
- Linux: Menambahkan dukungan untuk Debian 10 dan Ubuntu 20.04 LTS.
- Python/Objective-C: Menambahkan dukungan untuk
KeywordRecognizer
API. Dokumentasi akan tersedia di sini. - C++/Java/C# : Menambahkan dukungan untuk mengatur
HttpHeader
kunci/nilai apa pun melaluiServicePropertyChannel::HttpHeader
. - JavaScript: Menambahkan dukungan untuk
ConversationTranscriber
API. Baca dokumentasi di sini. - C++/C# : Menambahkan metode
AudioDataStream FromWavFileInput
baru (untuk membaca file .WAV) di sini (C++) dan di sini (C#). - C++/C#/Java/Python/Objective-C/Swift: Menambahkan
stopSpeakingAsync()
metode untuk menghentikan teks ke sintesis ucapan. Baca Dokumentasi referensi di sini (C++), di sini (C#), di sini (Java), di sini (Python), dan di sini (Objective-C/Swift). - C#, C++, Java: Menambahkan fungsi
FromDialogServiceConnector()
ke kelasConnection
yang dapat digunakan untuk memantau peristiwa koneksi dan melepas koneksi untukDialogServiceConnector
. Baca Dokumentasi referensi di sini (C#), di sini (C++), dan di sini (Java). - C++/C#/Java/Python/Objective-C/Swift: Menambahkan dukungan untuk Penilaian Pengucapan, yang mengevaluasi pengucapan ucapan dan memberikan umpan balik kepada pembicara tentang keakuratan dan kefasihan audio lisan. Baca dokumentasi di sini.
Breaking change
- JavaScript: PullAudioOutputStream.read() memiliki perubahan jenis pengembalian dari Janji internal menjadi Janji JavaScript Asli.
Perbaikan bug
- Semua: Memperbaiki regresi 1.13
SetServiceProperty
ketika nilai dengan karakter khusus tertentu diabaikan. - C# : Memperbaiki sampel konsol Windows di Visual Studio 2019 yang gagal menemukan DL asli.
- C# : Memperbaiki crash dengan manajemen memori jika aliran digunakan sebagai input
KeywordRecognizer
. - ObjectiveC/Swift: Memperbaiki crash dengan manajemen memori jika aliran digunakan sebagai input pengenal.
- Windows: Memperbaiki masalah ko-eksistensi dengan BT HFP/A2DP di UWP.
- JavaScript: Memperbaiki pemetaan ID sesi untuk meningkatkan pengelogan dan bantuan dalam korelasi debug/layanan internal.
- JavaScript: Menambahkan perbaikan untuk
DialogServiceConnector
menonaktifkanListenOnce
panggilan setelah panggilan pertama dilakukan. - JavaScript: Memperbaiki masalah ketika output hasil hanya akan pernah "sederhana".
- JavaScript: Memperbaiki masalah pengenalan berkelanjutan di Safari di macOS.
- JavaScript: Mitigasi beban CPU untuk skenario throughput permintaan tinggi.
- JavaScript: Mengizinkan akses ke detail hasil Pendaftaran Profil Suara.
- JavaScript: Menambahkan perbaikan untuk pengenalan berkelanjutan di
IntentRecognizer
. - C++/C#/Java/Python/Swift/ObjectiveC: Memperbaiki url yang salah untuk australiaeast dan brazilsouth di
IntentRecognizer
. - C++/C# : Menambahkan
VoiceProfileType
sebagai argumen saat membuat objekVoiceProfile
. - C++/C#/Java/Python/Swift/ObjectiveC: Memperbaiki potensi
SPX_INVALID_ARG
saat mencoba membuatAudioDataStream
dari posisi tertentu. - IOS: Memperbaiki crash dengan pengenalan ucapan di Unity
Sampel
- ObjectiveC: Menambahkan sampel untuk pengenalan kata kunci di sini.
- C#/JavaScript: Menambahkan mulai cepat untuk transkripsi percakapan di sini (C#) dan di sini (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: Menambahkan sampel untuk Penilaian Pengucapan di sini
Masalah yang diketahui
- Sertifikat DigiCert Global Root G2 tidak didukung secara default di HoloLens 2 dan Android 4.4 (KitKat) dan perlu ditambahkan ke sistem untuk membuat Speech SDK berfungsi. Sertifikat akan ditambahkan ke gambar OS HoloLens 2 dalam waktu dekat. Pelanggan Android 4.4 perlu menambahkan sertifikat yang diperbarui ke sistem.
Tes singkat COVID-19
Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!
Speech SDK 1.13.0: Rilis 2020-Juli
Catatan
Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh dan instal dari sini.
Fitur baru
- C# : Menambahkan dukungan untuk transkripsi percakapan asinkron. Lihat dokumentasi di sini.
- JavaScript: Menambahkan dukungan Pengenalan Pembicara untuk browser dan Node.js.
- JavaScript: Menambahkan dukungan untuk identifikasi bahasa/ID bahasa. Lihat dokumentasi di sini.
- Objective-C: Menambahkan dukungan untuk percakapan multi-perangkat dan transkripsi percakapan.
- Python: Menambahkan dukungan audio terkompresi untuk Python di Windows dan Linux. Lihat dokumentasi di sini.
Perbaikan bug
- Semua: Memperbaiki masalah yang menyebabkan KeywordRecognizer tidak meneruskan streaming setelah pengenalan.
- Semua: Memperbaiki masalah yang menyebabkan aliran yang diperoleh dari KeywordRecognitionResult tidak berisi kata kunci.
- Semua: Memperbaiki masalah bahwa SendMessageAsync tidak benar-benar mengirim pesan melalui kabel setelah pengguna selesai menunggunya.
- Semua: Memperbaiki crash di API Pengenalan Pembicara saat pengguna memanggil metode VoiceProfileClient:SpeakerRecEnrollProfileAsync beberapa kali dan tidak menunggu panggilan selesai.
- Semua: Tetap aktifkan pengelogan file di kelas VoiceProfileClient dan SpeakerRecognizer.
- JavaScript: Memperbaiki masalah dengan pembatasan saat browser diminimalkan.
- JavaScript: Memperbaiki masalah dengan kebocoran memori di aliran.
- JavaScript: Menambahkan caching untuk respons OCSP dari NodeJS.
- Java: Memperbaiki masalah yang menyebabkan bidang BigInteger selalu mengembalikan 0.
- iOS: Memperbaiki masalah penerbitan aplikasi berbasis Speech SDK di App Store iOS.
Sampel
- C++ : Menambahkan kode sampel untuk Pengenalan Pembicara di sini.
Tes singkat COVID-19
Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!
Speech SDK 1.12.1: Rilis Juni 2020
Fitur baru
- C#, C++: Pratinjau Pengenalan Pembicara: Fitur ini memungkinkan identifikasi pembicara (siapa yang berbicara?) dan verifikasi pembicara (apakah pembicara sesuai dengan yang diklaim?). Lihat dokumentasi gambaran umum.
Perbaikan bug
- C#, C++: Perekaman mikrofon tetap tidak berfungsi di 1.12 di Pengenalan Pembicara.
- JavaScript: Memperbaiki Teks ke ucapan di Firefox, dan Safari di macOS dan iOS.
- Perbaiki untuk crash pelanggaran akses pemverifikasi aplikasi Windows pada transkripsi percakapan ketika menggunakan aliran delapan saluran.
- Perbaiki untuk crash pelanggaran akses pemverifikasi aplikasi Windows pada terjemahan percakapan multi-perangkat.
Sampel
- C#: Contoh kode untuk Pengenalan Pembicara.
- C++: Contoh kode untuk Pengenalan Pembicara.
- Java: Contoh kode untuk pengenalan niat di Android.
Tes singkat COVID-19
Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!
Speech SDK 1.12.0: Rilis Mei 2020
Fitur baru
- Go: Dukungan bahasa Go Baru untuk Pengenalan Ucapan dan asisten suara kustom. Siapkan lingkungan pengembang Anda d sini. Untuk contoh kode, lihat bagian Sampel di bawah ini.
- JavaScript: Menambahkan dukungan Browser untuk teks ke ucapan. Lihat dokumentasi di sini.
- C++, C#, Java: Objek
KeywordRecognizer
baru dan API yang didukung di platform Windows, Android, Linux & iOS. Baca dokumentasi di sini. Untuk contoh kode, lihat bagian Sampel di bawah ini. - Java: Menambahkan percakapan multi-perangkat dengan dukungan terjemahan. Lihat dokumen referensi di sini.
Peningkatan & Optimisasi
- JavaScript: Mengoptimalkan mikrofon browser yang meningkatkan akurasi pengenalan ucapan.
- Java:Merefaktor pengikatan data menggunakan implementasi JNI langsung tanpa SWIG. Perubahan ini mengurangi 10x ukuran pengikatan untuk semua paket Java yang digunakan untuk Windows, Android, Linux, dan Mac serta memudahkan pengembangan lebih lanjut dari implementasi Speech SDK Java.
- Linux: Memperbarui dokumentasi dukungan dengan catatan spesifik RHEL 7 terbaru.
- Meningkatkan logika koneksi untuk upaya menyambungkan beberapa kali ketika terjadi kesalahan layanan dan jaringan.
- Memperbarui halaman portal.azure.com Speech Quickstart untuk membantu pengembang mengambil langkah berikutnya dalam perjalanan Azure AI Speech.
Perbaikan bug
- C#, Java: Memperbaiki masalah dengan memuat pustaka SDK di Linux ARM (baik 32 bit maupun 64 bit).
- C#: Memperbaiki pembuangan eksplisit handel asli untuk objek TranslationRecognizer, IntentRecognizer, dan Connection.
- C# : Memperbaiki manajemen masa pakai input audio untuk objek ConversationTranscriber.
- Memperbaiki masalah di mana
IntentRecognizer
alasan hasil tidak diatur dengan benar saat mengenali niat dari frasa sederhana. - Memperbaiki masalah di mana
SpeechRecognitionEventArgs
offset hasil tidak diatur dengan benar. - Memperbaiki kondisi balapan ketika SDK mencoba mengirim pesan jaringan sebelum membuka sambungan websocket. Direproduksi untuk
TranslationRecognizer
sambil menambahkan peserta. - Memperbaiki kebocoran memori di mesin pengenal kata kunci.
Sampel
- Go: Menambahkan quickstarts untuk pengenalan ucapan dan asisten suara kustom. Temukan contoh kode di sini.
- JavaScript: Menambahkan mulai cepat untuk Teks ke ucapan, Terjemahan, dan Pengenalan Niat.
- Sampel pengenalan kata kunci untuk C# dan Java (Android).
Tes singkat COVID-19
Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kita melewatkan sesuatu, beri tahu kami di GitHub.
Tetap sehat!
Speech SDK 1.11.0: Rilis Maret 2020
Fitur baru
- Linux: Menambahkan dukungan untuk Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: Menambahkan dukungan untuk .NET Core C# di Linux ARM32 dan Arm64. Baca selengkapnya di sini.
- C#, C++: Menambahkan
UtteranceId
diConversationTranscriptionResult
, ID yang konsisten di semua perantara dan hasil pengenalan ucapan akhir. Detail untuk C#, C++. - Python: Menambahkan dukungan untuk
Language ID
. Lihat speech_sample.py di repositori GitHub. - Windows: Menambahkan dukungan format input audio terkompresi pada platform Windows untuk semua aplikasi konsol win32. Lihat detailnya di sini.
- JavaScript: Mendukung sintesis ucapan (teks ke ucapan) di NodeJS. Pelajari lebih lanjut di sini.
- JavaScript: Menambahkan API baru untuk mengaktifkan pemeriksaan semua pesan yang dikirim dan diterima. Pelajari lebih lanjut di sini.
Perbaikan bug
- C#, C++: Memperbaiki masalah sehingga
SendMessageAsync
sekarang mengirim pesan biner sebagai jenis biner. Detail untuk C#, C++. - C#, C++: Memperbaiki masalah ketika menggunakan peristiwa
Connection MessageReceived
dapat menyebabkan crash jikaRecognizer
dihapus sebelum objekConnection
. Detail untuk C#, C++. - Android: Ukuran buffer audio dari mikrofon menurun dari 800 md menjadi 100 md untuk meningkatkan latensi.
- Android: Memperbaiki masalah emulatorAndroid x86 di Android Studio.
- JavaScript: Menambahkan dukungan untuk Wilayah di Tiongkok dengan API
fromSubscription
. Lihat detailnya di sini. - JavaScript: Menambahkan informasi kesalahan lainnya untuk kegagalan koneksi dari NodeJS.
Sampel
- Unity: Pengenalan niat sampel publik diperbaiki, ketika impor LUIS json gagal. Lihat detailnya di sini.
- Python: Sampel ditambahkan untuk
Language ID
. Lihat detailnya di sini.
Tes singkat covid19: Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak yang biasa kami lakukan. Misalnya, kami tidak dapat menguji input mikrofon dan output speaker di Linux, iOS, dan macOS. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun di platform ini, dan tes otomatis kami semuanya lulus. Dalam peristiwa yang tidak mungkin bahwa kita melewatkan sesuatu, beri tahu kami di GitHub.
Terima kasih atas dukungan tanpa henti Anda. Seperti biasa, posting pertanyaan atau umpan balik tentang GitHub atau Stack Overflow.
Tetap sehat!
Speech SDK 1.10.0: Rilis Februari 2020
Fitur baru
- Menambahkan paket Python untuk mendukung rilis Python 3.8 baru.
- Dukungan Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).
Catatan
Pelanggan harus mengonfigurasi OpenSSL sesuai dengan instruksi ini.
- Dukungan Linux ARM32 untuk Debian dan Ubuntu.
- DialogServiceConnector sekarang mendukung parameter "bot ID" opsional di BotFrameworkConfig. Parameter ini memungkinkan penggunaan beberapa bot Direct Line Speech dengan satu sumber daya Ucapan. Tanpa parameter yang ditentukan, bot default (sebagaimana ditentukan oleh halaman konfigurasi saluran Direct Line Speech) akan digunakan.
- DialogServiceConnector sekarang memiliki properti SpeechActivityTemplate. Konten string JSON ini akan digunakan oleh Direct Line Speech untuk mengisi berbagai bidang yang didukung sebelumnya di semua aktivitas yang mencapai bot Direct Line Speech, termasuk aktivitas yang secara otomatis dihasilkan sebagai respons terhadap peristiwa seperti pengenalan ucapan.
- TTS sekarang menggunakan kunci langganan untuk autentikasi, mengurangi latensi byte pertama dari hasil sintesis pertama setelah membuat synthesizer.
- Model pengenalan ucapan yang diperbarui untuk 19 lokal untuk pengurangan tingkat kesalahan kata rata-rata 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Model baru ini menghadirkan peningkatan signifikan di beberapa domain termasuk dikte, Transkripsi Pusat Panggilan, dan skenario Pengindeksan Video.
Perbaikan bug
- Memperbaiki bug ketika Conversation Transcriber tidak menunggu dengan benar di API JAVA
- Perbaikan emulator Android x86 untuk masalah GitHub Xamarin
- Menambahkan metode (Get|Set)Property yang hilang untuk AudioConfig
- Memperbaiki bug TTS ketika audioDataStream tidak dapat dihentikan ketika koneksi gagal
- Menggunakan titik akhir tanpa wilayah akan menyebabkan kegagalan USP untuk penerjemah percakapan
- Pembuatan ID di Universal Windows Applications sekarang menggunakan algoritma GUID yang unik; ini sebelumnya dan secara tidak sengaja default ke implementasi yang terpotong yang sering menghasilkan tabrakan atas serangkaian interaksi besar.
Sampel
- Sampel Unity untuk menggunakan Speech SDK dengan mikrofon Unity dan streaming mode push
Perubahan lain
Speech SDK 1.9.0: Rilis Januari 2020
Fitur baru
- Percakapan multi-perangkat: sambungkan beberapa perangkat ke ucapan atau percakapan berbasis teks yang sama, dan secara opsional menerjemahkan pesan yang dikirim di antara perangkat tersebut. Pelajari selengkapnya di artikel ini.
- Dukungan pengenalan kata kunci ditambahkan untuk paket
.aar
Android dan menambahkan dukungan untuk ragam x86 dan x64. - Objective-C: Metode
SendMessage
danSetMessageProperty
yang ditambahkan ke objekConnection
. Lihat dokumentasi di sini. - Api TTS C++ sekarang mendukung
std::wstring
sebagai input teks sintesis, menghapus kebutuhan untuk mengonversi wstring ke string sebelum meneruskannya ke SDK. Lihat detailnya di sini. - C#: ID Bahasa dan konfigurasi bahasa sumber sekarang tersedia.
- JavaScript: Menambahkan fitur ke objek
Connection
untuk menyampaikan pesan kustom dari Layanan Ucapan sebagai panggilan balikreceivedServiceMessage
. - JavaScript: Menambahkan dukungan untuk
FromHost API
memudahkan penggunaan dengan kontainer lokal dan sovereign cloud. Lihat dokumentasi di sini. - JavaScript: Kami sekarang memenuhi
NODE_TLS_REJECT_UNAUTHORIZED
berkat kontribusi dari orgads. Lihat detailnya di sini.
Perubahan mencolok
OpenSSL
telah diperbarui ke versi 1.1.1b dan secara statis ditautkan ke pustaka inti Speech SDK untuk Linux. Ini dapat menyebabkan jeda jika kotakOpenSSL
masuk Anda belum diinstal ke/usr/lib/ssl
direktori dalam sistem. Periksa dokumentasi kami di bawah dokumen Speech SDK untuk mengatasi masalah ini.- Kami telah mengubah tipe data yang dikembalikan untuk C#
WordLevelTimingResult.Offset
dariint
untuklong
memungkinkan akses keWordLevelTimingResults
saat data ucapan lebih dari 2 menit. PushAudioInputStream
danPullAudioInputStream
sekarang mengirim informasi header wav ke Layanan Ucapan berdasarkanAudioStreamFormat
, secara opsional ditentukan kapan pembuatannya. Pelanggan sekarang harus menggunakan format input audio yang didukung. Format lain akan mendapatkan hasil pengenalan suboptimal atau dapat menyebabkan masalah lain.
Perbaikan bug
- Lihat pembaruan
OpenSSL
di bagian Perubahan mencolok di atas. Kami memperbaiki crash terputus-terputus dan masalah performa (mengunci konten di bawah beban tinggi) di Linux dan Java. - Java: Melakukan perbaikan pada penutupan objek dalam skenario konkurensi tinggi.
- Merestrukturisasi paket NuGet kami. Kami menghapus tiga salinan
Microsoft.CognitiveServices.Speech.core.dll
danMicrosoft.CognitiveServices.Speech.extension.kws.dll
di bawah folder lib, membuat paket NuGet lebih kecil dan lebih cepat diunduh, dan kami menambahkan header yang diperlukan untuk mengompilasi beberapa aplikasi asli C++. - Memperbaiki sampel mulai cepat di sini. Ini keluar tanpa menampilkan pengecualian "mikrofon tidak ditemukan" di Linux, macOS, Windows.
- Memperbaiki crash SDK dengan hasil pengenalan ucapan yang panjang pada jalur kode tertentu seperti sampel ini.
- Memperbaiki kesalahan penyebaran SDK di lingkungan Azure Web App untuk mengatasi masalah pelanggan ini.
- Memperbaiki kesalahan TTS saat menggunakan multi
<voice>
tag atau<audio>
tag untuk mengatasi masalah pelangganini. - Memperbaiki kesalahan TTS 401 saat SDK dipulihkan dari ditangguhkan.
- JavaScript: Memperbaiki impor data audio sirkuler berkat kontribusi dari euirim.
- JavaScript: menambahkan dukungan untuk mengatur properti layanan, seperti yang ditambahkan dalam 1.7.
- JavaScript: memperbaiki masalah ketika kesalahan koneksi dapat mengakibatkan upaya koneksi ulang websocket terus-menerus dan tidak berhasil.
Sampel
- Menambahkan sampel pengenalan kata kunci untuk Android di sini.
- Menambahkan sampel TTS untuk skenario server di sini.
- Menambahkan Mulai cepat percakapan multi-perangkat untuk C# dan C++ di sini.
Perubahan lain
- Ukuran pustaka inti SDK yang dioptimalkan di Android.
- SDK di 1.9.0 dan seterusnya mendukung jenis
int
danstring
di bidang versi tanda tangan suara untuk Conversation Transcriber.
Speech SDK 1.8.0: Rilis November 2019
Fitur baru
FromHost()
Menambahkan API, untuk memudahkan penggunaan dengan kontainer lokal dan sovereign cloud.- Menambahkan Identifikasi Bahasa Sumber untuk Pengenalan Ucapan (dalam Java dan C++)
- Menambahkan objek
SourceLanguageConfig
untuk Pengenalan Suara, digunakan untuk menentukan bahasa sumber yang diharapkan (dalam Java dan C++) - Menambahkan dukungan
KeywordRecognizer
pada Windows (UWP), Android, dan iOS melalui paket NuGet dan Unity - Menambahkan Remote Conversation Java API untuk melakukan Transkripsi Percakapan dalam batch asinkron.
Perubahan mencolok
- Fungsi Conversation Transcriber dipindahkan di bawah namespace
Microsoft.CognitiveServices.Speech.Transcription
. - Bagian dari metode Conversation Transcriber dipindahkan ke kelas
Conversation
baru. - Menghapus dukungan untuk iOS 32-bit (ARMv7 dan x86)
Perbaikan bug
- Memperbaiki crash jika
KeywordRecognizer
lokal digunakan tanpa kunci langganan layanan Ucapan yang valid
Sampel
- Sampel Xamarin untuk
KeywordRecognizer
- Sampel Unity untuk
KeywordRecognizer
- Sampel C++ dan Java untuk Identifikasi Bahasa Sumber Otomatis.
Speech SDK 1.7.0: Rilis September 2019
Fitur baru
- Menambahkan dukungan beta untuk Xamarin di Universal Windows Platform (UWP), Android, dan iOS
- Menambahkan dukungan iOS untuk Unity
- Menambahkan
Compressed
dukungan input untuk ALaw, Mulaw, FLAC, di Android, iOS, dan Linux - Ditambahkan
SendMessageAsync
di kelasConnection
untuk mengirim pesan ke layanan - Ditambahkan
SetMessageProperty
di kelasConnection
untuk mengatur properti pesan - TTS menambahkan pengikatan untuk Java (JRE dan Android), Python, Swift, dan Objective-C
- TTS menambahkan dukungan pemutaran untuk macOS, iOS, dan Android.
- Menambahkan informasi "batas kata" untuk TTS.
Perbaikan bug
- Memperbaiki masalah build IL2CPP di Unity 2019 untuk Android
- Memperbaiki masalah header yang salah bentuk dalam input file wav yang diproses dengan tidak benar
- Memperbaiki masalah UUID yang tidak unik di beberapa properti sambungan
- Memperbaiki beberapa peringatan tentang penentu nullabilitas dalam pengikatan Swift (mungkin memerlukan perubahan kode kecil)
- Memperbaiki bug yang menyebabkan koneksi websocket ditutup paksa di bawah beban jaringan
- Memperbaiki masalah di Android yang terkadang menghasilkan ID tayangan duplikat yang digunakan oleh
DialogServiceConnector
- Peningkatan stabilitas koneksi di seluruh interaksi multi-turn dan pelaporan kegagalan (melalui peristiwa
Canceled
) ketika terjadi denganDialogServiceConnector
- Mulai sesi
DialogServiceConnector
sekarang akan menyediakan peristiwa dengan benar, termasuk saat memanggilListenOnceAsync()
selamaStartKeywordRecognitionAsync()
aktif - Mengatasi crash yang terkait dengan
DialogServiceConnector
aktivitas yang diterima
Sampel
- Mulai cepat untuk Xamarin
- Mulai Cepat CPP yang diperbarui dengan informasi Linux Arm64
- Memperbarui mulai cepat Unity dengan informasi iOS
Speech SDK 1.6.0: Rilis Juni 2019
Sampel
- Sampel mulai cepat untuk Teks Ke Ucapan di UWP dan Unity
- Sampel mulai cepat untuk Swift di iOS
- Sampel Unity untuk Pengenalan dan Terjemahan Ucapan & Niat
- Memperbarui sampel mulai cepat untuk
DialogServiceConnector
Peningkatan/Perubahan
- Namespace dialog:
SpeechBotConnector
telah diubah namanya menjadiDialogServiceConnector
BotConfig
telah diubah namanya menjadiDialogServiceConfig
BotConfig::FromChannelSecret()
telah dipetakan ulang keDialogServiceConfig::FromBotSecret()
- Semua klien Direct Line Speech yang ada terus didukung setelah perubahan nama
- Memperbarui adaptor TTS REST untuk mendukung proksi, koneksi persisten
- Meningkatkan pesan kesalahan saat wilayah yang tidak valid dilewati
- Swift/Objective-C:
- Meningkatkan pelaporan kesalahan: Metode yang dapat mengakibatkan kesalahan sekarang ada dalam dua versi: Satu metode yang mengekspos objek
NSError
untuk penanganan kesalahan, dan metode yang menimbulkan pengecualian. Yang pertama diekspos ke Swift. Perubahan ini memerlukan adaptasi ke kode Swift yang ada. - Meningkatkan penanganan peristiwa
- Meningkatkan pelaporan kesalahan: Metode yang dapat mengakibatkan kesalahan sekarang ada dalam dua versi: Satu metode yang mengekspos objek
Perbaikan bug
- Perbaikan untuk TTS:
SpeakTextAsync
di mana masa mendatang dikembalikan tanpa menunggu sampai audio selesai dirender - Perbaikan untuk string marshaling di C# untuk mengaktifkan dukungan bahasa penuh
- Perbaikan untuk masalah aplikasi inti .NET untuk memuat pustaka inti dengan kerangka kerja target net461 dalam sampel
- Perbaikan untuk masalah tidak sering untuk menyebarkan pustaka asli ke folder output dalam sampel
- Perbaikan untuk penutupan soket web dengan andal
- Perbaikan untuk kemungkinan crash saat membuka koneksi di bawah beban berat di Linux
- Perbaikan untuk metadata yang hilang dalam bundel kerangka kerja untuk macOS
- Perbaikan untuk masalah dengan
pip install --user
di Windows
Speech SDK 1.5.1
Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.
Perbaikan bug
- Memperbaiki FromSubscription saat digunakan dengan Transkripsi Percakapan.
- Memperbaiki bug dalam pencarian kata kunci untuk Asisten Voice.
Speech SDK 1.5.0: Rilis Mei 2019
Fitur baru
- Pencarian kata kunci (KWS) sekarang tersedia untuk Windows dan Linux. Fungsionalitas KWS mungkin berfungsi dengan jenis mikrofon apa pun, dukungan resmi KWS, namun, saat ini terbatas pada array mikrofon yang ditemukan di perangkat keras Azure Kinect DK atau Speech Devices SDK.
- Fungsionalitas yang sama tersedia melalui SDK. Untuk informasi selengkapnya, lihat di sini.
- Fungsionalitas transkripsi percakapan tersedia melalui SDK.
- Tambahkan dukungan untuk Asisten Voice menggunakan saluran Direct Line Speech.
Sampel
- Menambahkan sampel untuk fitur baru atau layanan baru yang didukung oleh SDK.
Peningkatan/Perubahan
- Menambahkan berbagai sifat recognizer untuk menyesuaikan perilaku layanan atau hasil layanan (seperti masking profanity dan lainnya).
- Anda sekarang dapat mengonfigurasi recognizer melalui properti konfigurasi standar, bahkan jika Anda membuat recognizer
FromEndpoint
. - Objective-C: Properti
OutputFormat
ditambahkan keSPXSpeechConfiguration
. - SDK sekarang mendukung Debian 9 sebagai distribusi Linux.
Perbaikan bug
- Memperbaiki masalah di mana sumber daya pembicara dihancurkan terlalu dini dalam teks ke ucapan.
Speech SDK 1.4.2
Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.
Speech SDK 1.4.1
Ini adalah rilis khusus JavaScript. Tidak ada fitur yang ditambahkan. Perbaikan berikut dibuat:
- Mencegah paket web memuat https-proxy-agent.
Speech SDK 1.4.0: Rilis April 2019
Fitur baru
- SDK sekarang mendukung layanan Teks ke ucapan sebagai versi beta. Ini didukung pada Windows dan Linux Desktop dari C++ dan C#. Untuk informasi selengkapnya, periksa ringkasan Teks ke ucapan.
- SDK sekarang mendukung file audio MP3 dan Opus/OGG sebagai file input aliran. Fitur ini hanya tersedia di Linux dari C++ dan C# serta saat ini dalam versi beta (detail selengkapnya di sini).
- Speech SDK untuk Java, .NET core, C++, dan Objective-C sudah mendapatkan dukungan macOS. Dukungan Objective-C untuk macOS saat ini dalam versi beta.
- iOS: Speech SDK untuk iOS (Objective-C) sekarang juga diterbitkan sebagai CocoaPod.
- JavaScript: Dukungan untuk mikrofon non-default sebagai perangkat input.
- JavaScript: Dukungan proksi untuk Node.js.
Sampel
- Sampel untuk menggunakan Speech SDK dengan C++ dan dengan Objective-C di macOS telah ditambahkan.
- Sampel yang menunjukkan penggunaan layanan Teks ke ucapan telah ditambahkan.
Peningkatan/Perubahan
- Python: Properti tambahan hasil pengenalan sekarang diekspos melalui properti
properties
. - Untuk pengembangan tambahan dan dukungan debug, Anda dapat mengalihkan informasi pengelogan dan diagnostik SDK ke dalam file log (detail selengkapnya di sini).
- JavaScript: Meningkatkan performa pemrosesan audio.
Perbaikan bug
- Mac/iOS: Bug yang menyebabkan waktu tunggu lama ketika koneksi ke layanan Azure Cognitive Service untuk Ucapan tidak dapat dibuat telah diperbaiki.
- Python: meningkatkan penanganan kesalahan untuk argumen di panggilan balik Python.
- JavaScript: Memperbaiki pelaporan status yang salah untuk ucapan yang berakhir pada RequestSession.
Speech SDK 1.3.1: Diperbarui Februari 2019
Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.
Perbaikan bug
- Memperbaiki kebocoran memori saat menggunakan input mikrofon. Input berbasis aliran atau file tidak terpengaruh.
Speech SDK 1.3.0: Rilis Februari 2019
Fitur baru
- Speech SDK mendukung pemilihan mikrofon input melalui kelas
AudioConfig
. Ini memungkinkan Anda melakukan streaming data audio ke layanan Ucapan dari mikrofon non-default. Untuk informasi selengkapnya, lihat dokumentasi yang menjelaskan pemilihan perangkat input audio. Fitur ini belum tersedia dari JavaScript. - Speech SDK sekarang mendukung Unity dalam versi beta. Berikan umpan balik melalui bagian masalah di repositori sampel GitHub. Rilis ini mendukung Unity pada Windows x86 dan x64 (aplikasi desktop atau Universal Windows Platform), dan Android (ARM32/64, x86). Informasi selengkapnya tersedia dalam Mulai cepat Unity kami.
- File
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(dikirim dalam rilis sebelumnya) tidak diperlukan lagi. Fungsionalitasnya sekarang terintegrasi dalam SDK inti.
Sampel
Konten baru berikut tersedia di repositori sampel kami:
- Sampel tambahan untuk
AudioConfig.FromMicrophoneInput
. - Sampel Python tambahan untuk pengenalan dan terjemahan niat.
- Sampel tambahan untuk menggunakan objek
Connection
di iOS. - Sampel Java tambahan untuk terjemahan dengan output audio.
- Sampel baru untuk penggunaan Batch Transcription REST API.
Peningkatan/Perubahan
- Python
- Meningkatkan verifikasi parameter dan pesan kesalahan dalam
SpeechConfig
. - Menambahkan dukungan untuk objek
Connection
. - Dukungan untuk Python 32-bit (x86) di Windows.
- Speech SDK untuk Python adalah keluar dari beta.
- Meningkatkan verifikasi parameter dan pesan kesalahan dalam
- Ios
- SDK tersebut sekarang dibangun pada iOS SDK versi 12.1.
- SDK sekarang mendukung iOS versi 9.2 dan yang lebih baru.
- Meningkatkan dokumentasi referensi dan memperbaiki beberapa nama properti.
- JavaScript
- Menambahkan dukungan untuk objek
Connection
. - Menambahkan file definisi jenis untuk JavaScript yang dibundel
- Dukungan awal dan implementasi untuk petunjuk frasa.
- Mengembalikan koleksi properti dengan layanan JSON untuk pengenalan
- Menambahkan dukungan untuk objek
- DLL Windows sekarang berisi sumber daya versi.
- Jika Anda membuat recognizer
FromEndpoint
, Anda dapat menambahkan parameter langsung ke titik akhir URL. Dengan menggunakanFromEndpoint
, Anda tidak dapat mengonfigurasi recognizer melalui properti konfigurasi standar.
Perbaikan bug
- Nama pengguna proksi kosong dan kata sandi proksi tidak dihandel dengan benar. Dengan rilis ini, jika Anda mengatur nama pengguna proksi dan kata sandi proksi ke string kosong, mereka tidak akan dikirimkan saat menyambungkan ke proksi.
- SessionId yang dibuat oleh SDK tidak selalu benar-benar acak untuk beberapa bahasa/lingkungan. Menambahkan inisialisasi generator acak untuk memperbaiki masalah ini.
- Meningkatkan penanganan token otorisasi. Jika Anda ingin menggunakan token otorisasi, tentukan di
SpeechConfig
dan biarkan kunci langganan kosong. Kemudian buat recognizer seperti biasa. - Dalam beberapa kasus, objek
Connection
tidak dirilis dengan benar. Masalah ini telah diperbaiki. - Sampel JavaScript juga diperbaiki untuk mendukung output audio untuk sintesis terjemahan di Safari.
Speech SDK 1.2.1
Ini adalah rilis khusus JavaScript. Tidak ada fitur yang ditambahkan. Perbaikan berikut dibuat:
- Mengaktifkan akhir aliran di turn.end, bukan di speech.end.
- Memperbaiki bug di dorongan audio yang tidak menjadwalkan pengiriman berikutnya jika pengiriman saat ini gagal.
- Memperbaiki pengenalan berkelanjutan dengan token auth.
- Perbaikan bug untuk recognizer/titik akhir yang berbeda.
- Peningkatan dokumentasi.
Speech SDK 1.2.0: Rilis Desember 2018
Fitur baru
- Python
- Versi Beta dukungan Python (3.5 ke atas) tersedia pada rilis ini. Untuk informasi selengkapnya, lihat di sini](../../quickstart-python.md).
- JavaScript
Connection
benda- Dari
Recognizer
, Anda dapat mengakses objekConnection
. Objek ini memungkinkan Anda secara eksplisit memulai sambungan layanan dan berlangganan untuk menyambungkan serta memutuskan sambungan peristiwa. (Fitur ini belum tersedia dari JavaScript dan Python.)
- Dari
- Dukungan untuk Ubuntu 18.04.
- Android
- Mengaktifkan dukungan ProGuard selama pembuatan APK.
Penyempurnaan
- Peningkatan penggunaan alur internal, mengurangi jumlah alur, kunci, mutex.
- Meningkatkan pelaporan/informasi kesalahan. Dalam beberapa kasus, pesan kesalahan belum disebarluaskan sepanjang jalan keluar.
- Memperbarui dependensi pengembangan di JavaScript untuk menggunakan modul terbaru.
Perbaikan bug
- Memperbaiki kebocoran memori karena ketidakcocokan jenis di
RecognizeAsync
. - Dalam beberapa kasus, pengecualian bocor.
- Memperbaiki kebocoran memori dalam argumen peristiwa terjemahan.
- Memperbaiki masalah penguncian pada sambungkan kembali dalam sesi jangka panjang.
- Memperbaiki masalah yang dapat menyebabkan hasil akhir hilang untuk terjemahan yang gagal.
- C#: Jika operasi
async
tidak ditunggu di alur utama, ada kemungkinan recognizer dapat dihapus sebelum tugas asinkron selesai. - Java: Memperbaiki masalah yang mengakibatkan crash Java VM.
- Objective-C: Pemetaan enum tetap; RecognizedIntent dikembalikan bukan
RecognizingIntent
. - JavaScript: Atur format output default ke 'simple' di
SpeechConfig
. - JavaScript: Menghapus ketidakkonsistenan antara properti pada objek konfigurasi dalam JavaScript dan bahasa lainnya.
Sampel
- Memperbarui dan memperbaiki beberapa sampel (misalnya suara output untuk terjemahan, dll.).
- Menambahkan sampel Node.js dalam repositori sampel.
Speech SDK 1.1.0
Fitur baru
- Dukungan untuk Android x86/x64.
- Dukungan Proksi: Dalam ojek
SpeechConfig
, Anda sekarang dapat memanggil fungsi untuk mengatur informasi proksi (nama host, port, nama pengguna, dan kata sandi). Fitur ini belum tersedia di iOS. - Kode kesalahan dan pesan yang disempurnakan. Jika pengenalan mengembalikan kesalahan, ini sudah menetapkan
Reason
(dalam peristiwa yang dibatalkan) atauCancellationDetails
(dalam hasil pengenalan) keError
. Peristiwa yang dibatalkan sekarang berisi dua anggota tambahan,ErrorCode
danErrorDetails
. Jika server mengembalikan informasi kesalahan tambahan dengan kesalahan yang dilaporkan, server sekarang akan tersedia di anggota baru.
Penyempurnaan
- Menambahkan verifikasi tambahan dalam konfigurasi recognizer, dan menambahkan pesan kesalahan tambahan.
- Peningkatan penanganan keheningan lama di tengah file audio.
- Paket NuGet: untuk proyek .NET Framework, mencegah pembangunan dengan konfigurasi AnyCPU.
Perbaikan bug
- Memperbaiki beberapa pengecualian yang ditemukan dalam recognizer. Selain itu, pengecualian ditangkap dan dikonversi menjadi peristiwa
Canceled
. - Memperbaiki kebocoran memori dalam manajemen properti.
- Memperbaiki bug ketika file input audio dapat menabrakkan recognizer.
- Memperbaiki bug ketika peristiwa dapat diterima setelah peristiwa penghentian sesi.
- Memperbaiki beberapa kondisi balapan dalam alur.
- Memperbaiki masalah kompatibilitas iOS yang dapat mengakibatkan crash.
- Peningkatan stabilitas untuk dukungan mikrofon Android.
- Memperbaiki bug ketika recognizer di JavaScript akan mengabaikan bahasa pengenalan.
- Memperbaiki bug yang mencegah pengaturan
EndpointId
(dalam beberapa kasus) di JavaScript. - Mengubah urutan parameter di AddIntent di JavaScript, dan menambahkan tanda tangan JavaScript
AddIntent
yang hilang.
Sampel
- Menambahkan sampel C++ dan C# untuk penggunaan aliran pull dan push dalam repositori sampel.
Speech SDK 1.0.1
Peningkatan keandalan dan perbaikan bug:
- Memperbaiki potensi kesalahan fatal karena kondisi balapan dalam menghapus recognizer
- Memperbaiki potensi kesalahan fatal ketika properti yang belum diatur terjadi.
- Menambahkan pemeriksaan kesalahan dan parameter tambahan.
- Objective-C: Memperbaiki kemungkinan kesalahan fatal yang disebabkan oleh penimpaan nama di NSString.
- Objective-C: Visibilitas API yang disesuaikan
- JavaScript: Perbaikan terkait peristiwa dan payload-nya.
- Peningkatan dokumentasi.
Dalam repositori sampel kami, sampel baru untuk JavaScript ditambahkan.
Azure AI Speech SDK 1.0.0: Rilis September 2018
Fitur baru
- Dukungan untuk Objective-C di iOS. Lihat Mulai cepat Objective-C untuk iOS kami.
- Dukungan untuk JavaScript di browser. Lihat mulai cepat JavaScript kami.
Perubahan mencolok
- Dengan rilis ini, sejumlah perubahan yang melanggar diperkenalkan. Periksa halaman ini untuk detailnya.
Azure AI Speech SDK 0.6.0: Rilis Agustus 2018
Fitur baru
- Aplikasi UWP yang dibangun dengan Speech SDK sekarang dapat meneruskan Windows App Certification Kit (WACK). Lihat Mulai cepat UWP.
- Dukungan untuk .NET Standard 2.0 di Linux (Ubuntu 16.04 x64).
- Eksperimental: Mendukung Java 8 di Windows (64-bit) dan Linux (Ubuntu 16.04 x64). Lihat mulai cepat Lingkungan Runtime Java.
Perubahan fungsional
- Mengekspos informasi detail kesalahan tambahan tentang kesalahan koneksi.
Perubahan mencolok
- Pada Java (Android), fungsi
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
ini tidak lagi memerlukan parameter jalur. Sekarang jalur secara otomatis terdeteksi pada semua platform yang didukung. - Get-accessor properti
EndpointUrl
di Java dan C# dihapus.
Perbaikan bug
- Di Java, hasil sintesis audio pada recognizer terjemahan diimplementasikan sekarang.
- Memperbaiki bug yang dapat menyebabkan alur tidak aktif dan peningkatan jumlah soket terbuka dan tidak digunakan.
- Memperbaiki masalah, ketika pengenalan jangka panjang dapat berakhir di tengah transmisi.
- Memperbaiki kondisi balapan dalam penonaktifan recognizer.
Azure AI Speech SDK 0.5.0: Rilis Juli 2018
Fitur baru
- Mendukung platform Android (API 23: Android 6.0 Marshmallow atau yang lebih tinggi). Lihat mulai cepat Android.
- Mendukung .NET Standard 2.0 di Windows. Lihat mulai cepat .NET Core.
- Eksperimental: Mendukung UWP di Windows (versi 1709 atau yang lebih baru).
- Lihat Mulai cepat UWP.
- Perhatikan bahwa aplikasi UWP yang dibangun dengan Speech SDK belum lulus Windows App Certification Kit (WACK).
- Mendukung pengenalan jangka panjang dengan koneksi ulang otomatis.
Mengubah fungsional
StartContinuousRecognitionAsync()
mendukung pengenalan jangka panjang.- Hasil pengenalan berisi lebih banyak bidang. Hasil tersebut adalah offset dari awal audio dan durasi (keduanya dalam tick) teks yang dikenal dan nilai tambahan yang mewakili status pengenalan, misalnya,
InitialSilenceTimeout
danInitialBabbleTimeout
. - Mendukung AuthorizationToken untuk membuat instans pabrik.
Perubahan mencolok
- Peristiwa pengenalan: Jenis peristiwa
NoMatch
digabungkan ke dalam peristiwaError
. - SpeechOutputFormat di C# diubah namanya ke
OutputFormat
agar tetap selaras dengan C++. - Jenis pengembalian beberapa metode
AudioInputStream
antarmuka sedikit berubah:- Di Java, metode
read
sekarang mengembalikanlong
bukanint
. - Di C#, metode
Read
sekarang mengembalikanuint
bukanint
. - Di C++, metode
Read
danGetFormat
sekarang mengembalikansize_t
bukanint
.
- Di Java, metode
- C++: Instans aliran input audio sekarang hanya dapat diteruskan sebagai
shared_ptr
.
Perbaikan bug
- Memperbaiki nilai pengembalian yang salah dalam hasil saat
RecognizeAsync()
waktu habis. - Dependensi pada pustaka pondasi media pada Windows telah dihapus. SDK sekarang menggunakan API Core Audio.
- Perbaikan dokumentasi: Menambahkan halaman wilayah untuk menjelaskan wilayah yang didukung.
Masalah yang diketahui
- Speech SDK untuk Android tidak melaporkan hasil sintesis ucapan untuk penerjemahan. Masalah ini akan diperbaiki di rilis mendatang.
Azure AI Speech SDK 0.4.0: Rilis Juni 2018
Mengubah fungsional
AudioInputStream
Recognizer sekarang dapat menggunakan aliran sebagai sumber audio. Untuk informasi selengkapnya, lihat panduan cara.
Format output terperinci
Saat membuat
SpeechRecognizer
, Anda dapat meminta format outputDetailed
atauSimple
.DetailedSpeechRecognitionResult
berisi skor keyakinan, teks yang dikenali, bentuk leksikal mentah, bentuk normalisasi, dan bentuk normalisasi dengan kata-kata kotor yang ditutupi.
Breaking change
- Diubah ke
SpeechRecognitionResult.Text
dariSpeechRecognitionResult.RecognizedText
di C#.
Perbaikan bug
- Memperbaiki kemungkinan masalah panggil balik di lapisan USP selama penonaktifan.
- Jika recognizer menggunakan file input audio, ini berpegang pada handel file lebih lama dari yang diperlukan.
- Menghapus beberapa kebuntuan antara pompa pesan dan recognizer.
- Aktifkan hasil
NoMatch
ketika respons dari layanan kehabisan waktu. - Pustaka pondasi media pada pemuatan Windows ditunda. Pustaka ini hanya diperlukan untuk input mikrofon.
- Kecepatan pengunggahan untuk data audio dibatasi sekitar dua kali kecepatan audio asli.
- Pada Windows, rakitan C# .NET sekarang diberi nama yang kuat.
- Perbaikan dokumentasi:
Region
adalah informasi yang diperlukan untuk membuat recognizer.
Lebih banyak sampel sudah ditambahkan dan terus diperbarui. Untuk kumpulan sampel terbaru, lihat repositori GitHub sampel Speech SDK.
Azure AI Speech SDK 0.2.12733: Rilis Mei 2018
Rilis ini adalah rilis pratinjau publik pertama dari Azure AI Speech SDK.