Apa yang baru dalam Azure AI Speech?

Artikel
01/21/2024

Azure AI Speech diperbarui secara berkelanjutan. Untuk tetap mengikuti perkembangan terbaru, artikel ini memberi Anda informasi tentang rilis dan fitur baru.

Sorotan terbaru

Layanan Azure AI Speech mendukung teks OpenAI ke suara ucapan. Untuk informasi selengkapnya, lihat Apa itu teks OpenAI ke suara ucapan?.
API suara kustom tersedia untuk membuat dan mengelola model suara neural kustom profesional dan pribadi .
Azure AI Speech sekarang mendukung model Whisper OpenAI melalui API transkripsi batch. Untuk mempelajari lebih lanjut , lihat panduan Membuat transkripsi batch.

Catatan rilis

Memilih layanan atau sumber daya

Paket mendatang untuk pengguna Linux dan Android:

Perhatian

Artikel ini mereferensikan CentOS, distribusi Linux yang mendekati status End Of Life (EOL). Harap pertimbangkan penggunaan dan perencanaan Anda yang sesuai. Untuk informasi selengkapnya, lihat panduan Akhir Masa Pakai CentOS.

Ubuntu 18.04 juga mencapai akhir masa pakai kembali pada bulan April 2023, sehingga pengguna kami harus mempersiapkan diri bagi kami untuk memindahkan versi minimum kami hingga Ubuntu 20.04.

Speech SDK 1.37.0: Rilis April 2024

Fitur baru

Tambahkan dukungan untuk streaming teks input dalam sintesis ucapan.
Ubah suara sintesis ucapan default menjadi en-US-AvaMultilingualNeural.
Perbarui build Android untuk menggunakan OpenSSL 3.x.

Perbaikan bug

Perbaiki crash JVM sesekali selama Pembuangan SpeechRecognizer saat menggunakan MAS. Aku akan menemuinya.https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125
Meningkatkan deteksi perangkat audio default di Linux. Aku akan menemuinya.https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292

Sampel

Diperbarui untuk fitur baru.

Speech SDK 1.36.0: Rilis Maret 2024

Fitur baru

Tambahkan dukungan untuk identifikasi bahasa dalam terjemahan multibahasa pada titik akhir v2 menggunakan AutoDetectSourceLanguageConfig::FromOpenRange().

Perbaikan bug

Perbaiki peristiwa SynthesisCanceled yang tidak diaktifkan jika berhenti dipanggil selama peristiwa SynthesisStarted.
Perbaiki masalah kebisingan dalam sintesis ucapan yang disematkan.
Perbaiki crash dalam pengenalan ucapan yang disematkan saat menjalankan beberapa pengenal secara paralel.
Perbaiki pengaturan mode deteksi frasa pada titik akhir v1/v2.
Memperbaiki berbagai masalah dengan Microsoft Audio Stack.

Sampel

Pembaruan untuk fitur baru.

Speech SDK 1.35.0: Rilis Februari 2024

Fitur baru

Ubah teks default menjadi suara ucapan dari en-US-JennyMultilingualNeural menjadi en-US-AvaNeural.
Mendukung detail tingkat kata dalam hasil terjemahan ucapan yang disematkan menggunakan format output terperinci.

Perbaikan bug

Perbaiki API getter posisi AudioDataStream di Python.
Perbaiki terjemahan ucapan menggunakan titik akhir v2 tanpa deteksi bahasa.
Perbaiki crash acak dan duplikat peristiwa batas kata dalam teks yang disematkan ke ucapan.
Mengembalikan kode kesalahan pembatalan yang benar untuk kesalahan server internal pada koneksi WebSocket.
Perbaiki kegagalan memuat pustaka FPIEProcessor.dll saat MAS digunakan dengan C#.

Sampel

Pembaruan pemformatan kecil untuk sampel pengenalan yang disematkan.

Speech SDK 1.34.1: Rilis Januari 2024

Perubahan mencolok

Perbaikan bug saja

Fitur baru

Perbaikan bug saja

Perbaikan bug

Memperbaiki regresi yang diperkenalkan di 1.34.0 di mana url titik akhir layanan dibangun dengan info lokal yang buruk untuk pengguna di beberapa wilayah Tiongkok.

Speech SDK 1.34.0: Rilis November 2023

Perubahan mencolok

SpeechRecognizer telah diperbarui untuk menggunakan titik akhir baru secara default (yaitu ketika tidak secara eksplisit menentukan URL) yang tidak lagi mendukung parameter string kueri untuk sebagian besar properti. Alih-alih mengatur parameter string kueri secara langsung dengan ServicePropertyChannel.UriQueryParameter, silakan gunakan fungsi API yang sesuai.

Fitur baru

Kompatibilitas dengan .NET 8 (Perbaiki kecuali untuk https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 peringatan tentang centos7-x64)
Dukungan untuk metrik performa ucapan yang disematkan yang dapat digunakan untuk mengevaluasi kemampuan perangkat untuk menjalankan ucapan yang disematkan.
Dukungan untuk identifikasi bahasa sumber dalam terjemahan multibahasa yang disematkan.
Dukungan untuk ucapan ke teks, teks ke ucapan, dan terjemahan yang disematkan untuk iOS dan Swift/Objective-C dirilis dalam pratinjau.
Dukungan tersemat disediakan dalam MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Perbaikan bug

Perbaikan untuk iOS SDK x2 kali pertumbuhan ukuran biner · Masalah #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Perbaikan untuk Tidak bisa mendapatkan stempel waktu tingkat kata dari ucapan azure ke api teks · Masalah #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Perbaiki untuk DialogService Koneksi seor fase penghancuran untuk memutuskan peristiwa dengan benar. Ini menyebabkan crash sesekali.
Perbaiki untuk pengecualian selama pembuatan pengenal saat MAS digunakan.
FPIEProcessor.dll dari paket NuGet Microsoft.CognitiveServices.Speech.Extension.MAS untuk Windows UWP x64 dan ARM64 memiliki dependensi pada pustaka runtime VC untuk C++asli. Masalah ini telah diperbairah dengan memperbarui dependensi untuk memperbaiki pustaka runtime VC (untuk UWP).
Perbaikan untuk panggilan berulang [MAS] untuk mengenaliOnceAsync mengarah ke SPXERR_ALREADY_INITIALIZED saat menggunakan MAS · Masalah #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Perbaikan untuk crash pengenalan ucapan yang disematkan saat daftar frasa digunakan.

Sampel

Sampel iOS yang disematkan untuk ucapan ke teks, teks ke ucapan, dan terjemahan.

Speech CLI 1.34.0: Rilis November 2023

Fitur baru

Mendukung output peristiwa batas kata saat mensintesis ucapan.

Perbaikan bug

Dependensi JMESPath yang diperbarui ke rilis terbaru, meningkatkan evaluasi string

Speech SDK 1.33.0: Rilis Oktober 2023

Pemberitahuan perubahan yang melanggar

Paket NuGet baru yang ditambahkan untuk Microsoft Audio Stack (MAS) sekarang diperlukan untuk disertakan oleh aplikasi yang menggunakan MAS dalam file konfigurasi paket mereka.

Fitur baru

Menambahkan paket NuGet baru Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, yang memberikan peningkatan performa pembatalan gema saat menggunakan Microsoft Audio Stack
Penilaian Pengucapan: menambahkan dukungan untuk evaluasi prosodi dan konten, yang dapat menilai ucapan lisan dalam hal prosody, kosakata, tata bahasa, dan topik.

Perbaikan bug

Memperbaiki offset hasil pengenalan kata kunci sehingga cocok dengan aliran audio input sejak awal. Perbaikan ini berlaku untuk pengenalan kata kunci mandiri dan pengenalan ucapan yang dipicu kata kunci.
Fixed Synthesizer stopSpeaking tidak segera mengembalikan metode SPXSpeechSynthesizer stopSpeaking() tidak dapat segera kembali di iOS 17 - Masalah #2081
Memperbaiki masalah impor katalis Mac pada Dukungan modul Swift untuk katalis mac dengan silikon apple. Masalah #1948
JS: Beban modul AudioWorkletNode sekarang menggunakan URL tepercaya, dengan fallback untuk browser CDN termasuk.
JS: File lib yang dikemas sekarang menargetkan ES6 JS, dengan dukungan untuk ES5 JS dihapus.
JS: peristiwa perantara untuk skenario terjemahan yang menargetkan titik akhir v2 ditangani dengan benar
JS: Properti bahasa untuk TranslationRecognitionEventArgs sekarang diatur untuk peristiwa translation.hypothesis.
Sintesis Ucapan: Peristiwa SynthesisCompleted dijamin akan dikeluarkan setelah semua peristiwa metadata, sehingga dapat digunakan untuk menunjukkan hingga akhir peristiwa. Bagaimana cara mendeteksi kapan visam diterima sepenuhnya? Masalah #2093 Azure-Samples/cognitive-services-speech-sdk

Sampel

Menambahkan sampel untuk menunjukkan streaming MULAW menggunakan Python)
Perbaikan untuk sampel NAudio ucapan ke teks

Speech CLI 1.33.0: Rilis Oktober 2023

Fitur baru

Mendukung output peristiwa batas kata saat mensintesis ucapan.

Perbaikan bug

tidak ada

Speech SDK 1.32.1: Rilis September 2023

Perbaikan bug

Pembaruan paket Android dengan perbaikan keamanan terbaru dari OpenSSL1.1.1v
JS – Properti WebWorkerLoadType ditambahkan untuk memungkinkan bypass beban URL data untuk pekerja batas waktu
JS – Perbaiki Terjemahan Percakapan terputus setelah 10 menit
JS – Token autentikasi Terjemahan Percakapan dari Percakapan sekarang disebarkan ke koneksi layanan Terjemahan

Sampel

Transkripsi percakapan dengan API Swift

Speech SDK 1.31.0: Rilis Agustus 2023

Fitur baru

Dukungan untuk diarisasi real time tersedia dalam pratinjau publik dengan Speech SDK 1.31.0. Fitur ini tersedia di SDK berikut: C#, C++, Java, JavaScript, Python dan Objective-C/Swift.
Batas kata sintesis ucapan yang disinkronkan dan peristiwa viseme dengan pemutaran audio

Perubahan mencolok

Skenario "transkripsi percakapan" sebelumnya diganti namanya menjadi "transkripsi rapat". Misalnya, gunakan MeetingTranscriber alih-alih ConversationTranscriber, dan gunakan CreateMeetingAsync alih-alih CreateConversationAsync. Meskipun nama objek dan metode SDK telah berubah, penggantian nama tidak mengubah fitur itu sendiri. Gunakan objek transkripsi rapat untuk transkripsi rapat dengan profil pengguna dan tanda tangan suara. Lihat Transkripsi rapat untuk informasi selengkapnya. Objek dan metode "terjemahan percakapan" tidak terpengaruh oleh perubahan ini. Anda masih dapat menggunakan ConversationTranslator objek dan metodenya untuk skenario terjemahan rapat.

Untuk diarisasi real time, objek baru ConversationTranscriber diperkenalkan. Model objek "transkripsi percakapan" baru dan pola panggilan mirip dengan pengenalan berkelanjutan dengan SpeechRecognizer objek . Perbedaan utamanya adalah bahwa ConversationTranscriber objek dirancang untuk digunakan dalam skenario percakapan di mana Anda ingin membedakan beberapa pembicara (diarisasi). Profil pengguna dan tanda tangan suara tidak berlaku. Lihat mulai cepat diarisasi real time untuk informasi selengkapnya.

Tabel ini memperlihatkan nama objek sebelumnya dan baru untuk diarisasi real time dan transkripsi rapat. Nama skenario berada di kolom pertama, nama objek sebelumnya berada di kolom kedua, dan nama objek baru berada di kolom ketiga.

Nama skenario	Nama objek sebelumnya	Nama objek baru
Diarisasi real time	T/A	`ConversationTranscriber`
Transkripsi rapat	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Objek Participant, ParticipantChangedReason, dan User berlaku untuk skenario transkripsi rapat dan terjemahan rapat.

² Objek Meeting baru dan digunakan dengan MeetingTranscriber objek .

Perbaikan bug

Memperbaiki versi minimum macOS yang didukung https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Memperbaiki bug Penilaian Pengucapan:
- Masalah skor akurasi fonem yang ditangani, memastikan mereka sekarang secara akurat hanya mencerminkan fonem tertentu yang salah diucapkan. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Menyelesaikan masalah di mana fitur Penilaian Pengucapan secara tidak akurat mengidentifikasi pengucapan yang sepenuhnya benar sebagai salah, terutama dalam situasi di mana kata-kata dapat memiliki beberapa pengucapan yang valid. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Sampel

Speech SDK 1.30.0: Rilis Juli 2023

Fitur baru

C++, C#, Java - Menambahkan dukungan untuk DisplayWords dalam hasil terperinci Pengenalan Ucapan Tersemat.
Objective-C/Swift - Menambahkan dukungan untuk ConnectionMessageReceived peristiwa di Objective-C/Swift.
Objective-C/Swift - Model spotting kata kunci yang ditingkatkan untuk iOS. Perubahan ini telah meningkatkan ukuran paket tertentu, yang berisi biner iOS (seperti NuGet, XCFramework). Kami berupaya mengurangi ukuran rilis mendatang.

Perbaikan bug

Memperbaiki kebocoran memori saat menggunakan pengenal ucapan dengan PhraseListGrammar, seperti yang dilaporkan oleh pelanggan (masalah GitHub).
Memperbaiki kebuntuan dalam API koneksi terbuka teks ke ucapan.

Catatan tambahan

Java - Beberapa metode Java API yang digunakan public secara internal diubah menjadi paket internal, protected atau private. Perubahan ini seharusnya tidak berpengaruh pada pengembang, karena kami tidak mengharapkan aplikasi menggunakannya. Dicatat di sini untuk transparansi.

Sampel

Sampel Penilaian Pengucapan Baru tentang cara menentukan bahasa pembelajaran di aplikasi Anda sendiri
- C#: Lihat kode sampel.
- C++: Lihat kode sampel.
- JavaScript: Lihat kode sampel.
- Objective-C: Lihat kode sampel.
- Python: Lihat kode sampel.
- Swift: Lihat kode sampel.

Speech SDK 1.29.0: Rilis Juni 2023

Fitur baru

C++, C#, Java - Pratinjau API Terjemahan Ucapan Tersemat. Sekarang Anda dapat melakukan terjemahan ucapan tanpa koneksi cloud!
JavaScript - Identifikasi Bahasa Berkelanjutan (LID) sekarang diaktifkan untuk terjemahan ucapan.
JavaScript - Kontribusi komunitas untuk menambahkan LocaleName properti ke VoiceInfo kelas. Terima kasih GitHub pengguna shivsarthak untuk permintaan pull.
C++, C#, Java - Menambahkan dukungan untuk pengambilan sampel ulang teks yang disematkan ke output ucapan dari laju sampel 16 kHz hingga 48 kHz.
Menambahkan dukungan untuk hi-IN lokal di Intent Recognizer dengan Pencocokan Pola Sederhana.

Perbaikan bug

Memperbaiki crash yang disebabkan oleh kondisi balapan di Speech Recognizer selama penghancuran objek, seperti yang terlihat di beberapa pengujian Android kami
Memperbaiki kemungkinan kebuntuan di Intent Recognizer dengan Simple Pattern Matcher

Sampel

Sampel Terjemahan Ucapan Tersemat Baru

Speech SDK 1.28.0: Rilis Mei 2023

Breaking change

JavaScript SDK: Protokol Status Sertifikat Online (OCSP) dihapus. Ini memungkinkan klien untuk lebih sesuai dengan standar browser dan Node untuk penanganan sertifikat. Versi 1.28 dan seterusnya tidak akan lagi menyertakan modul OCSP kustom kami.

Fitur baru

Pengenalan Ucapan yang Disematkan sekarang kembali NoMatchReason::EndSilenceTimeout ketika batas waktu keheningan terjadi di akhir ungkapan. Ini cocok dengan perilaku saat melakukan pengenalan menggunakan layanan ucapan real-time.
JavaScript SDK: Atur properti tentang SpeechTranslationConfig menggunakan PropertyId nilai enum.

Perbaikan bug

C# di Windows - Perbaiki potensi kondisi balapan/kebuntuan di ekstensi audio Windows. Dalam skenario bahwa kedua pembuangan perender audio dengan cepat dan juga menggunakan metode Synthesizer untuk berhenti berbicara, peristiwa yang mendasarinya tidak diatur ulang dengan berhenti, dan dapat menyebabkan objek perender tidak pernah dibuang, sementara itu bisa memegang kunci global untuk dibuang, membekukan utas dotnet GC.

Sampel

Menambahkan sampel ucapan yang disematkan untuk MAUI.
Memperbarui sampel ucapan yang disematkan untuk Android Java untuk menyertakan teks ke ucapan.

Speech SDK 1.27.0: Rilis April 2023

Pemberitahuan tentang perubahan yang akan datang

Kami berencana untuk menghapus Protokol Status Sertifikat Online (OCSP) dalam rilis JavaScript SDK berikutnya. Ini memungkinkan klien untuk lebih sesuai dengan standar browser dan Node untuk penanganan sertifikat. Versi 1.27 adalah rilis terakhir yang menyertakan modul OCSP kustom kami.

Fitur baru

JavaScript – Menambahkan dukungan untuk input mikrofon dari browser dengan Identifikasi dan Verifikasi Pembicara.
Pengenalan Ucapan Tersemat - Perbarui dukungan untuk PropertyId::Speech_SegmentationSilenceTimeoutMs pengaturan.

Perbaikan bug

Umum - Pembaruan keandalan dalam logika koneksi ulang layanan (semua bahasa pemrograman kecuali JavaScript).
Umum - Memperbaiki konversi string yang membocorkan memori di Windows (semua bahasa pemrograman yang relevan kecuali JavaScript).
Pengenalan Ucapan tersemat - Perbaiki crash di Pengenalan Ucapan Prancis saat menggunakan entri daftar tata bahasa tertentu.
Dokumentasi kode sumber - Koreksi pada komentar dokumentasi referensi SDK yang terkait dengan pengelogan audio pada layanan.
Pengenalan niat - Memperbaiki prioritas Pencocokan Pola yang terkait dengan entitas daftar.

Sampel

Tangani kegagalan autentikasi dengan benar dalam sampel C# Conversation Transcription (CTS).
Menambahkan contoh penilaian pengucapan streaming untuk Python, JavaScript, Objective-C dan Swift.

Speech SDK 1.26.0: Rilis Maret 2023

Perubahan mencolok

Bitcode telah dinonaktifkan di semua target iOS dalam paket berikut: Cocoapod dengan xcframework, NuGet (untuk Xamarin dan MAUI) dan Unity. Perubahan ini disebabkan oleh penghentian dukungan bitcode Apple dari Xcode 14 dan seterusnya. Perubahan ini juga berarti jika Anda menggunakan versi Xcode 13 atau Anda telah secara eksplisit mengaktifkan bitcode pada aplikasi Anda menggunakan Speech SDK, Anda mungkin mengalami kesalahan yang mengatakan "kerangka kerja tidak berisi bitcode dan Anda harus membangunnya kembali". Untuk mengatasi masalah ini, pastikan target Anda menonaktifkan bitcode.
Target penyebaran iOS minimum telah ditingkatkan ke 11.0 dalam rilis ini, yang berarti armv7 HW tidak lagi didukung.

Fitur baru

Pengenalan Ucapan (di perangkat) yang disematkan sekarang mendukung audio input laju pengambilan sampel 8 dan 16 kHz (16-bit per sampel, mono PCM).
Sintesis Ucapan sekarang melaporkan latensi koneksi, jaringan, dan layanan dalam hasil untuk membantu pengoptimalan latensi end-to-end.
Aturan pemecahan ikatan baru untuk Pengenalan Niat dengan pencocokan pola sederhana. Semakin banyak byte karakter yang dicocokkan, akan memenangkan kecocokan pola dengan jumlah byte karakter yang lebih rendah. Contoh: Pola "Pilih {something} di kanan atas" akan menang atas "Pilih {something}"

Perbaikan bug

Sintesis Ucapan: perbaiki bug di mana emoji tidak benar dalam peristiwa batas kata.
Pengenalan Niat dengan Pemahaman Bahasa Percakapan (CLU):
- Niat dari Alur Kerja Orkestrator CLU sekarang muncul dengan benar.
- Hasil JSON sekarang tersedia melalui ID LanguageUnderstandingServiceResponse_JsonResultproperti .
Pengenalan ucapan dengan aktivasi kata kunci: Perbaiki untuk audio ~150 ms yang hilang setelah pengenalan kata kunci.
Perbaikan untuk build Rilis MAUI Speech SDK NuGet iOS, dilaporkan oleh pelanggan (masalah GitHub)

Sampel

Perbaikan untuk sampel Swift iOS, dilaporkan oleh pelanggan (masalah GitHub)

Speech SDK 1.25.0: Rilis Januari 2023

Perubahan mencolok

API Identifikasi Bahasa (pratinjau) telah disederhanakan. Jika Anda memperbarui ke Speech SDK 1.25 dan melihat hentian build, silakan kunjungi halaman Identifikasi Bahasa untuk mempelajari tentang properti SpeechServiceConnection_LanguageIdModebaru . Properti tunggal ini menggantikan dua properti sebelumnya SpeechServiceConnection_SingleLanguageIdPriority dan SpeechServiceConnection_ContinuousLanguageIdPriority. Memprioritaskan antara latensi rendah dan akurasi tinggi tidak lagi diperlukan setelah peningkatan model terbaru. Sekarang, Anda hanya perlu memilih apakah akan menjalankan Identifikasi Bahasa di awal atau berkelanjutan saat melakukan pengenalan atau terjemahan ucapan berkelanjutan.

Fitur baru

C#/C++/Java: Embedded Speech SDK sekarang dirilis di bawah pratinjau publik yang terjaga. Lihat Dokumentasi Ucapan Tersemat (pratinjau). Anda sekarang dapat melakukan ucapan ke teks dan teks ke ucapan di perangkat saat konektivitas cloud terputus-putus atau tidak tersedia. Didukung di platform Android, Linux, macOS, dan Windows
C# MAUI: Dukungan ditambahkan untuk target iOS dan Mac Catalyst di Speech SDK NuGet (Masalah pelanggan)
Unity: Arsitektur Android x86_64 ditambahkan ke paket Unity (Masalah pelanggan)
Buka:
- Dukungan streaming langsung ALAW/MULAW ditambahkan untuk pengenalan ucapan (Masalah pelanggan)
- Menambahkan dukungan untuk PhraseListGrammar. Terima kasih GitHub pengguna czkoko untuk kontribusi komunitas!
C#/C++: Intent Recognizer sekarang mendukung model Pemahaman Bahasa Percakapan di C++ dan C# dengan orkestrasi pada layanan Microsoft

Perbaikan bug

Memperbaiki hang sesekali di KeywordRecognizer saat mencoba menghentikannya
Python:
- Perbaikan untuk mendapatkan hasil Penilaian Pengucapan saat PronunciationAssessmentGranularity.FullText ditetapkan (Masalah pelanggan)
- Perbaikan untuk properti gender untuk suara Laki-laki yang tidak diambil, saat mendapatkan suara sintesis ucapan
JavaScript
- Perbaikan untuk mengurai beberapa file WAV yang direkam di perangkat iOS (Masalah pelanggan)
- JS SDK sekarang dibangun tanpa menggunakan resolusi npm-force (Masalah pelanggan)
- Percakapan Penerjemah sekarang mengatur titik akhir layanan dengan benar saat menggunakan instans speechConfig yang dibuat menggunakan SpeechConfig.fromEndpoint()

Sampel

Sampel yang ditambahkan memperlihatkan cara menggunakan Ucapan Tersemat
Menambahkan sampel Ucapan ke teks untuk MAUI

Lihat Repositori sampel Speech SDK.

Speech SDK 1.24.2: Rilis November 2022

Fitur baru

Tidak ada fitur baru, hanya perbaikan mesin yang disematkan untuk mendukung file model baru.

Perbaikan bug

Semua bahasa pemrograman
- Memperbaiki masalah dengan enkripsi model pengenalan ucapan yang disematkan.

Speech SDK 1.24.1: Rilis November 2022

Fitur baru

Paket yang diterbitkan untuk pratinjau Ucapan Tersemat. Lihat https://aka.ms/embedded-speech untuk informasi lebih lanjut.

Perbaikan bug

Semua bahasa pemrograman
- Memperbaiki crash TTS yang disematkan saat font suara tidak didukung
- Memperbaiki stopSpeaking() tidak dapat menghentikan pemutaran di Linux (#1686)
JavaScript SDK
- Memperbaiki regresi dalam cara transcriber percakapan memerah audio.
Java
- File POM dan Javadocs yang dipublikasikan untuk sementara ke Maven Central untuk mengaktifkan alur dokumen untuk memperbarui dokumen referensi online.
Python
- Perbaiki regresi di mana Python speak_text(ssml) mengembalikan kekosongan.

Speech SDK 1.24.0: Rilis Oktober 2022

Fitur baru

Semua bahasa pemrograman: AMR-WB (16khz) ditambahkan ke daftar format output audio Teks ke ucapan yang didukung
Python: Paket ditambahkan untuk Linux ARM64 untuk distribusi Linux yang didukung.
C#/C++/Java/Python: Dukungan ditambahkan untuk streaming langsung ALAW & MULAW ke layanan ucapan (selain aliran PCM yang ada) menggunakan AudioStreamWaveFormat.
C# MAUI: Paket NuGet diperbarui untuk mendukung target Android untuk pengembang .NET MAUI (Masalah pelanggan)
Mac: Menambahkan XCframework terpisah untuk Mac, yang tidak berisi biner iOS apa pun. Ini menawarkan opsi untuk pengembang yang hanya membutuhkan biner Mac menggunakan paket XCframework yang lebih kecil.
Microsoft Audio Stack (MAS):
- Ketika sudut pembentukan sinar ditentukan, suara yang berasal dari luar rentang yang ditentukan akan ditekan dengan lebih baik.
- Sekitar 70% pengurangan libMicrosoft.CognitiveServices.Speech.extension.mas.so ukuran untuk Linux ARM32 dan Linux ARM64.
Pengenalan Niat menggunakan pencocokan pola:
- Menambahkan dukungan orthografi untuk bahasa fr, , de, esjp
- Menambahkan dukungan bilangan bulat bawaan untuk bahasa es.

Perbaikan bug

iOS: memperbaiki kesalahan sintesis ucapan pada iOS 16 yang disebabkan oleh kegagalan decoding audio terkompresi (Masalah Pelanggan).
JavaScript:
- Perbaiki token autentikasi tidak berfungsi saat mendapatkan daftar suara sintesis ucapan (Masalah pelanggan).
- Gunakan URL data untuk pemuatan pekerja (Masalah pelanggan).
- Buat worklet prosesor audio hanya ketika AudioWorklet didukung di browser (Masalah pelanggan). Ini adalah kontribusi komunitas oleh William Wong. Terima kasih William!
- Perbaiki panggilan balik yang dikenali saat respons connectionMessage LUIS kosong (Masalah pelanggan).
- Atur batas waktu segmentasi ucapan dengan benar.
Pengenalan Niat menggunakan pencocokan pola:
- Karakter non-json di dalam model sekarang akan dimuat dengan benar.
- Perbaiki masalah gantung saat recognizeOnceAsync(text) dipanggil selama pengenalan berkelanjutan.

Speech SDK 1.23.0: Rilis Juli 2022

Fitur baru

C#, C++, Java: Menambahkan dukungan untuk bahasa zh-cn dan zh-hk dalam Pengenalan Niat dengan Pencocokan Pola.
C#: Menambahkan dukungan untuk AnyCPUbuild .NET Framework

Perbaikan bug

Android: Memperbaiki kerentanan OpenSSL CVE-2022-2068 dengan memperbarui OpenSSL ke 1.1.1q
Python: Memperbaiki kerusakan saat menggunakan PushAudioInputStream
iOS: Memperbaiki "EXC_BAD_ACCESS: Mencoba mendereferensi pointer null" seperti yang dilaporkan di iOS (masalah GitHub)

Speech SDK 1.22.0: Rilis Juni 2022

Fitur baru

Java: API IntentRecognitionResult untuk getEntities(), applyLanguageModels(), dan recognizeOnceAsync(text) ditambahkan untuk mendukung mesin "pencocokan pola sederhana".
Unity: Menambahkan dukungan untuk Mac M1 (Apple Silicon) untuk paket Unity (masalah GitHub)
C#: Menambahkan dukungan untuk x86_64 untuk Xamarin Android (masalah GitHub)
C#: Versi minimum .NET framework diperbarui ke v4.6.2 untuk paket SDK C# karena v4.6.1 telah dihentikan (lihat Kebijakan Siklus Hidup Komponen Microsoft .NET Framework)
Linux: Menambahkan dukungan untuk Debian 11 dan Ubuntu 22.04 LTS. Ubuntu 22.04 LTS memerlukan penginstalan manual libssl1.1 baik sebagai paket biner dari sini (misalnya, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb atau yang lebih baru untuk x64), atau dengan mengkompilasi dari sumber.

Perbaikan bug

UWP: Dependensi OpenSSL dihapus dari pustaka UWP dan diganti dengan websocket WinRT dan API HTTP untuk memenuhi kepatuhan keamanan dan jejak biner yang lebih kecil.
Mac: Memperbaiki masalah "Modul MicrosoftCognitiveServicesSpeech Tidak Ditemukan" saat menggunakan proyek Swift yang menargetkan platform macOS
Windows, Mac: Memperbaiki masalah khusus platform di mana sumber audio yang dikonfigurasi melalui properti untuk melakukan streaming pada tingkat real time terkadang tertinggal dan akhirnya melebihi kapasitas

Sampel (GitHub)

C#: Sampel kerangka kerja .NET diperbarui untuk menggunakan v4.6.2
Unity: Sampel asisten virtual diperbaiki untuk Android dan UWP
Unity: Sampel Unity diperbarui untuk versi Unity 2020 LTS

Speech SDK 1.21.0: Rilis April 2022

Fitur baru

Java & JavaScript: Menambahkan dukungan untuk Identifikasi Bahasa Berkelanjutan saat menggunakan objek SpeechRecognizer
JavaScript: Menambahkan Diagnostics API untuk mengaktifkan tingkat pengelogan konsol dan (khusus Simpul) pengelogan file, untuk membantu Microsoft memecahkan masalah yang dilaporkan pelanggan
Python: Menambahkan dukungan untuk Transkripsi Percakapan
Go: Menambahkan dukungan untuk Pengenalan Penutur
C++ & C#: Menambahkan dukungan untuk sekelompok kata yang diperlukan di Intent Recognizer (pencocokan pola sederhana). Misalnya: "(set|start|begin) a timer" di mana "set", "start" atau "begin" harus ada untuk niat yang akan dikenali.
Semua bahasa pemrograman, Sintesis Ucapan: Menambahkan properti durasi dalam peristiwa batas kata. Menambahkan dukungan untuk batas tanda baca dan batas kalimat
Objective-C/Swift/Java: Menambahkan hasil tingkat kata pada objek hasil Penilaian Pengucapan (mirip dengan C#). Aplikasi tidak perlu lagi mengurai string hasil JSON untuk mendapatkan informasi tingkat kata (masalah GitHub)
Platform iOS: Menambahkan dukungan eksperimental untuk arsitektur ARMv7

Perbaikan bug

Platform iOS: Perbaiki untuk memungkinkan pembangunan untuk target "Perangkat iOS apa pun", saat menggunakan CocoaPod (masalah GitHub)
Platform Android: Versi OpenSSL telah diperbarui ke 1.1.1n untuk memperbaiki kerentanan keamanan CVE-2022-0778
JavaScript: Memperbaiki masalah saat header wav tidak diperbarui dengan ukuran file (masalah GitHub)
JavaScript: Memperbaiki masalah desinkronissi ID permintaan yang melanggar skenario terjemahan (masalah GitHub)
JavaScript: Memperbaiki masalah saat membuat instans SpeakerAudioDestination tanpa aliran (masalah GitHub)
C++: Memperbaiki header C++ untuk menghapus peringatan saat mengompilasi untuk C++17 atau yang lebih baru

GitHub Sampel

Sampel Java baru untuk Pengenalan Ucapan dengan Identifikasi Bahasa
Sampel Python dan Java baru untuk Transkripsi Percakapan
Sampel Go baru untuk Pengenalan Penutur
Alat C++ dan C# baru untuk Windows yang menghitung semua perangkat pengambilan dan render audio, untuk menemukan ID Perangkat mereka. ID ini diperlukan oleh Speech SDK jika Anda berencana untuk mengambil audio dari, atau merender audio ke, perangkat non-default.

Speech SDK 1.20.0: Rilis Januari 2022

Fitur baru

Objective-C, Swift, dan Python: Menambahkan dukungan untuk DialogServiceConnector, yang digunakan untuk skenario Voice-Assistant.
Python: Dukungan untuk Python 3.10 ditambahkan. Dukungan untuk Python 3.6 telah dihapus, per akhir masa pakai Python untuk 3.6.
Unity: Speech SDK sekarang didukung untuk aplikasi Unity di Linux.
C++, C#: IntentRecognizer menggunakan pencocokan pola sekarang didukung di C#. Selain itu, skenario dengan entitas kustom, grup opsional, dan peran entitas sekarang didukung dalam C ++ dan C#.
C++, C#: Diagnostik yang ditingkatkan melacak pencatatan menggunakan kelas baru FileLogger, MemoryLogger, dan EventLogger. Log SDK adalah alat penting bagi Microsoft untuk mendiagnosis masalah yang dilaporkan pelanggan. Kelas-kelas baru ini memudahkan pelanggan untuk mengintegrasikan log Speech SDK ke dalam sistem pengelogan mereka sendiri.
Semua bahasa pemrograman: PronunciationAssessmentConfig sekarang memiliki properti untuk mengatur alfabet fonem yang diinginkan (IPA atau SAPI) dan N-Best Phoneme Count (menghindari kebutuhan untuk menulis konfigurasi JSON sesuai GitHub masalah 1284). Selain itu, output level suku kata sekarang didukung.
Android, iOS, dan macOS (semua bahasa pemrograman): GStreamer tidak lagi diperlukan untuk mendukung jaringan bandwidth terbatas. SpeechSynthesizer sekarang menggunakan kemampuan decoding audio sistem operasi untuk mendekode audio terkompresi yang dialirkan dari layanan teks ke ucapan.
Semua bahasa pemrograman: SpeechSynthesizer sekarang mendukung tiga format Opus keluaran mentah baru (tanpa kontainer), yang banyak digunakan dalam skenario streaming langsung.
JavaScript: Menambahkan getVoicesAsync() API ke SpeechSynthesizer untuk mengambil daftar suara sintesis yang didukung (GitHub masalah 1350)
JavaScript: Menambahkan API getWaveFormat() ke AudioStreamFormat untuk mendukung format gelombang non-PCM (GitHub masalah 452)
JavaScript: Menambahkan volume getter/setter dan mute()/unmute() API ke SpeakerAudioDestination (GitHub issue 463)

Perbaikan bug

C++, C#, Java, JavaScript, Objective-C, dan Swift: Perbaiki untuk menghapus penundaan 10 detik sambil menghentikan pengenalan ucapan yang menggunakan PushAudioInputStream. Ini untuk kasus di mana tidak ada audio baru yang didorong setelah StopContinuousRecognition dipanggil (GitHub masalah 1318, 331)
Unity di Android dan UWP: File meta Unity diperbaiki untuk UWP, Android ARM64, dan Subsistem Windows untuk Android (WSA) ARM64 (edisi GitHub 1360)
iOS: Mengompilasi aplikasi Speech SDK Anda di Perangkat iOS apa pun saat menggunakan CocoaPods sekarang sudah diperbaiki (masalah GitHub 1320)
iOS: Ketika SpeechSynthesizer dikonfigurasi untuk mengeluarkan audio langsung ke speaker, pemutaran berhenti di awal dalam kondisi langka. Ini sudah diperbaiki.
JavaScript: Gunakan fallback prosesor skrip untuk input mikrofon jika tidak ada worklet audio yang ditemukan (GitHub masalah 455)
JavaScript: Menambahkan protokol ke agen untuk mengurangi bug yang ditemukan dengan integrasi Sentry (GitHub masalah 465)

GitHub Sampel

Sampel C++, C#, Python, dan Java menunjukkan cara mendapatkan hasil pengenalan terperinci. Rinciannya termasuk hasil pengenalan alternatif, skor kepercayaan, bentuk Leksikal, bentuk normalisasi, bentuk Normalisasi Bertopeng, dengan waktu tingkat kata untuk masing-masing.
Sampel iOS ditambahkan menggunakan AVFoundation sebagai sumber audio eksternal.
Sampel Java ditambahkan untuk menunjukkan cara mendapatkan format SRT (SubRip Text) menggunakan peristiwa WordBoundary.
Sampel Android untuk Penilaian Pengucapan.
C++, C# menampilkan penggunaan kelas Pencatatan Diagnostik baru.

SDK Ucapan 1.19.0: Rilis November 2021

Sorotan

Layanan Pengenalan Pembicara kini tersedia secara umum (GA). API Speech SDK tersedia di C ++, C#, Java dan JavaScript. Dengan Pengenalan Pembicara Anda dapat secara akurat memverifikasi dan mengidentifikasi pembicara dengan karakteristik suara mereka yang unik. Untuk informasi selengkapnya tentang topik ini, lihat dokumentasi.
Kami sudah tidak lagi memberikan dukungan untuk Ubuntu 16.04 bersama dengan Azure DevOps dan GitHub. Ubuntu 16.04 sudah tidak lagi mendapatkan dukungan pada bulan April 2021. Migrasikan alur kerja Ubuntu 16.04 Anda ke Ubuntu 18.04 atau yang lebih baru.
Penautan OpenSSL di biner Linux berubah menjadi dinamis. Ukuran biner Linux telah berkurang sekitar 50%.
Dukungan silikon untuk Mac M1 berbasis ARM telah ditambahkan.

Fitur baru

C++/C#/Java: API baru telah ditambahkan guna mengaktifkan dukungan pemrosesan audio untuk input ucapan dengan Microsoft Audio Stack. Dokumentasi di sini.
C ++ : API baru untuk pengenalan niat untuk memfasilitasi pencocokan pola yang lebih andal. Hal ini termasuk entitas Daftar dan Integer yang telah dibuat sebelumnya serta dukungan untuk mengelompokkan niat dan entitas sebagai model (Dokumentasi, pembaruan, dan sampel sedang dalam tahap pengembangan dan akan diterbitkan dalam waktu dekat).
Mac: Dukungan untuk silikon berbasis ARM64 (M1) untuk paket CocoaPod, Python, Java, dan NuGet yang terkait dengan edisi GitHub 1244.
iOS/Mac: Biner iOS dan macOS sekarang dikemas ke dalam xcframework berhubungan dengan GitHub mengeluarkan 919.
iOS/Mac: Dukungan untuk Mac catalyst berhubungan dengan GitHub mengeluarkan 1171.
Linux: Paket tar baru ditambahkan untuk CentOS7 Tentang SDK Ucapan. Paket .tar Linux sekarang berisi pustaka khusus untuk RHEL / CentOS 7 di lib/centos7-x64. Pustaka Speech SDK di lib/x64 masih berlaku untuk semua distribusi Linux x64 lain yang didukung (termasuk RHEL/CentOS 8) dan tidak akan berfungsi pada RHEL/CentOS 7.
JavaScript: API VoiceProfile & SpeakerRecognizer dibuat asinkron/dapat ditunggu.
JavaScript: Dukungan ditambahkan untuk wilayah Azure pemerintah AS.
Windows: Dukungan ditambahkan untuk pemutaran di Platform Windows Universal (UWP).

Perbaikan bug

Android: Pembaruan keamanan OpenSSL (diperbarui ke versi 1.1.1l) untuk paket Android.
Python: Menyelesaikan bug saat memilih perangkat speaker pada Python gagal.
Core: Secara otomatis menghubungkan kembali saat upaya koneksi gagal.
iOS: Kompresi audio dinonaktifkan pada paket iOS karena ketidakstabilan dan masalah pembuatan bitcode saat menggunakan GStreamer. Detailnya dapat dilihat di GitHub edisi 1209.

GitHub Sampel

Mac/iOS: Sampel dan mulai cepat yang diperbarui untuk menggunakan paket xcframework.
.NET: Sampel diperbarui untuk menggunakan versi .NET core 3.1.
JavaScript: Menambahkan sampel untuk Asisten Voice.

Ucapan SDK 1.18.0: Rilis Juli 2021

Catatan: Mulai gunakan Speech SDK di sini.

Ringkasan sorotan

Ubuntu 16.04 mencapai akhir masa penggunaan pada April 2021. Dengan Azure DevOps dan GitHub, kami akan menghilangkan dukungan untuk 16.04 pada Bulan September 2021. Migrasikan alur kerja ubuntu-16.04 ke ubuntu-18.04 atau yang lebih baru sebelum itu.

Fitur baru

C++ : Pencocokan Pola Bahasa Sederhana dengan Pengenal Niat kini membuat penerapan skenario pengenalan niat sederhana lebih mudah.
C++/C#/Java: Kami menambahkan API baru, GetActivationPhrasesAsync() ke kelas VoiceProfileClient guna menerima daftar frasa aktivasi valid di fase pendaftaran pengenal pembicara untuk skenario pengenalan independen.
- Penting: Fitur Pengenal Pembicara sedang dalam Pratinjau. Semua profil suara yang dibuat di Pratinjau akan dihentikan 90 hari setelah fitur Pengenalan Pembicara dipindahkan dari Pratinjau ke Ketersediaan Umum. Pada saat itu, profil suara Pratinjau akan berhenti berfungsi.
Python: Menambahkan dukungan untuk Identifikasi Bahasa (LID) berkelanjutan pada objek SpeechRecognizer dan TranslationRecognizer yang ada.
Python: Menambahkan objek Python baru bernama SourceLanguageRecognizer untuk melakukan LID satu kali atau berkelanjutan (tanpa pengenalan atau terjemahan).
JavaScript: getActivationPhrasesAsync API ditambahkan ke kelas VoiceProfileClient guna menerima daftar frasa aktivasi yang valid di fase pendaftaran pengenalan pembicara untuk skenario pengenalan independen.
JavaScriptVoiceProfileClientenrollProfileAsync API kini asinkron yang dapat ditunggu. Lihat kode identifikasi independen ini, misalnya, penggunaan.

Perbaikan

Java: Dukungan AutoCloseable ditambahkan ke banyak objek Java. Model try-with-resources kini didukung untuk melepaskan sumber daya. Lihat sampel ini yang menggunakan try-with-resources. Lihat juga tutorial dokumentasi Oracle Java untuk Statemen try-with-resources untuk mempelajari pola ini.
Jejak disk telah berkurang secara signifikan untuk banyak platform dan arsitektur. Contoh untuk biner Microsoft.CognitiveServices.Speech.core: x64 Linux berukuran 475 KB lebih kecil (pengurangan 8,0%); ARM64 Windows UWP berukuran 464 KB lebih kecil (pengurangan 11,5%); x86 Windows berukuran 343 KB lebih kecil (pengurangan 17,5%); dan x64 Windows berukuran 451 KB lebih kecil (pengurangan 19,4%).

Perbaikan bug

Java: Kesalahan sintesis tetap saat teks sintesis berisi karakter pengganti. Lihat detailnya di sini.
JavaScript: Pemrosesan audio mikrofon browser kini menggunakan AudioWorkletNode dan bukan ScriptProcessorNode yang tidak digunakan lagi. Lihat detailnya di sini.
JavaScript: Menjaga percakapan tetap hidup dan dengan benar selama skenario terjemahan percakapan yang berjalan lama. Lihat detailnya di sini.
JavaScript: Memperbaiki masalah dengan pengenal yang tersambung kembali ke aliran media dalam pengenal berkelanjutan. Lihat detailnya di sini.
JavaScript: Memperbaiki masalah dengan pengenal yang tersambung kembali ke pushStream di pengenal berkelanjutan. Lihat detailnya di sini.
JavaScript: Mengoreksi perhitungan offset tingkat kata dalam hasil pengenalan yang rinci. Lihat detailnya di sini.

Sampel

Sampel mulai cepat Java diperbarui di sini.
Sampel Pengenalan Pembicara JavaScript diperbarui untuk menunjukkan penggunaan baru enrollProfileAsync(). Lihat sampel di sini.

Speech SDK 1.17.0: rilis Mei 2021

Catatan

Mulai gunakan Speech SDK di sini.

Ringkasan sorotan

Jejak yang lebih kecil - kami terus mengurangi memori dan jejak disk Speech SDK dan komponennya.
API identifikasi bahasa mandiri baru memungkinkan Anda mengenali bahasa apa yang sedang diucapkan.
Kembangkan aplikasi realitas campuran dan game yang didukung ucapan menggunakan Unity di macOS.
Anda sekarang dapat menggunakan Teks untuk ucapan selain pengenalan ucapan dari bahasa pemrograman Go.
Beberapa perbaikan Bug untuk mengatasi masalah ANDA, pelanggan kami yang berharga, telah ditandai di GitHub! TERIMA KASIH! Terus berikan umpan balik!

Fitur baru

C++/C#: Identifikasi Bahasa Mandiri Di Awal dan Berkelanjutan yang baru melalui API SourceLanguageRecognizer. Jika Anda hanya ingin mendeteksi bahasa yang diucapkan dalam konten audio, ini adalah API untuk melakukannya. Lihat detail untuk C ++ dan C#.
C++/C#: Pengenalan Ucapan dan Pengenalan Terjemahan sekarang mendukung Identifikasi Bahasa awal dan berkelanjutan sehingga Anda dapat menentukan bahasa mana yang diucapkan secara terprogram sebelum ditranskripsikan atau diterjemahkan. Lihat dokumentasi di sini untuk Pengenalan Ucapan dan di sini untuk Terjemahan Ucapan.
C#: Menambahkan dukungan Unity ke macOS (x64). Ini membuka kasus penggunaan pengenalan ucapan dan sintesis ucapan dalam realitas campuran dan game!
Go: Kami menambahkan dukungan untuk teks sintesis ucapan ke ucapan ke bahasa pemrograman Go untuk membuat sintesis ucapan tersedia dalam kasus penggunaan yang lebih banyak lagi. Lihat mulai cepat kami atau dokumentasi referensi kami.
C++/C#/Java/Python/Objective-C/Go: Synthesizer ucapan sekarang mendukung objek connection. Ini membantu Anda mengelola dan memantau koneksi ke layanan ucapan, dan sangat membantu untuk melakukan pra-sambungan untuk mengurangi latensi. Lihat dokumentasi di sini.
C++/C#/Java/Python/Objective-C/Go: Kami sekarang mengekspos latensi dan waktu underrun di SpeechSynthesisResult untuk membantu Anda memantau dan mendiagnosis masalah latensi sintesis ucapan. Lihat detail untuk C++, C#, Java, Python, Objective-C, dan Go.
C++/C#/Java/Python/Objective-C: Teks ke ucapan sekarang menggunakan suara neural secara default saat Anda tidak menentukan suara yang akan digunakan. Ini memberi Anda output keakuratan yang lebih tinggi secara default, tetapi juga meningkatkan harga default. Anda dapat menentukan salah satu dari lebih dari 70 suara standar kami atau lebih dari 130 suara neural untuk mengubah default.
C++/C#/Java/Python/Objective-C/Go: Kami menambahkan properti Jenis Kelamin ke info suara sintesis untuk memudahkan memilih suara berdasarkan jenis kelamin. Ini mengatasi masalah GitHub #1055.
C++, C#, Java, JavaScript: Kami sekarang mendukung retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync, dan getAllProfilesAsync() serta di Pengenalan Pembicara untuk memudahkan manajemen pengguna semua profil suara untuk akun tertentu. Lihat dokumentasi untuk C++, C#, Java, JavaScript. Ini mengatasi masalah GitHub #338.
JavaScript: Kami menambahkan coba lagi untuk kegagalan koneksi yang akan membuat aplikasi ucapan berbasis JavaScript Anda lebih kuat.

Penyempurnaan

Biner Linux dan Android Speech SDK telah diperbarui untuk menggunakan OpenSSL versi terbaru (1.1.1k)
Peningkatan Ukuran Kode:
- Language Understanding sekarang dibagi menjadi pustaka "lu" terpisah.
- Ukuran biner inti Windows x64 berkurang sebesar 14,4%.
- Ukuran biner inti Windows ARM64 berkurang sebesar 13,7%.
- komponen lain juga berkurang ukurannya.

Perbaikan bug

Semua: Memperbaiki masalah GitHub #842 untuk ServiceTimeout. Anda sekarang dapat mentranskripsikan file audio panjang menggunakan Speech SDK tanpa koneksi ke layanan yang berakhir dengan kesalahan ini. Namun, kami masih menyarankan Anda menggunakan transkripsi batch untuk file panjang.
C# : Memperbaiki masalah GitHub #947 ketika tidak ada input ucapan yang dapat meninggalkan aplikasi Anda dalam status buruk.
Java: Memperbaiki Masalah GitHub #997 ketika Speech SDK untuk Java 1.16 mengalami crash saat menggunakan DialogServiceConnector tanpa koneksi jaringan atau kunci langganan yang tidak valid.
Memperbaiki crash saat pengenalan ucapan berhenti mendadak (misalnya menggunakan CTRL+C pada aplikasi konsol).
Java: Menambahkan perbaikan untuk menghapus file sementara di Windows saat menggunakan Speech SDK untuk Java.
Java: Memperbaiki masalah GitHub #994 yang pemanggilan DialogServiceConnector.stopListeningAsync dapat mengakibatkan kesalahan.
Java: Memperbaiki masalah pelanggan di mulai cepat asisten virtual.
JavaScript: Memperbaiki masalah GitHub #366 di mana ConversationTranslator melemparkan kesalahan 'this.cancelSpeech bukan fungsi'.
JavaScript: Memperbaiki masalah GitHub #298 ketika sampel 'Dapatkan hasil sebagai aliran dalam memori' diputar dengan suara keras.
JavaScript: Memperbaiki masalah GitHub #350 di mana panggilan AudioConfig dapat mengakibatkan 'ReferenceError: MediaStream tidak ditentukan'.
JavaScript: Memperbaiki peringatan UnhandledPromiseRejection di Node.js untuk sesi yang berjalan lama.

Sampel

Memperbaiki dokumentasi sampel Unity untuk macOS di sini.
Sampel React Native untuk layanan pengenalan Ucapan Azure AI sekarang tersedia di sini.

Speech SDK 1.16.0: Rilis Maret 2021

Catatan

Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.

Fitur baru

C++/C#/Java/Python: Pindah ke versi terbaru GStreamer (1.18.3) untuk menambahkan dukungan untuk mentranskripsikan format media apa pun di Windows, Linux, dan Android. Lihat dokumentasi di sini.
C++/C#/Java/Objective-C/Python: Menambahkan dukungan untuk mendekode TTS/audio sintesis terkompresi ke SDK. Jika Anda mengatur format audio output ke PCM dan GStreamer tersedia di sistem Anda, SDK akan secara otomatis meminta audio terkompresi dari layanan untuk menyimpan bandwidth dan mendekode audio pada klien. Anda dapat mengatur SpeechServiceConnection_SynthEnableCompressedAudioTransmission ke false menonaktifkan fitur ini. Detail untuk C++, C#, Java, Objective-C, Python.
JavaScript: Pengguna Node.js sekarang dapat menggunakan AudioConfig.fromWavFileInput API. Ini mengatasi masalah GitHub #252.
C++/C#/Java/Objective-C/Python: Menambahkan metode GetVoicesAsync() bagi TTS untuk mengembalikan semua suara sintesis yang tersedia. Detail untuk C++, C#, Java, Objective-C, dan Python.
C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan peristiwa VisemeReceived untuk sintesis TTS/ucapan untuk mengembalikan animasi viseme sinkron. Lihat dokumentasi di sini.
C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan peristiwa BookmarkReached untuk TTS. Anda dapat mengatur marka buku di SSML input dan mendapatkan offset audio untuk setiap marka buku. Lihat dokumentasi di sini.
Java: Menambahkan dukungan untuk API Pengenalan Pembicara. Lihat detailnya di sini.
C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan dua format audio output baru dengan kontainer WebM untuk TTS (Webm16Khz16BitMonoOpus dan Webm24Khz16BitMonoOpus). Ini adalah format yang lebih baik untuk streaming audio dengan codec Opus. Detail untuk C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: Menambahkan dukungan untuk mengambil profil suara untuk skenario Pengenalan Pembicara. Detail untuk C++, C#, dan Java.
C++/C#/Java/Objective-C/Python: Menambahkan dukungan untuk pustaka bersama terpisah untuk mikrofon audio dan kontrol pembicara. Ini memungkinkan pengembang untuk menggunakan SDK di lingkungan yang tidak memerlukan dependensi pustaka audio.
Objective-C/Swift: Menambahkan dukungan untuk kerangka modul dengan header payung. Hal ini memungkinkan pengembang untuk mengimpor Speech SDK sebagai modul di aplikasi iOS/Mac Objective-C/Swift. Ini mengatasi masalah GitHub #452.
Python: Menambahkan dukungan untuk Python 3.9 dan menghapus dukungan untuk Python 3.5 per masa akhir Python untuk 3.5.

Masalah yang diketahui

C++/C#/Java: DialogServiceConnector tidak dapat menggunakan CustomCommandsConfig untuk mengakses aplikasi Perintah Kustom dan sebaliknya akan mengalami kesalahan koneksi. Ini dapat dikerjakan dengan menambahkan ID aplikasi Anda secara manual ke permintaan dengan config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Perilaku yang diharapkan dari CustomCommandsConfig akan dipulihkan pada rilis berikutnya.

Penyempurnaan

Sebagai bagian dari upaya multi-rilis kami untuk mengurangi penggunaan memori dan jejak disk Speech SDK, biner Android sekarang 3% hingga 5% lebih kecil.
Peningkatan akurasi, keterbacaan, dan lihat juga bagian dokumentasi referensi C# kami di sini.

Perbaikan bug

JavaScript: Header file WAV besar sekarang diurai dengan benar (meningkatkan potongan header menjadi 512 byte). Ini mengatasi masalah GitHub #962.
JavaScript: Memperbaiki Masalah waktu mikrofon jika aliran mikrofon berakhir sebelum menghentukan pengenalan, mengatasi masalah dengan Pengenalan Ucapan yang tidak berfungsi di Firefox.
JavaScript: Kami sekarang mengatasi janji inisialisasi dengan benar ketika browser memaksa mikrofon mati sebelum turnOn selesai.
JavaScript: Kami mengganti dependensi URL dengan url-parse. Ini mengatasi masalah GitHub #264.
Android: Panggilan balik tetap tidak berfungsi saat minifyEnabled diatur ke true.
C++/C#/Java/Objective-C/Python: TCP_NODELAY akan diatur dengan benar ke IO soket yang mendasarinya agar TTS mengurangi latensi.
C++/C#/Java/Python/Objective-C/Go: Memperbaiki crash sesekali ketika pengenal dihapus tepat setelah memulai pengenalan.
C++/C#/Java: Memperbaiki crash sesekali dalam penghapusan pengenal pembicara.

Sampel

JavaScript: Sampel browser tidak lagi memerlukan unduhan file pustaka JavaScript terpisah.

Speech SDK 1.15.0: Rilis Januari 2021

Catatan

Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.

Ringkasan sorotan

Memori dan jejak disk yang lebih kecil menjadikan SDK lebih efisien.
Format output keakuratan yang lebih tinggi tersedia untuk pratinjau privat suara neural kustom.
Intent Recognizer sekarang bisa mendapatkan pengembalian lebih dari niat teratas, memberi Anda kemampuan untuk membuat penilaian terpisah tentang tujuan pelanggan Anda.
Asisten suara atau bot kini lebih mudah disiapkan, dan Anda dapat langsung membuatnya berhenti mendengarkan, dan menjalankan kontrol yang lebih ketat terhadap cara kesalahan direspons.
Meningkatkan performa perangkat melalui membuat kompresi opsional.
Gunakan Speech SDK di Windows ARM/ARM64.
Meningkatkan penelusuran kesalahan tingkat rendah.
Fitur Penilaian Pengucapan kini lebih banyak tersedia.
Beberapa perbaikan Bug untuk mengatasi masalah ANDA, pelanggan kami yang berharga, telah ditandai di GitHub! TERIMA KASIH! Terus berikan umpan balik!

Penyempurnaan

Speech SDK sekarang lebih efisien dan ringan. Kami telah memulai upaya multi rilis untuk mengurangi penggunaan memori dan jejak disk Speech SDK. Sebagai langkah pertama kami membuat pengurangan ukuran file yang signifikan di pustaka bersama di sebagian besar platform. Dibandingkan dengan rilis 1.14:
- Pustaka Windows yang kompatibel dengan UWP 64-bit sekitar 30% lebih kecil.
- Pustaka Windows 32-bit belum melihat peningkatan ukuran.
- Pustaka Linux 20-25% lebih kecil.
- Pustaka Android 3-5% lebih kecil.

Fitur baru

Semua: Format output 48 KHz baru tersedia untuk pratinjau privat suara neural kustom melalui API sintesis ucapan TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Semua: Suara kustom juga lebih mudah digunakan. Menambahkan dukungan untuk mengatur suara kustom melalui EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Sebelum perubahan ini, pengguna suara kustom perlu mengatur URL titik akhir melalui metode FromEndpoint. Sekarang pelanggan dapat menggunakan metode FromSubscription seperti suara bawaan, lalu memberikan ID penyebaran dengan mengatur EndpointId. Ini menyederhanakan pengaturan suara kustom.
C++/C#/Java/Objective-C/Python: Dapatkan lebih dari niat teratas dari IntentRecognizer. Sekarang mendukung konfigurasi hasil JSON yang berisi semua maksud dan tidak hanya niat penilaian teratas melalui metode LanguageUnderstandingModel FromEndpoint dengan menggunakan verbose=true parameter uri. Ini mengatasi masalah GitHub #880. Lihat dokumentasi yang diperbarui di sini.
C++/C#/Java: Buat asisten suara atau bot Anda segera berhenti mendengarkan. DialogServiceConnector (C++, C#, Java) sekarang memiliki metode StopListeningAsync() untuk menyertai ListenOnceAsync(). Ini akan segera menghentikan pengambilan audio dan dengan baik menunggu hasil, membuatnya sempurna untuk digunakan dengan skenario tekan tombol "berhenti sekarang".
C++/C#/Java/JavaScript: Buat asisten suara atau bot Anda bereaksi lebih baik terhadap kesalahan sistem yang mendasarinya. DialogServiceConnector (C++, C#, Java, JavaScript) sekarang memiliki handler peristiwa TurnStatusReceived baru. Peristiwa opsional ini sesuai dengan setiap resolusi ITurnContext pada Bot dan akan melaporkan kegagalan eksekusi saat terjadi, misalnya sebagai akibat dari pengecualian, waktu habis, atau penurunan jaringan yang tidak tertangani antara Direct Line Speech dan bot. TurnStatusReceived membuatnya lebih mudah untuk merespons kondisi kegagalan. Misalnya, jika bot terlalu lama pada kueri database ujung belakang (misalnya mencari produk), TurnStatusReceived memungkinkan klien mengetahui untuk memerintah ulang dengan "maaf, saya tidak terlalu mengerti, bisakah Anda mencoba lagi" atau sesuatu yang serupa.
C++/C# : Gunakan Speech SDK di lebih banyak platform. Paket Speech SDK NuGet sekarang mendukung biner asli desktop Windows ARM/ARM64 (UWP sudah didukung) untuk membuat Speech SDK lebih berguna di lebih banyak jenis mesin.
Java: DialogServiceConnector sekarang memiliki metode setSpeechActivityTemplate() yang secara tidak sengaja dikecualikan dari bahasa sebelumnya. Ini setara dengan pengaturan properti Conversation_Speech_Activity_Template dan akan meminta semua aktivitas Bot Framework di masa depan yang berasal dari layanan Direct Line Speech menggabungkan konten yang disediakan ke dalam muatan JSON mereka.
Java: Meningkatkan penelusuran kesalahan tingkat rendah. Kelas Connection sekarang memiliki peristiwa MessageReceived, mirip dengan bahasa pemrograman lainnya (C++, C#). Peristiwa ini menyediakan akses tingkat rendah ke data masuk dari layanan dan dapat berguna untuk diagnostik dan debugging.
JavaScript: Penyiapan yang lebih mudah untuk Asisten Suara dan bot melalui BotFrameworkConfig, yang sekarang memiliki metode pabrik fromHost() dan fromEndpoint() yang menyederhanakan penggunaan lokasi layanan kustom versus pengaturan properti secara manual. Kami juga menstandarkan spesifikasi botId opsional untuk menggunakan bot non-default di seluruh pabrik konfigurasi.
JavaScript: Ditingkatkan pada performa perangkat melalui properti kontrol string tambahan untuk kompresi websocket. Untuk alasan performa, kami menonaktifkan kompresi websocket secara default. Ini dapat diaktifkan kembali untuk skenario bandwidth rendah. Lihat detail lanjut di sini. Ini mengatasi masalah GitHub #242.
JavaScript: Menambahkan dukungan untuk lPronunciation Assessment untuk memungkinkan evaluasi pengucapan ucapan. Lihat mulai cepat di sini.

Perbaikan bug

Semua (kecuali JavaScript): Memperbaiki regresi di versi 1.14, ketika terlalu banyak memori dialokasikan oleh pengenal.
C++ : Memperbaiki masalah kumpulan sampah dengan DialogServiceConnector, mengatasi masalah GitHub #794.
C# : Memperbaiki masalah dengan pematian alur yang menyebabkan objek diblokir selama sekitar satu detik saat dibuang.
C++/C#/Java: Memperbaiki pengecualian yang mencegah aplikasi menetapkan token otorisasi ucapan atau templat aktivitas lebih dari sekali pada DialogServiceConnector.
C++/C#/Java: Memperbaiki crash recognizer karena kondisi balapan di teardown.
JavaScript: DialogServiceConnector sebelumnya tidak memenuhi paramater botId opsional yang ditentukan di pabrik BotFrameworkConfig. Ini membuatnya perlu untuk mengatur parameter string kueri botId secara manual untuk menggunakan bot non-default. Bug telah diperbaiki dan nilai botId yang diberikan ke pabrik BotFrameworkConfig akan dipenuhi dan digunakan, termasuk fromHost() baru dan tambahan fromEndpoint(). Ini juga berlaku untuk parameter applicationId untuk CustomCommandsConfig.
JavaScript: Memperbaiki masalah GitHub #881, memungkinkan penggunaan kembali objek pengenal.
JavaScript: Memperbaiki masalah ketika SKD mengirim speech.config beberapa kali dalam satu sesi TTS, membuang-buang bandwidth.
JavaScript: Penanganan kesalahan yang disederhanakan pada otorisasi mikrofon, memungkinkan pesan yang lebih deskriptif bergelombang saat pengguna belum mengizinkan input mikrofon di browser mereka.
JavaScript: Memperbaiki masalah GitHub #249 ketika kesalahan jenis di ConversationTranslator dan ConversationTranscriber menyebabkan kesalahan kompilasi untuk pengguna TypeScript.
Objective-C: Memperbaiki masalah ketika build GStreamer gagal untuk iOS pada Xcode 11.4, mengatasi masalah GitHub #911.
Python: Memperbaiki GitHub #870, menghapus "DeprecationWarning: modul imp ditolak demi importlib".

Sampel

Sampel dari file untuk browser JavaScript sekarang menggunakan file untuk pengenalan ucapan. Ini mengatasi masalah GitHub #884.

Speech SDK 1.14.0: Rilis Oktober 2020

Catatan

Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh di sini.

Fitur baru

Linux: Menambahkan dukungan untuk Debian 10 dan Ubuntu 20.04 LTS.
Python/Objective-C: Menambahkan dukungan untuk KeywordRecognizer API. Dokumentasi akan tersedia di sini.
C++/Java/C# : Menambahkan dukungan untuk mengatur HttpHeader kunci/nilai apa pun melalui ServicePropertyChannel::HttpHeader.
JavaScript: Menambahkan dukungan untuk ConversationTranscriber API. Baca dokumentasi di sini.
C++/C# : Menambahkan metode AudioDataStream FromWavFileInput baru (untuk membaca file .WAV) di sini (C++) dan di sini (C#).
C++/C#/Java/Python/Objective-C/Swift: Menambahkan stopSpeakingAsync() metode untuk menghentikan teks ke sintesis ucapan. Baca Dokumentasi referensi di sini (C++), di sini (C#), di sini (Java), di sini (Python), dan di sini (Objective-C/Swift).
C#, C++, Java: Menambahkan fungsi FromDialogServiceConnector() ke kelas Connection yang dapat digunakan untuk memantau peristiwa koneksi dan melepas koneksi untuk DialogServiceConnector. Baca Dokumentasi referensi di sini (C#), di sini (C++), dan di sini (Java).
C++/C#/Java/Python/Objective-C/Swift: Menambahkan dukungan untuk Penilaian Pengucapan, yang mengevaluasi pengucapan ucapan dan memberikan umpan balik kepada pembicara tentang keakuratan dan kefasihan audio lisan. Baca dokumentasi di sini.

Breaking change

JavaScript: PullAudioOutputStream.read() memiliki perubahan jenis pengembalian dari Janji internal menjadi Janji JavaScript Asli.

Perbaikan bug

Semua: Memperbaiki regresi 1.13 SetServiceProperty ketika nilai dengan karakter khusus tertentu diabaikan.
C# : Memperbaiki sampel konsol Windows di Visual Studio 2019 yang gagal menemukan DL asli.
C# : Memperbaiki crash dengan manajemen memori jika aliran digunakan sebagai input KeywordRecognizer.
ObjectiveC/Swift: Memperbaiki crash dengan manajemen memori jika aliran digunakan sebagai input pengenal.
Windows: Memperbaiki masalah ko-eksistensi dengan BT HFP/A2DP di UWP.
JavaScript: Memperbaiki pemetaan ID sesi untuk meningkatkan pengelogan dan bantuan dalam korelasi debug/layanan internal.
JavaScript: Menambahkan perbaikan untuk DialogServiceConnector menonaktifkan ListenOnce panggilan setelah panggilan pertama dilakukan.
JavaScript: Memperbaiki masalah ketika output hasil hanya akan pernah "sederhana".
JavaScript: Memperbaiki masalah pengenalan berkelanjutan di Safari di macOS.
JavaScript: Mitigasi beban CPU untuk skenario throughput permintaan tinggi.
JavaScript: Mengizinkan akses ke detail hasil Pendaftaran Profil Suara.
JavaScript: Menambahkan perbaikan untuk pengenalan berkelanjutan di IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: Memperbaiki url yang salah untuk australiaeast dan brazilsouth di IntentRecognizer.
C++/C# : Menambahkan VoiceProfileType sebagai argumen saat membuat objek VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC: Memperbaiki potensi SPX_INVALID_ARG saat mencoba membuat AudioDataStream dari posisi tertentu.
IOS: Memperbaiki crash dengan pengenalan ucapan di Unity

Sampel

ObjectiveC: Menambahkan sampel untuk pengenalan kata kunci di sini.
C#/JavaScript: Menambahkan mulai cepat untuk transkripsi percakapan di sini (C#) dan di sini (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: Menambahkan sampel untuk Penilaian Pengucapan di sini
Xamarin: Memperbaiki mulai cepat ke templat Visual Studio terbaru di sini.

Masalah yang diketahui

Sertifikat DigiCert Global Root G2 tidak didukung secara default di HoloLens 2 dan Android 4.4 (KitKat) dan perlu ditambahkan ke sistem untuk membuat Speech SDK berfungsi. Sertifikat akan ditambahkan ke gambar OS HoloLens 2 dalam waktu dekat. Pelanggan Android 4.4 perlu menambahkan sertifikat yang diperbarui ke sistem.

Tes singkat COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!

Speech SDK 1.13.0: Rilis 2020-Juli

Catatan

Speech SDK on Windows bergantung pada Microsoft Visual C++ bersama yang Dapat Didistribusikan Ulang untuk Visual Studio 2015, 2017, dan 2019. Unduh dan instal dari sini.

Fitur baru

C# : Menambahkan dukungan untuk transkripsi percakapan asinkron. Lihat dokumentasi di sini.
JavaScript: Menambahkan dukungan Pengenalan Pembicara untuk browser dan Node.js.
JavaScript: Menambahkan dukungan untuk identifikasi bahasa/ID bahasa. Lihat dokumentasi di sini.
Objective-C: Menambahkan dukungan untuk percakapan multi-perangkat dan transkripsi percakapan.
Python: Menambahkan dukungan audio terkompresi untuk Python di Windows dan Linux. Lihat dokumentasi di sini.

Perbaikan bug

Semua: Memperbaiki masalah yang menyebabkan KeywordRecognizer tidak meneruskan streaming setelah pengenalan.
Semua: Memperbaiki masalah yang menyebabkan aliran yang diperoleh dari KeywordRecognitionResult tidak berisi kata kunci.
Semua: Memperbaiki masalah bahwa SendMessageAsync tidak benar-benar mengirim pesan melalui kabel setelah pengguna selesai menunggunya.
Semua: Memperbaiki crash di API Pengenalan Pembicara saat pengguna memanggil metode VoiceProfileClient:SpeakerRecEnrollProfileAsync beberapa kali dan tidak menunggu panggilan selesai.
Semua: Tetap aktifkan pengelogan file di kelas VoiceProfileClient dan SpeakerRecognizer.
JavaScript: Memperbaiki masalah dengan pembatasan saat browser diminimalkan.
JavaScript: Memperbaiki masalah dengan kebocoran memori di aliran.
JavaScript: Menambahkan caching untuk respons OCSP dari NodeJS.
Java: Memperbaiki masalah yang menyebabkan bidang BigInteger selalu mengembalikan 0.
iOS: Memperbaiki masalah penerbitan aplikasi berbasis Speech SDK di App Store iOS.

Sampel

C++ : Menambahkan kode sampel untuk Pengenalan Pembicara di sini.

Tes singkat COVID-19

Speech SDK 1.12.1: Rilis Juni 2020

Fitur baru

C#, C++: Pratinjau Pengenalan Pembicara: Fitur ini memungkinkan identifikasi pembicara (siapa yang berbicara?) dan verifikasi pembicara (apakah pembicara sesuai dengan yang diklaim?). Mulai dengan gambaran umum, baca artikel dasar-dasar Pengenalan Pembicara, atau dokumen referensi API.

Perbaikan bug

C#, C++: Perekaman mikrofon tetap tidak berfungsi di 1.12 di Pengenalan Pembicara.
JavaScript: Memperbaiki Teks ke ucapan di Firefox, dan Safari di macOS dan iOS.
Perbaiki untuk crash pelanggaran akses pemverifikasi aplikasi Windows pada transkripsi percakapan ketika menggunakan aliran delapan saluran.
Perbaiki untuk crash pelanggaran akses pemverifikasi aplikasi Windows pada terjemahan percakapan multi-perangkat.

Sampel

C#: Contoh kode untuk Pengenalan Pembicara.
C++: Contoh kode untuk Pengenalan Pembicara.
Java: Contoh kode untuk pengenalan niat di Android.

Tes singkat COVID-19

Speech SDK 1.12.0: Rilis Mei 2020

Fitur baru

Go: Dukungan bahasa Go Baru untuk Pengenalan Ucapan dan asisten suara kustom. Siapkan lingkungan pengembang Anda d sini. Untuk contoh kode, lihat bagian Sampel di bawah ini.
JavaScript: Menambahkan dukungan Browser untuk teks ke ucapan. Lihat dokumentasi di sini.
C++, C#, Java: Objek KeywordRecognizer baru dan API yang didukung di platform Windows, Android, Linux & iOS. Baca dokumentasi di sini. Untuk contoh kode, lihat bagian Sampel di bawah ini.
Java: Menambahkan percakapan multi-perangkat dengan dukungan terjemahan. Lihat dokumen referensi di sini.

Peningkatan & Optimisasi

JavaScript: Mengoptimalkan mikrofon browser yang meningkatkan akurasi pengenalan ucapan.
Java:Merefaktor pengikatan data menggunakan implementasi JNI langsung tanpa SWIG. Perubahan ini mengurangi 10x ukuran pengikatan untuk semua paket Java yang digunakan untuk Windows, Android, Linux, dan Mac serta memudahkan pengembangan lebih lanjut dari implementasi Speech SDK Java.
Linux: Memperbarui dokumentasi dukungan dengan catatan spesifik RHEL 7 terbaru.
Meningkatkan logika koneksi untuk upaya menyambungkan beberapa kali ketika terjadi kesalahan layanan dan jaringan.
Memperbarui halaman portal.azure.com Speech Quickstart untuk membantu pengembang mengambil langkah berikutnya dalam perjalanan Azure AI Speech.

Perbaikan bug

C#, Java: Memperbaiki masalah dengan memuat pustaka SDK di Linux ARM (baik 32 bit maupun 64 bit).
C#: Memperbaiki pembuangan eksplisit handel asli untuk objek TranslationRecognizer, IntentRecognizer, dan Connection.
C# : Memperbaiki manajemen masa pakai input audio untuk objek ConversationTranscriber.
Memperbaiki masalah di mana IntentRecognizer alasan hasil tidak diatur dengan benar saat mengenali niat dari frasa sederhana.
Memperbaiki masalah di mana SpeechRecognitionEventArgs offset hasil tidak diatur dengan benar.
Memperbaiki kondisi balapan ketika SDK mencoba mengirim pesan jaringan sebelum membuka sambungan websocket. Direproduksi untuk TranslationRecognizer sambil menambahkan peserta.
Memperbaiki kebocoran memori di mesin pengenal kata kunci.

Sampel

Go: Menambahkan quickstarts untuk pengenalan ucapan dan asisten suara kustom. Temukan contoh kode di sini.
JavaScript: Menambahkan mulai cepat untuk Teks ke ucapan, Terjemahan, dan Pengenalan Niat.
Sampel pengenalan kata kunci untuk C# dan Java (Android).

Tes singkat COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kita melewatkan sesuatu, beri tahu kami di GitHub.
Tetap sehat!

Speech SDK 1.11.0: Rilis Maret 2020

Fitur baru

Linux: Menambahkan dukungan untuk Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 dengan instruksi tentang cara mengonfigurasi sistem untuk Speech SDK.
Linux: Menambahkan dukungan untuk .NET Core C# di Linux ARM32 dan ARM64. Baca selengkapnya di sini.
C#, C++: Menambahkan UtteranceId di ConversationTranscriptionResult, ID yang konsisten di semua perantara dan hasil pengenalan ucapan akhir. Detail untuk C#, C++.
Python: Menambahkan dukungan untuk Language ID. Lihat speech_sample.py di repositori GitHub.
Windows: Menambahkan dukungan format input audio terkompresi pada platform Windows untuk semua aplikasi konsol win32. Lihat detailnya di sini.
JavaScript: Mendukung sintesis ucapan (teks ke ucapan) di NodeJS. Pelajari lebih lanjut di sini.
JavaScript: Menambahkan API baru untuk mengaktifkan pemeriksaan semua pesan yang dikirim dan diterima. Pelajari lebih lanjut di sini.

Perbaikan bug

C#, C++: Memperbaiki masalah sehingga SendMessageAsync sekarang mengirim pesan biner sebagai jenis biner. Detail untuk C#, C++.
C#, C++: Memperbaiki masalah ketika menggunakan peristiwa Connection MessageReceived dapat menyebabkan crash jika Recognizer dihapus sebelum objek Connection. Detail untuk C#, C++.
Android: Ukuran buffer audio dari mikrofon menurun dari 800 md menjadi 100 md untuk meningkatkan latensi.
Android: Memperbaiki masalah emulatorAndroid x86 di Android Studio.
JavaScript: Menambahkan dukungan untuk Wilayah di Tiongkok dengan API fromSubscription. Lihat detailnya di sini.
JavaScript: Menambahkan informasi kesalahan lainnya untuk kegagalan koneksi dari NodeJS.

Sampel

Unity: Pengenalan niat sampel publik diperbaiki, ketika impor LUIS json gagal. Lihat detailnya di sini.
Python: Sampel ditambahkan untuk Language ID. Lihat detailnya di sini.

Tes singkat covid19: Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak yang biasa kami lakukan. Misalnya, kami tidak dapat menguji input mikrofon dan output speaker di Linux, iOS, dan macOS. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun di platform ini, dan tes otomatis kami semuanya lulus. Dalam peristiwa yang tidak mungkin bahwa kita melewatkan sesuatu, beri tahu kami di GitHub.
Terima kasih atas dukungan tanpa henti Anda. Seperti biasa, posting pertanyaan atau umpan balik tentang GitHub atau Stack Overflow.
Tetap sehat!

Speech SDK 1.10.0: Rilis Februari 2020

Fitur baru

Menambahkan paket Python untuk mendukung rilis Python 3.8 baru.
Dukungan Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Catatan

Pelanggan harus mengonfigurasi OpenSSL sesuai dengan instruksi ini.
Dukungan Linux ARM32 untuk Debian dan Ubuntu.
DialogServiceConnector sekarang mendukung parameter "bot ID" opsional di BotFrameworkConfig. Parameter ini memungkinkan penggunaan beberapa bot Direct Line Speech dengan satu sumber daya Ucapan. Tanpa parameter yang ditentukan, bot default (sebagaimana ditentukan oleh halaman konfigurasi saluran Direct Line Speech) akan digunakan.
DialogServiceConnector sekarang memiliki properti SpeechActivityTemplate. Konten string JSON ini akan digunakan oleh Direct Line Speech untuk mengisi berbagai bidang yang didukung di semua aktivitas yang mencapai bot Direct Line Speech, termasuk aktivitas yang dihasilkan secara otomatis sebagai respons terhadap peristiwa seperti pengenalan ucapan.
TTS sekarang menggunakan kunci langganan untuk autentikasi, mengurangi latensi byte pertama dari hasil sintesis pertama setelah membuat synthesizer.
Model pengenalan ucapan yang diperbarui untuk 19 lokal untuk pengurangan tingkat kesalahan kata rata-rata 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Model baru ini menghadirkan peningkatan signifikan di beberapa domain termasuk dikte, Transkripsi Pusat Panggilan, dan skenario Pengindeksan Video.

Perbaikan bug

Memperbaiki bug ketika Conversation Transcriber tidak menunggu dengan benar di API JAVA
Perbaikan emulator Android x86 untuk masalah GitHub Xamarin
Menambahkan metode (Get|Set)Property yang hilang untuk AudioConfig
Memperbaiki bug TTS ketika audioDataStream tidak dapat dihentikan ketika koneksi gagal
Menggunakan titik akhir tanpa wilayah akan menyebabkan kegagalan USP untuk penerjemah percakapan
Pembuatan ID di Universal Windows Applications sekarang menggunakan algoritma GUID yang unik; ini sebelumnya dan secara tidak sengaja default ke implementasi yang terpotong yang sering menghasilkan tabrakan atas serangkaian interaksi besar.

Sampel

Sampel Unity untuk menggunakan Speech SDK dengan mikrofon Unity dan streaming mode push

Perubahan lain

Dokumentasi konfigurasi OpenSSL diperbarui untuk Linux

Speech SDK 1.9.0: Rilis Januari 2020

Fitur baru

Percakapan multi-perangkat: sambungkan beberapa perangkat ke ucapan atau percakapan berbasis teks yang sama, dan secara opsional menerjemahkan pesan yang dikirim di antara perangkat tersebut. Pelajari selengkapnya di artikel ini.
Dukungan pengenalan kata kunci ditambahkan untuk paket .aar Android dan menambahkan dukungan untuk ragam x86 dan x64.
Objective-C: Metode SendMessage dan SetMessageProperty yang ditambahkan ke objek Connection. Lihat dokumentasi di sini.
Api TTS C++ sekarang mendukung std::wstring sebagai input teks sintesis, menghapus kebutuhan untuk mengonversi wstring ke string sebelum meneruskannya ke SDK. Lihat detailnya di sini.
C#: ID Bahasa dan konfigurasi bahasa sumber sekarang tersedia.
JavaScript: Menambahkan fitur ke objek Connection untuk menyampaikan pesan kustom dari Layanan Ucapan sebagai panggilan balik receivedServiceMessage.
JavaScript: Menambahkan dukungan untuk FromHost API memudahkan penggunaan dengan kontainer lokal dan sovereign cloud. Lihat dokumentasi di sini.
JavaScript: Kami sekarang memenuhi NODE_TLS_REJECT_UNAUTHORIZED berkat kontribusi dari orgads. Lihat detailnya di sini.

Perubahan mencolok

OpenSSL telah diperbarui ke versi 1.1.1b dan secara statis ditautkan ke pustaka inti Speech SDK untuk Linux. Ini dapat menyebabkan jeda jika kotak OpenSSL masuk Anda belum diinstal ke /usr/lib/ssl direktori dalam sistem. Periksa dokumentasi kami di bawah dokumen Speech SDK untuk mengatasi masalah ini.
Kami telah mengubah tipe data yang dikembalikan untuk C# WordLevelTimingResult.Offset dari int untuk long memungkinkan akses ke WordLevelTimingResults saat data ucapan lebih dari 2 menit.
PushAudioInputStream dan PullAudioInputStream sekarang mengirim informasi header wav ke Layanan Ucapan berdasarkan AudioStreamFormat, secara opsional ditentukan kapan pembuatannya. Pelanggan sekarang harus menggunakan format input audio yang didukung. Format lain akan mendapatkan hasil pengenalan suboptimal atau dapat menyebabkan masalah lain.

Perbaikan bug

Lihat pembaruan OpenSSL di bagian Perubahan mencolok di atas. Kami memperbaiki crash terputus-terputus dan masalah performa (mengunci konten di bawah beban tinggi) di Linux dan Java.
Java: Melakukan perbaikan pada penutupan objek dalam skenario konkurensi tinggi.
Merestrukturisasi paket NuGet kami. Kami menghapus tiga salinan Microsoft.CognitiveServices.Speech.core.dll dan Microsoft.CognitiveServices.Speech.extension.kws.dll di bawah folder lib, membuat paket NuGet lebih kecil dan lebih cepat diunduh, dan kami menambahkan header yang diperlukan untuk mengompilasi beberapa aplikasi asli C++.
Memperbaiki sampel mulai cepat di sini. Ini keluar tanpa menampilkan pengecualian "mikrofon tidak ditemukan" di Linux, macOS, Windows.
Memperbaiki crash SDK dengan hasil pengenalan ucapan yang panjang pada jalur kode tertentu seperti sampel ini.
Memperbaiki kesalahan penyebaran SDK di lingkungan Azure Web App untuk mengatasi masalah pelanggan ini.
Memperbaiki kesalahan TTS saat menggunakan multi <voice> tag atau <audio> tag untuk mengatasi masalah pelangganini.
Memperbaiki kesalahan TTS 401 saat SDK dipulihkan dari ditangguhkan.
JavaScript: Memperbaiki impor data audio sirkuler berkat kontribusi dari euirim.
JavaScript: menambahkan dukungan untuk mengatur properti layanan, seperti yang ditambahkan dalam 1.7.
JavaScript: memperbaiki masalah ketika kesalahan koneksi dapat mengakibatkan upaya koneksi ulang websocket terus-menerus dan tidak berhasil.

Sampel

Menambahkan sampel pengenalan kata kunci untuk Android di sini.
Menambahkan sampel TTS untuk skenario server di sini.
Menambahkan Mulai cepat percakapan multi-perangkat untuk C# dan C++ di sini.

Perubahan lain

Ukuran pustaka inti SDK yang dioptimalkan di Android.
SDK di 1.9.0 dan seterusnya mendukung jenis int dan string di bidang versi tanda tangan suara untuk Conversation Transcriber.

Speech SDK 1.8.0: Rilis November 2019

Fitur baru

FromHost() Menambahkan API, untuk memudahkan penggunaan dengan kontainer lokal dan sovereign cloud.
Menambahkan Identifikasi Bahasa Sumber untuk Pengenalan Ucapan (dalam Java dan C++)
Menambahkan objek SourceLanguageConfig untuk Pengenalan Suara, digunakan untuk menentukan bahasa sumber yang diharapkan (dalam Java dan C++)
Menambahkan dukungan KeywordRecognizer pada Windows (UWP), Android, dan iOS melalui paket NuGet dan Unity
Menambahkan Remote Conversation Java API untuk melakukan Transkripsi Percakapan dalam batch asinkron.

Perubahan mencolok

Fungsi Conversation Transcriber dipindahkan di bawah namespace Microsoft.CognitiveServices.Speech.Transcription.
Bagian dari metode Conversation Transcriber dipindahkan ke kelas Conversation baru.
Menghapus dukungan untuk iOS 32-bit (ARMv7 dan x86)

Perbaikan bug

Memperbaiki crash jika KeywordRecognizer lokal digunakan tanpa kunci langganan layanan Ucapan yang valid

Sampel

Sampel Xamarin untuk KeywordRecognizer
Sampel Unity untuk KeywordRecognizer
Sampel C++ dan Java untuk Identifikasi Bahasa Sumber Otomatis.

Speech SDK 1.7.0: Rilis September 2019

Fitur baru

Menambahkan dukungan beta untuk Xamarin di Universal Windows Platform (UWP), Android, dan iOS
Menambahkan dukungan iOS untuk Unity
Menambahkan dukungan input Compressed untuk ALaw, Mulaw, FLAC di Android, iOS, dan Linux
Ditambahkan SendMessageAsync di kelas Connection untuk mengirim pesan ke layanan
Ditambahkan SetMessageProperty di kelas Connection untuk mengatur properti pesan
TTS menambahkan pengikatan untuk Java (JRE dan Android), Python, Swift, dan Objective-C
TTS menambahkan dukungan pemutaran untuk macOS, iOS, dan Android.
Menambahkan informasi "batas kata" untuk TTS.

Perbaikan bug

Memperbaiki masalah build IL2CPP di Unity 2019 untuk Android
Memperbaiki masalah header yang salah bentuk dalam input file wav yang diproses dengan tidak benar
Memperbaiki masalah UUID yang tidak unik di beberapa properti sambungan
Memperbaiki beberapa peringatan tentang penentu nullabilitas dalam pengikatan Swift (mungkin memerlukan perubahan kode kecil)
Memperbaiki bug yang menyebabkan koneksi websocket ditutup paksa di bawah beban jaringan
Memperbaiki masalah di Android yang terkadang menghasilkan ID tayangan duplikat yang digunakan oleh DialogServiceConnector
Peningkatan stabilitas koneksi di seluruh interaksi multi-turn dan pelaporan kegagalan (melalui peristiwa Canceled) ketika terjadi dengan DialogServiceConnector
Mulai sesi DialogServiceConnector sekarang akan menyediakan peristiwa dengan benar, termasuk saat memanggil ListenOnceAsync() selama StartKeywordRecognitionAsync() aktif
Mengatasi crash yang terkait dengan DialogServiceConnector aktivitas yang diterima

Sampel

Mulai cepat untuk Xamarin
Memperbarui Mulai Cepat CPP dengan informasi Linux ARM64
Memperbarui mulai cepat Unity dengan informasi iOS

Speech SDK 1.6.0: Rilis Juni 2019

Sampel

Sampel mulai cepat untuk Teks Ke Ucapan di UWP dan Unity
Sampel mulai cepat untuk Swift di iOS
Sampel Unity untuk Pengenalan dan Terjemahan Ucapan & Niat
Memperbarui sampel mulai cepat untuk DialogServiceConnector

Peningkatan/Perubahan

Namespace dialog:
- SpeechBotConnector telah diubah namanya menjadi DialogServiceConnector
- BotConfig telah diubah namanya menjadi DialogServiceConfig
- BotConfig::FromChannelSecret() telah dipetakan ulang ke DialogServiceConfig::FromBotSecret()
- Semua klien Direct Line Speech yang ada terus didukung setelah perubahan nama
Memperbarui adaptor TTS REST untuk mendukung proksi, koneksi persisten
Meningkatkan pesan kesalahan saat wilayah yang tidak valid dilewati
Swift/Objective-C:
- Meningkatkan pelaporan kesalahan: Metode yang dapat mengakibatkan kesalahan sekarang ada dalam dua versi: Satu metode yang mengekspos objek NSError untuk penanganan kesalahan, dan metode yang menimbulkan pengecualian. Yang pertama diekspos ke Swift. Perubahan ini memerlukan adaptasi ke kode Swift yang ada.
- Meningkatkan penanganan peristiwa

Perbaikan bug

Perbaikan untuk TTS: SpeakTextAsync di mana masa mendatang dikembalikan tanpa menunggu sampai audio selesai dirender
Perbaikan untuk string marshaling di C# untuk mengaktifkan dukungan bahasa penuh
Perbaikan untuk masalah aplikasi inti .NET untuk memuat pustaka inti dengan kerangka kerja target net461 dalam sampel
Perbaikan untuk masalah tidak sering untuk menyebarkan pustaka asli ke folder output dalam sampel
Perbaikan untuk penutupan soket web dengan andal
Perbaikan untuk kemungkinan crash saat membuka koneksi di bawah beban berat di Linux
Perbaikan untuk metadata yang hilang dalam bundel kerangka kerja untuk macOS
Perbaikan untuk masalah dengan pip install --user di Windows

Speech SDK 1.5.1

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Perbaikan bug

Memperbaiki FromSubscription saat digunakan dengan Transkripsi Percakapan.
Memperbaiki bug dalam pencarian kata kunci untuk Asisten Voice.

Speech SDK 1.5.0: Rilis Mei 2019

Fitur baru

Pencarian kata kunci (KWS) sekarang tersedia untuk Windows dan Linux. Fungsionalitas KWS mungkin berfungsi dengan jenis mikrofon apa pun, dukungan resmi KWS, namun, saat ini terbatas pada array mikrofon yang ditemukan di perangkat keras Azure Kinect DK atau Speech Devices SDK.
Fungsionalitas yang sama tersedia melalui SDK. Untuk informasi selengkapnya, lihat di sini.
Fungsionalitas transkripsi percakapan tersedia melalui SDK.
Tambahkan dukungan untuk Asisten Voice menggunakan saluran Direct Line Speech.

Sampel

Menambahkan sampel untuk fitur baru atau layanan baru yang didukung oleh SDK.

Peningkatan/Perubahan

Menambahkan berbagai sifat recognizer untuk menyesuaikan perilaku layanan atau hasil layanan (seperti masking profanity dan lainnya).
Anda sekarang dapat mengonfigurasi recognizer melalui properti konfigurasi standar, bahkan jika Anda membuat recognizer FromEndpoint.
Objective-C: Properti OutputFormat ditambahkan ke SPXSpeechConfiguration.
SDK sekarang mendukung Debian 9 sebagai distribusi Linux.

Perbaikan bug

Memperbaiki masalah di mana sumber daya pembicara dihancurkan terlalu dini dalam teks ke ucapan.

Speech SDK 1.4.2

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Speech SDK 1.4.1

Ini adalah rilis khusus JavaScript. Tidak ada fitur yang ditambahkan. Perbaikan berikut dibuat:

Mencegah paket web memuat https-proxy-agent.

Speech SDK 1.4.0: Rilis April 2019

Fitur baru

SDK sekarang mendukung layanan Teks ke ucapan sebagai versi beta. Ini didukung pada Windows dan Linux Desktop dari C++ dan C#. Untuk informasi selengkapnya, periksa ringkasan Teks ke ucapan.
SDK sekarang mendukung file audio MP3 dan Opus/OGG sebagai file input aliran. Fitur ini hanya tersedia di Linux dari C++ dan C# serta saat ini dalam versi beta (detail selengkapnya di sini).
Speech SDK untuk Java, .NET core, C++, dan Objective-C sudah mendapatkan dukungan macOS. Dukungan Objective-C untuk macOS saat ini dalam versi beta.
iOS: Speech SDK untuk iOS (Objective-C) sekarang juga diterbitkan sebagai CocoaPod.
JavaScript: Dukungan untuk mikrofon non-default sebagai perangkat input.
JavaScript: Dukungan proksi untuk Node.js.

Sampel

Sampel untuk menggunakan Speech SDK dengan C++ dan dengan Objective-C di macOS telah ditambahkan.
Sampel yang menunjukkan penggunaan layanan Teks ke ucapan telah ditambahkan.

Peningkatan/Perubahan

Python: Properti tambahan hasil pengenalan sekarang diekspos melalui properti properties.
Untuk pengembangan tambahan dan dukungan debug, Anda dapat mengalihkan informasi pengelogan dan diagnostik SDK ke dalam file log (detail selengkapnya di sini).
JavaScript: Meningkatkan performa pemrosesan audio.

Perbaikan bug

Mac/iOS: Bug yang menyebabkan waktu tunggu lama ketika koneksi ke layanan Azure Cognitive Service untuk Ucapan tidak dapat dibuat telah diperbaiki.
Python: meningkatkan penanganan kesalahan untuk argumen di panggilan balik Python.
JavaScript: Memperbaiki pelaporan status yang salah untuk ucapan yang berakhir pada RequestSession.

Speech SDK 1.3.1: Diperbarui Februari 2019

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Perbaikan bug

Memperbaiki kebocoran memori saat menggunakan input mikrofon. Input berbasis aliran atau file tidak terpengaruh.

Speech SDK 1.3.0: Rilis Februari 2019

Fitur baru

Speech SDK mendukung pemilihan mikrofon input melalui kelas AudioConfig. Ini memungkinkan Anda melakukan streaming data audio ke layanan Ucapan dari mikrofon non-default. Untuk informasi selengkapnya, lihat dokumentasi yang menjelaskan pemilihan perangkat input audio. Fitur ini belum tersedia dari JavaScript.
Speech SDK sekarang mendukung Unity dalam versi beta. Berikan umpan balik melalui bagian masalah di repositori sampel GitHub. Rilis ini mendukung Unity pada Windows x86 dan x64 (aplikasi desktop atau Universal Windows Platform), dan Android (ARM32/64, x86). Informasi selengkapnya tersedia dalam Mulai cepat Unity kami.
File Microsoft.CognitiveServices.Speech.csharp.bindings.dll (dikirim dalam rilis sebelumnya) tidak diperlukan lagi. Fungsionalitasnya sekarang terintegrasi dalam SDK inti.

Sampel

Konten baru berikut tersedia di repositori sampel kami:

Sampel tambahan untuk AudioConfig.FromMicrophoneInput.
Sampel Python tambahan untuk pengenalan dan terjemahan niat.
Sampel tambahan untuk menggunakan objek Connection di iOS.
Sampel Java tambahan untuk terjemahan dengan output audio.
Sampel baru untuk penggunaan Batch Transcription REST API.

Peningkatan/Perubahan

Python
- Meningkatkan verifikasi parameter dan pesan kesalahan dalam SpeechConfig.
- Menambahkan dukungan untuk objek Connection.
- Dukungan untuk Python 32-bit (x86) di Windows.
- Speech SDK untuk Python adalah keluar dari beta.
Ios
- SDK tersebut sekarang dibangun pada iOS SDK versi 12.1.
- SDK sekarang mendukung iOS versi 9.2 dan yang lebih baru.
- Meningkatkan dokumentasi referensi dan memperbaiki beberapa nama properti.
JavaScript
- Menambahkan dukungan untuk objek Connection.
- Menambahkan file definisi jenis untuk JavaScript yang dibundel
- Dukungan awal dan implementasi untuk petunjuk frasa.
- Mengembalikan koleksi properti dengan layanan JSON untuk pengenalan
DLL Windows sekarang berisi sumber daya versi.
Jika Anda membuat recognizer FromEndpoint, Anda dapat menambahkan parameter langsung ke titik akhir URL. Dengan menggunakan FromEndpoint, Anda tidak dapat mengonfigurasi recognizer melalui properti konfigurasi standar.

Perbaikan bug

Nama pengguna proksi kosong dan kata sandi proksi tidak dihandel dengan benar. Dengan rilis ini, jika Anda mengatur nama pengguna proksi dan kata sandi proksi ke string kosong, mereka tidak akan dikirimkan saat menyambungkan ke proksi.
SessionId yang dibuat oleh SDK tidak selalu benar-benar acak untuk beberapa bahasa/lingkungan. Menambahkan inisialisasi generator acak untuk memperbaiki masalah ini.
Meningkatkan penanganan token otorisasi. Jika Anda ingin menggunakan token otorisasi, tentukan di SpeechConfig dan biarkan kunci langganan kosong. Kemudian buat recognizer seperti biasa.
Dalam beberapa kasus, objek Connection tidak dirilis dengan benar. Masalah ini telah diperbaiki.
Sampel JavaScript juga diperbaiki untuk mendukung output audio untuk sintesis terjemahan di Safari.

Speech SDK 1.2.1

Ini adalah rilis khusus JavaScript. Tidak ada fitur yang ditambahkan. Perbaikan berikut dibuat:

Mengaktifkan akhir aliran di turn.end, bukan di speech.end.
Memperbaiki bug di dorongan audio yang tidak menjadwalkan pengiriman berikutnya jika pengiriman saat ini gagal.
Memperbaiki pengenalan berkelanjutan dengan token auth.
Perbaikan bug untuk recognizer/titik akhir yang berbeda.
Peningkatan dokumentasi.

Speech SDK 1.2.0: Rilis Desember 2018

Fitur baru

Python
- Versi Beta dukungan Python (3.5 ke atas) tersedia pada rilis ini. Untuk informasi selengkapnya, lihat di sini](../../quickstart-python.md).
JavaScript
- Speech SDK untuk JavaScript sudah bersumber terbuka. Kode sumber tersedia di GitHub.
- Kami sekarang mendukung Node.js, info selengkapnya dapat ditemukan di sini.
- Batasan panjang untuk sesi audio telah dihapus, koneksi ulang akan terjadi secara otomatis di bawah penutup.
Connection Objek
- Dari Recognizer, Anda dapat mengakses objek Connection. Objek ini memungkinkan Anda secara eksplisit memulai sambungan layanan dan berlangganan untuk menyambungkan serta memutuskan sambungan peristiwa. (Fitur ini belum tersedia dari JavaScript dan Python.)
Dukungan untuk Ubuntu 18.04.
Android
- Mengaktifkan dukungan ProGuard selama pembuatan APK.

Penyempurnaan

Peningkatan penggunaan alur internal, mengurangi jumlah alur, kunci, mutex.
Meningkatkan pelaporan/informasi kesalahan. Dalam beberapa kasus, pesan kesalahan belum disebarluaskan sepanjang jalan keluar.
Memperbarui dependensi pengembangan di JavaScript untuk menggunakan modul terbaru.

Perbaikan bug

Memperbaiki kebocoran memori karena ketidakcocokan jenis di RecognizeAsync.
Dalam beberapa kasus, pengecualian bocor.
Memperbaiki kebocoran memori dalam argumen peristiwa terjemahan.
Memperbaiki masalah penguncian pada sambungkan kembali dalam sesi jangka panjang.
Memperbaiki masalah yang dapat menyebabkan hasil akhir hilang untuk terjemahan yang gagal.
C#: Jika operasi async tidak ditunggu di alur utama, ada kemungkinan recognizer dapat dihapus sebelum tugas asinkron selesai.
Java: Memperbaiki masalah yang mengakibatkan crash Java VM.
Objective-C: Pemetaan enum tetap; RecognizedIntent dikembalikan bukan RecognizingIntent.
JavaScript: Atur format output default ke 'simple' di SpeechConfig.
JavaScript: Menghapus ketidakkonsistenan antara properti pada objek konfigurasi dalam JavaScript dan bahasa lainnya.

Sampel

Memperbarui dan memperbaiki beberapa sampel (misalnya suara output untuk terjemahan, dll.).
Menambahkan sampel Node.js dalam repositori sampel.

Speech SDK 1.1.0

Fitur baru

Dukungan untuk Android x86/x64.
Dukungan Proksi: Dalam ojek SpeechConfig, Anda sekarang dapat memanggil fungsi untuk mengatur informasi proksi (nama host, port, nama pengguna, dan kata sandi). Fitur ini belum tersedia di iOS.
Kode kesalahan dan pesan yang disempurnakan. Jika pengenalan mengembalikan kesalahan, ini sudah menetapkan Reason (dalam peristiwa yang dibatalkan) atau CancellationDetails (dalam hasil pengenalan) ke Error. Peristiwa yang dibatalkan sekarang berisi dua anggota tambahan, ErrorCode dan ErrorDetails. Jika server mengembalikan informasi kesalahan tambahan dengan kesalahan yang dilaporkan, server sekarang akan tersedia di anggota baru.

Penyempurnaan

Menambahkan verifikasi tambahan dalam konfigurasi recognizer, dan menambahkan pesan kesalahan tambahan.
Peningkatan penanganan keheningan lama di tengah file audio.
Paket NuGet: untuk proyek .NET Framework, mencegah pembangunan dengan konfigurasi AnyCPU.

Perbaikan bug

Memperbaiki beberapa pengecualian yang ditemukan dalam recognizer. Selain itu, pengecualian ditangkap dan dikonversi menjadi peristiwa Canceled.
Memperbaiki kebocoran memori dalam manajemen properti.
Memperbaiki bug ketika file input audio dapat menabrakkan recognizer.
Memperbaiki bug ketika peristiwa dapat diterima setelah peristiwa penghentian sesi.
Memperbaiki beberapa kondisi balapan dalam alur.
Memperbaiki masalah kompatibilitas iOS yang dapat mengakibatkan crash.
Peningkatan stabilitas untuk dukungan mikrofon Android.
Memperbaiki bug ketika recognizer di JavaScript akan mengabaikan bahasa pengenalan.
Memperbaiki bug yang mencegah pengaturan EndpointId (dalam beberapa kasus) di JavaScript.
Mengubah urutan parameter di AddIntent di JavaScript, dan menambahkan tanda tangan JavaScript AddIntent yang hilang.

Sampel

Menambahkan sampel C++ dan C# untuk penggunaan aliran pull dan push dalam repositori sampel.

Speech SDK 1.0.1

Peningkatan keandalan dan perbaikan bug:

Memperbaiki potensi kesalahan fatal karena kondisi balapan dalam menghapus recognizer
Memperbaiki potensi kesalahan fatal ketika properti yang belum diatur terjadi.
Menambahkan pemeriksaan kesalahan dan parameter tambahan.
Objective-C: Memperbaiki kemungkinan kesalahan fatal yang disebabkan oleh penimpaan nama di NSString.
Objective-C: Visibilitas API yang disesuaikan
JavaScript: Perbaikan terkait peristiwa dan payload-nya.
Peningkatan dokumentasi.

Dalam repositori sampel kami, sampel baru untuk JavaScript ditambahkan.

Azure AI Speech SDK 1.0.0: Rilis September 2018

Fitur baru

Dukungan untuk Objective-C di iOS. Lihat Mulai cepat Objective-C untuk iOS kami.
Dukungan untuk JavaScript di browser. Lihat mulai cepat JavaScript kami.

Perubahan mencolok

Dengan rilis ini, sejumlah perubahan yang melanggar diperkenalkan. Periksa halaman ini untuk detailnya.

Azure AI Speech SDK 0.6.0: Rilis Agustus 2018

Fitur baru

Aplikasi UWP yang dibangun dengan Speech SDK sekarang dapat meneruskan Windows App Certification Kit (WACK). Lihat Mulai cepat UWP.
Dukungan untuk .NET Standard 2.0 di Linux (Ubuntu 16.04 x64).
Eksperimental: Mendukung Java 8 di Windows (64-bit) dan Linux (Ubuntu 16.04 x64). Lihat mulai cepat Lingkungan Runtime Java.

Perubahan fungsional

Mengekspos informasi detail kesalahan tambahan tentang kesalahan koneksi.

Perubahan mencolok

Pada Java (Android), fungsi SpeechFactory.configureNativePlatformBindingWithDefaultCertificate ini tidak lagi memerlukan parameter jalur. Sekarang jalur secara otomatis terdeteksi pada semua platform yang didukung.
Get-accessor properti EndpointUrl di Java dan C# dihapus.

Perbaikan bug

Di Java, hasil sintesis audio pada recognizer terjemahan diimplementasikan sekarang.
Memperbaiki bug yang dapat menyebabkan alur tidak aktif dan peningkatan jumlah soket terbuka dan tidak digunakan.
Memperbaiki masalah, ketika pengenalan jangka panjang dapat berakhir di tengah transmisi.
Memperbaiki kondisi balapan dalam penonaktifan recognizer.

Azure AI Speech SDK 0.5.0: Rilis Juli 2018

Fitur baru

Mendukung platform Android (API 23: Android 6.0 Marshmallow atau yang lebih tinggi). Lihat mulai cepat Android.
Mendukung .NET Standard 2.0 di Windows. Lihat mulai cepat .NET Core.
Eksperimental: Mendukung UWP di Windows (versi 1709 atau yang lebih baru).
- Lihat Mulai cepat UWP.
- Perhatikan bahwa aplikasi UWP yang dibangun dengan Speech SDK belum lulus Windows App Certification Kit (WACK).
Mendukung pengenalan jangka panjang dengan koneksi ulang otomatis.

Mengubah fungsional

StartContinuousRecognitionAsync() mendukung pengenalan jangka panjang.
Hasil pengenalan berisi lebih banyak bidang. Hasil tersebut adalah offset dari awal audio dan durasi (keduanya dalam tick) teks yang dikenal dan nilai tambahan yang mewakili status pengenalan, misalnya, InitialSilenceTimeout dan InitialBabbleTimeout.
Mendukung AuthorizationToken untuk membuat instans pabrik.

Perubahan mencolok

Peristiwa pengenalan: Jenis peristiwa NoMatch digabungkan ke dalam peristiwa Error.
SpeechOutputFormat di C# diubah namanya ke OutputFormat agar tetap selaras dengan C++.
Jenis pengembalian beberapa metode AudioInputStream antarmuka sedikit berubah:
- Di Java, metode read sekarang mengembalikan long bukan int.
- Di C#, metode Read sekarang mengembalikan uint bukan int.
- Di C++, metode Read dan GetFormat sekarang mengembalikan size_t bukan int.
C++: Instans aliran input audio sekarang hanya dapat diteruskan sebagai shared_ptr.

Perbaikan bug

Memperbaiki nilai pengembalian yang salah dalam hasil saat RecognizeAsync() waktu habis.
Dependensi pada pustaka pondasi media pada Windows telah dihapus. SDK sekarang menggunakan API Core Audio.
Perbaikan dokumentasi: Menambahkan halaman wilayah untuk menjelaskan wilayah yang didukung.

Masalah yang diketahui

Speech SDK untuk Android tidak melaporkan hasil sintesis ucapan untuk penerjemahan. Masalah ini akan diperbaiki di rilis mendatang.

Azure AI Speech SDK 0.4.0: Rilis Juni 2018

Mengubah fungsional

AudioInputStream

Recognizer sekarang dapat menggunakan aliran sebagai sumber audio. Untuk informasi selengkapnya, lihat panduan cara.
Format output terperinci

Saat membuat SpeechRecognizer, Anda dapat meminta format output Detailed atau Simple. DetailedSpeechRecognitionResult berisi skor keyakinan, teks yang dikenali, bentuk leksikal mentah, bentuk normalisasi, dan bentuk normalisasi dengan kata-kata kotor yang ditutupi.

Breaking change

Diubah ke SpeechRecognitionResult.Textdari SpeechRecognitionResult.RecognizedText di C#.

Perbaikan bug

Memperbaiki kemungkinan masalah panggil balik di lapisan USP selama penonaktifan.
Jika recognizer menggunakan file input audio, ini berpegang pada handel file lebih lama dari yang diperlukan.
Menghapus beberapa kebuntuan antara pompa pesan dan recognizer.
Aktifkan hasil NoMatch ketika respons dari layanan kehabisan waktu.
Pustaka pondasi media pada pemuatan Windows ditunda. Pustaka ini hanya diperlukan untuk input mikrofon.
Kecepatan pengunggahan untuk data audio dibatasi sekitar dua kali kecepatan audio asli.
Pada Windows, rakitan C# .NET sekarang diberi nama yang kuat.
Perbaikan dokumentasi: Region adalah informasi yang diperlukan untuk membuat recognizer.

Lebih banyak sampel sudah ditambahkan dan terus diperbarui. Untuk kumpulan sampel terbaru, lihat repositori GitHub sampel Speech SDK.

Azure AI Speech SDK 0.2.12733: Rilis Mei 2018

Rilis ini adalah rilis pratinjau publik pertama dari Azure AI Speech SDK.

Speech CLI 1.37.0: Rilis April 2024

Diperbarui untuk menggunakan Speech SDK 1.37.0

Fitur baru

tidak ada

Perbaikan bug

tidak ada

Speech CLI 1.36.0: Rilis Maret 2024

Diperbarui untuk menggunakan Speech SDK 1.36.0

Fitur baru

tidak ada

Perbaikan bug

tidak ada

Speech CLI 1.35.0: Rilis Februari 2024

Diperbarui untuk menggunakan Speech SDK 1.35.0

Fitur baru

tidak ada

Perbaikan bug

Memperbarui dependensi JMESPath ke terbaru

Speech CLI 1.34.0: Rilis November 2023

Diperbarui untuk menggunakan Speech SDK 1.34.0

Speech CLI 1.33.0: Rilis Oktober 2023

Diperbarui untuk menggunakan Speech SDK 1.34.0

Speech CLI 1.31.0: Rilis Agustus 2023

Diperbarui untuk menggunakan Speech SDK 1.31.0

Speech CLI 1.30.0: Rilis Juli 2023

Diperbarui untuk menggunakan Speech SDK 1.30.0

Speech CLI 1.29.0: Rilis Juni 2023

Diperbarui untuk menggunakan Speech SDK 1.29.0

Speech CLI 1.28.0: Rilis Mei 2023

Diperbarui untuk menggunakan Speech SDK 1.28.0

Speech CLI 1.27.0: Rilis April 2023

Pembaruan

Diperbarui untuk menggunakan Speech SDK 1.27.0
Perbarui titik akhir default untuk menggunakan REST API v3.1 untuk Pengenalan ucapan kustom dan Pengenalan Ucapan Batch.

Perbaikan bug

Perbaikan yang terkait dengan cara parameter kueri diurai/dikonfigurasi.

Speech CLI 1.26.0: Rilis Maret 2023

Diperbarui untuk menggunakan Speech SDK 1.26.0.

Speech CLI 1.25.0: Rilis Januari 2023

Diperbarui untuk menggunakan Speech SDK 1.25.0.

Speech CLI 1.24.0: Rilis Oktober 2022

Menggunakan Speech SDK 1.24.0.

Fitur baru

Diperluas "pemeriksaan spx" untuk mendukung kueri JMESPath terhadap semua peristiwa spx

Perbaikan bug

Berbagai peningkatan ketahanan terhadap evaluasi kueri JMESPath
Perbaikan untuk pemotongan ke penulisan file yang mungkin terjadi pada komputer yang dibatasi sumber daya

Speech CLI 1.23.0: Rilis Juni 2022

Menggunakan Speech SDK 1.23.0.

Fitur baru

Keterangan yang lebih baik (--output vtt dan --output srt) pemisahan hasil yang besar (maks. 37 karakter, 3 baris)
Mendokumentasikan spx synthesize--formatopsi (lihat spx help synthesize format)
Mendokumentasikan sebagian spx csr besar perintah/opsi (lihat spx help csr)
Menambahkan perintah spx csr model copy (lihat spx help csr model copy)
Menambahkan opsi --check result menggunakan kueri JMES (lihat spx help check result)
Pesan kesalahan yang ditingkatkan saat menentukan opsi perintah yang tidak valid
Pindah dari .NET Core 3.1 ke .NET 6.0. Untuk menjalankan Speech CLI, Anda harus menginstal Runtime .NET 6.0 (atau lebih tinggi).

Perbaikan bug

Memperbarui semua URL untuk menghapus bahasa (misalnya, "en-US")
Memperbaiki info versi untuk dilaporkan dengan benar dalam semua kasus (sebelumnya terkadang terlihat kosong)

Speech CLI 1.22.0: Rilis Juni 2022

Menggunakan Speech SDK 1.22.0.

Fitur baru

Menambahkan perintah spx init untuk memandu pengguna melalui pembuatan kunci sumber daya Ucapan tanpa masuk ke Portal Web Azure.
Kontainer docker ucapan sekarang menyertakan Azure CLI, sehingga spx init perintah berfungsi di luar kotak.
Menambahkan tanda waktu sebagai opsi output peristiwa, untuk membuat SPX lebih berguna saat menghitung latensi.

Speech CLI 1.21.0: Rilis April 2022

Menggunakan Speech SDK 1.21.0.

Fitur baru

Pembuatan Keterangan WEBVTT
- Menambahkan dukungan --output vtt ke spx translate
- Mendukung --output vtt file FILENAME untuk mengambil alih VTT FILENAME default
- Mendukung --output vtt file - untuk menulis ke output standar
- File VTT individual dibuat untuk setiap bahasa target (misalnya --target en;de;fr)
Pembuatan Keterangan SRT
- Menambahkan dukungan --output srt ke spx recognize, spx intent, dan spx translate
- Mendukung --output srt file FILENAME untuk mengambil alih SRT FILENAME default
- Mendukung --output srt file - untuk menulis ke output standar
- Untuk spx translate, file SRT individual dibuat untuk setiap bahasa target (misalnya --target en;de;fr)

Perbaikan bug

Mengoreksi output rentang waktu WEBVTT untuk menggunakan format hh:mm:ss.fff dengan benar

Speech CLI 1.20.0: Rilis Januari 2022

Fitur baru

Pengenalan pembicara
- spx profile enroll dan spx speaker [identify/verify] sekarang mendukung input
Pengenalan niat (spx intent)
- --keyword FILE.table
- --pattern dan --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (terus menerus sekarang default)
- --output all/each connection EVENT
- --output all/each connection message (misalnya, text, path)
Pemeriksaan/penulisan ekspektasi output konsol CLI:
- dukungan --expect PATTERN dan --not expect PATTERN pada semua perintah
- --auto expect untuk membantu penulisan pola yang diharapkan
Pemeriksaan/penulisan ekspektasi output pengelogan SDK
- dukungan --log expect PATTERN dan --not log expect PATTERN pada semua perintah
- dukungan --log auto expect [FILTER] pada semua perintah
- Dukungan --log FILE pada spx profile dan spx speaker
Input file audio
- dukungan --format ANY pada semua perintah
- dukungan --file - (membaca dari input standar, memungkinkan skenario pipa)
Output file audio
- --audio output - Menulis ke output standar, memungkinkan skenario pipa
File output
- --output all/each file - Tulis ke output standar
- --output batch file - Tulis ke output standar
- --output vtt file - Tulis ke output standar
- --output json file - Tulis ke output standar, untuk spx csr dan spx batch perintah
Properti output
- --output […] result XXX property (PropertyId atau string)
- --output […] connection message received XXX property (PropertyId atau string)
- --output […] recognizer XXX property (PropertyId atau string)
Integrasi Azure WebJob
- spx webjob sekarang mengikuti pola sub-perintah
- Bantuan WebJob yang diperbarui untuk mencerminkan pola sub-perintah (lihat spx help webjob)

Perbaikan bug

Memperbaiki bug saat keduanya --output vtt FILE dan --output batch FILE digunakan pada saat yang sama
spx [...] --zip ZIPFILENAME sekarang mencakup semua binari yang diperlukan untuk semua skenario (jika ada)
spx profile dan spx speaker perintah sekarang mengembalikan informasi kesalahan terperinci tentang pembatalan

Rilis Mei 2021

Fitur baru

Menambahkan dukungan untuk verifikasi Profil, ID Pembicara, dan Pembicara - Coba spx profile dan spx speaker dari baris perintah.
Kami juga menambahkan dukungan Dialog - Coba spx dialog dari baris perintah.
Meningkatkan bantuan spx. Beri kami umpan balik tentang cara kerja ini untuk Anda dengan membuka masalah GitHub.
Kami telah mengurangi ukuran alat penginstalan .NET.

Tes singkat COVID-19

Karena pandemi yang sedang berlangsung terus mengharuskan teknisi kami untuk bekerja dari rumah, skrip verifikasi manual pra-pandemi telah berkurang secara signifikan. Kami menguji pada lebih sedikit perangkat dengan konfigurasi yang lebih sedikit, dan kemungkinan bug khusus lingkungan yang menyelinap dapat ditingkatkan. Kami masih memvalidasi secara ketat dengan seperangkat otomatisasi yang besar. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!

Rilis Maret-2021

Fitur baru

Menambahkan perintah spx intent untuk pengenalan niat, mengganti spx recognize intent.
Recognize dan niat sekarang dapat menggunakan fungsi Azure untuk menghitung tingkat kesalahan kata menggunakan spx recognize --wer url <URL>.
Recognize sekarang dapat menghasilkan hasil sebagai file VTT menggunakan spx recognize --output vtt file <FILENAME>.
Info kunci sensitif sekarang dikaburkan dalam output debug/verbose.
Menambahkan pesan pemeriksaan dan kesalahan URL untuk bidang konten dalam membuat transkripsi batch.

Tes singkat COVID-19

Rilis Januari-2021

Fitur baru

Speech CLI sekarang tersedia sebagai paket NuGet dan dapat dipasang melalui .NET CLI sebagai alat global .NET yang dapat Anda panggil dari shell/baris perintah.
Repositori Templat DevOps ucapan kustom telah diperbarui untuk menggunakan Speech CLI untuk alur kerja ucapan kustomnya.

Tes singkat COVID-19

Rilis Oktober-2020

SPX adalah antarmuka baris perintah untuk menggunakan layanan Ucapan tanpa menulis kode. Unduh versi terbaru di sini.

Fitur baru

spx csr dataset upload --kind audio|language|acoustic – membuat himpunan data dari data lokal, bukan hanya dari URL.
spx csr evaluation create|status|list|update|delete – membandingkan model baru dengan baseline truth/model lainnya.
spx * list – mendukung pengalaman non-halaman (tidak memerlukan --top X --skip X).
spx * --http header A=B – mendukung header kustom (ditambahkan untuk Office untuk autentikasi kustom).
spx help – teks yang disempurnakan dan warna teks back-tick berkode (biru).

Rilis Juni-2020

Menambahkan fitur pencarian bantuan dalam CLI:
- spx help find --text TEXT
- spx help find --topic NAME
Diperbarui untuk bekerja dengan Batch v3.0 yang baru disebarkan dan API ucapan kustom:
- spx help batch examples
- spx help csr examples

Tes singkat COVID-19

Speech CLI (juga dikenal sebagai SPX): Rilis Mei-2020

SPX adalah alat baris perintah baru yang memungkinkan Anda melakukan pengenalan, sintesis, terjemahan, transkripsi batch, dan manajemen ucapan kustom dari baris perintah. Gunakan untuk menguji Layanan Azure Cognitive Service untuk Ucapan, atau untuk membuat skrip tugas Layanan Azure Cognitive Service untuk Ucapan yang perlu Anda lakukan. Unduh alat dan baca dokumentasinya di sini.

Rilis April 2024

Avatar teks ke ucapan

Anda sekarang dapat mengatur gambar latar belakang statis untuk avatar Anda. Untuk menggunakan fitur ini, cukup gunakan avatarConfig.backgroundImage properti dan tentukan URL yang menunjuk ke gambar yang diinginkan. Untuk detial, lihat Cara mengedit latar belakang.

Rilis Maret 2024

Suara neural bawaan

9 suara multibahasa umumnya tersedia di semua wilayah: en-US-AvaMultilingualNeural, , en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-SeraphinaMultilingualNeuralde-DE-FlorianMultilingualNeural, , fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural, dan zh-CN-XiaoxiaoMultilingualNeural. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.
Memperkenalkan suara multibahasa baru untuk pratinjau publik: ja-JP-MasaruMultilingualNeural. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.
Pembaruan tambahan:
- en-US-RyanMultilingualNeural umumnya tersedia di semua wilayah.
- en-US-JennyMultilingualV2Neural umumnya tersedia di semua wilayah, digabungkan dengan en-US-JennyMultilingualNeural.
- Pratinjau tersedia untuk yang diperbarui en-IN-NeerjaNeural dan hi-IN-SwaraNeural dengan 3 gaya baru di US Timur, Eropa Barat, dan Asia Tenggara.
- Pratinjau tersedia untuk suara wanita baru di India Tengah: en-IN-KavyaNeural, , en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeuraldan hi-IN-AnanyaNeural.

Avatar teks ke ucapan

Menghapus dependensi pada Azure Communication Services (ACS) TURN untuk avatar real time. Kode sampel telah diperbarui sesuai untuk mencerminkan perubahan ini.
Teks yang diterbitkan ke harga avatar ucapan. Untuk detail selengkapnya, lihat halaman harga. Perhatikan bahwa harga avatar hanya akan terlihat untuk wilayah layanan tempat fitur tersedia, termasuk US Barat 2, Eropa Barat, dan Asia Tenggara.

Rilis Februari 2024

Suara OpenAI

Layanan Azure AI Speech mendukung teks OpenAI ke suara ucapan di wilayah berikut: US Tengah Utara dan Swedia Tengah. Seperti suara Azure AI Speech, suara teks ke ucapan OpenAI memberikan sintesis ucapan berkualitas tinggi untuk mengonversi teks tertulis menjadi audio lisan yang terdengar alami. Ini membuka berbagai kemungkinan untuk pengalaman pengguna yang imersif dan interaktif. Untuk informasi selengkapnya, lihat Apa itu teks OpenAI ke suara ucapan?.

Catatan

Teks OpenAI ke suara ucapan juga tersedia di Azure OpenAI Service.
Dengan pembaruan ini, kami telah menyesuaikan harga suara saraf bawaan dengan Azure AI Speech. Periksa harga yang diperbarui di sini.

Suara pribadi

Fitur suara pribadi sekarang mendukung DragonLatestNeural dan PhoenixLatestNeural model. Model baru ini meningkatkan kealamaan suara yang disintesis, lebih menyerupi karakteristik ucapan suara dalam prompt. Untuk detail selengkapnya, lihat Mengintegrasikan suara pribadi di aplikasi Anda.

Rilis Desember 2023

API suara kustom

API suara kustom tersedia untuk membuat dan mengelola model suara neural kustom profesional dan pribadi .

Suara neural kustom

Model suara yang baru dilatih sekarang mendukung laju sampel 48 kHz, terlepas dari versi model. Untuk model suara yang dilatih sebelumnya, perlu untuk meningkatkan versi mesin ke setidaknya versi 2023.11.13.0 untuk meningkatkan laju sampel menjadi 48 kHz.

Suara neural bawaan

Memperkenalkan suara multibahasa baru untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`de-DE`	Bahasa Jerman (Jerman)	`de-DE-FlorianMultilingualNeural` (Laki-laki)
`de-DE`	Bahasa Jerman (Jerman)	`de-DE-SeraphinaMultilingualNeural` (Perempuan)
`en-US`	Inggris (Amerika Serikat)	`en-US-AvaMultilingualNeural` (Perempuan)
`en-US`	Inggris (Amerika Serikat)	`en-US-EmmaMultilingualNeural` (Perempuan)
`fr-FR`	Bahasa Prancis (Prancis)	`fr-FR-RemyMultilingualNeural` (Laki-laki)
`en-US`	Inggris (Amerika Serikat)	`en-US-BrianMultilingualNeural` (Laki-laki)
`en-US`	Inggris (Amerika Serikat)	`en-US-AndrewMultilingualNeural` (Laki-laki)
`fr-FR`	Bahasa Prancis (Prancis)	`fr-FR-VivienneMultilingualNeural` (Perempuan)
`zh-CN`	Mandarin (Mandarin, Sederhana)	`zh-CN-XiaoxiaoMultilingualNeural` (Perempuan)
`zh-CN`	Mandarin (Mandarin, Sederhana)	`zh-CN-XiaochenMultilingualNeural` (Perempuan)
`zh-CN`	Mandarin (Mandarin, Sederhana)	`zh-CN-YunyiMultilingualNeural` (Laki-laki)

Memperkenalkan suara baru zh-CN-XiaoxiaoDialectsNeural untuk pratinjau publik yang mendukung beberapa dialek dan aksen Tionghoa:

Nama suara	Bahasa sekunder	Dialek/Aksen
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Mandarin (Zhongyuan Mandarin Shaanxi, Sederhana)
	`zh-CN-sichuan`	Tiongkok (Mandarin Barat Daya, Sederhana)
	`zh-CN-shanxi`	Mandarin (Aksen Shanxi Mandarin, Sederhana)
	`nan-CN`	Mandarin (Min Selatan, Disederhanakan)
	`zh-CN-anhui`	Mandarin (Jianghuai Mandarin Anhui, Sederhana)
	`zh-CN-hunan`	Tionghoa (Hunan Accent Mandarin, Sederhana)
	`zh-CN-gansu`	Mandarin (Lanyin Mandarin Gansu, Sederhana)
	`zh-CN-shandong`	Mandarin (Jilu Mandarin, Sederhana)
	`zh-CN-henan`	Mandarin (Zhongyuan Mandarin Henan, Sederhana)
	`zh-CN-liaoning`	Mandarin (Mandarin Timur Laut, Disederhanakan)
	`zh-TW`	Mandarin (Mandarin Taiwan, Tradisional)

Rilis November 2023

Suara pribadi

Suara pribadi tersedia dalam pratinjau di wilayah berikut: Eropa Barat, US Timur, dan Asia Tenggara. Dengan suara pribadi (pratinjau), Anda bisa mendapatkan replikasi suara yang dihasilkan AI (atau pengguna aplikasi Anda) dalam beberapa detik. Anda menyediakan sampel ucapan satu menit sebagai perintah audio, lalu menggunakannya untuk menghasilkan ucapan dalam salah satu dari lebih dari 90 bahasa yang didukung di lebih dari 100 lokal.

Untuk informasi selengkapnya, lihat suara pribadi.

Avatar teks ke ucapan

Avatar teks ke ucapan tersedia dalam pratinjau di wilayah berikut: US Barat 2, Eropa Barat, dan Asia Tenggara.

Avatar teks ke ucapan mengonversi teks menjadi video digital manusia fotorealistik (baik avatar bawaan atau teks kustom ke avatar ucapan) yang berbicara dengan suara yang terdengar alami. Video avatar teks ke ucapan dapat disintesis secara asinkron atau secara real time. Pengembang dapat membangun aplikasi yang terintegrasi dengan avatar teks ke ucapan melalui API, atau menggunakan alat pembuatan konten di Speech Studio untuk membuat konten video tanpa pengkodian.

Untuk informasi selengkapnya, lihat teks ke avatar ucapan, catatan transparansi, dan pengungkapan untuk bakat suara dan avatar.

Suara neural kustom

Menambahkan dukungan untuk 24 lokal baru untuk suara lintas bahasa. Lihat daftar bahasa lengkap untuk informasi selengkapnya.

Suara neural bawaan

Memperkenalkan suara baru untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`de-DE`	Bahasa Jerman (Jerman)	`SeraphinaNeural` (Perempuan)
`es-ES`	Spanyol (Spanyol)	`XimenaNeural` (Perempuan)
`fr-CA`	Prancis (Kanada)	`ThierryNeural` (Laki-laki)
`fr-FR`	Bahasa Prancis (Prancis)	`VivienneNeural` (Perempuan)
`it-IT`	Italia (Italia)	`GiuseppeNeural` (Laki-laki)
`ko-KR`	Korea (Korea)	`HyunsuNeural` (Laki-laki)
`pt-BR`	Portugis (Brasil)	`ThalitaNeural` (Perempuan)

Model diperbarui dengan bug tetap dan peningkatan kualitas:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`es-ES`	Spanyol (Spanyol)	`AlvaroNeural` (Laki-laki)
`en-GB`	Inggris (Kerajaan Inggris Bersatu)	`RyanNeural` (Laki-laki)
`ko-KR`	Korea (Korea)	`InjoonNeural` (Laki-laki)

Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Rilis Oktober 2023

Suara neural kustom

Menambahkan dukungan untuk 12 lokal baru dengan suara neural kustom Pro. Lihat daftar bahasa lengkap untuk informasi selengkapnya.

Rilis September 2023

Suara neural bawaan

Memperkenalkan suara baru untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-US`	Inggris (Amerika Serikat)	`en-US-EmmaNeural` (Perempuan)
`en-US`	Inggris (Amerika Serikat)	`en-US-AndrewNeural` (Laki-laki)
`en-US`	Inggris (Amerika Serikat)	`en-US-BrianNeural` (Laki-laki)

Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara saraf tertanam

Semua 147 lokal di sini (kecuali fa-IR, Persia (Iran)) tersedia di luar kotak dengan 1 suara perempuan dan/atau 1 laki-laki yang dipilih.

Rilis Agustus 2023

Suara neural kustom

Versi resep pelatihan CNV Lite terbaru telah dirilis sekarang. Rilis ini menghadirkan beberapa penyempurnaan pada kualitas model bahasa Anda. Cobalah Speech Studio.

Rilis Juli 2023

Suara neural kustom

Suara multi-gaya umumnya tersedia.
Menambahkan dua lokal baru dalam pratinjau publik untuk suara multi-gaya: ja-JP dan zh-CN. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya. Lihat daftar gaya prasetel untuk bahasa yang berbeda.
Suara lintas bahasa umumnya tersedia.
Menambahkan dua lokal baru untuk suara lintas bahasa: id-ID dan nl-NL. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara TTS Neural Bawaan

Memperkenalkan suara netral gender baru en-US untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-US`	Inggris (Amerika Serikat)	`en-US-BlueNeural` (Netral)

Memperkenalkan suara multibahasa baru untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-US`	Inggris (Amerika Serikat)	`en-US-JennyMultilingualV2Neural` (Perempuan)
`en-US`	Inggris (Amerika Serikat)	`en-US-RyanMultilingualNeural` (Laki-laki)

Suara en-US-JennyMultilingualV2Neural multibahasa dan en-US-RyanMultilingualNeural mendeteksi bahasa teks input secara otomatis. Namun, Anda masih dapat menggunakan <lang> elemen untuk menyesuaikan bahasa berbicara untuk suara ini.

Suara multibahasa baru ini dapat berbicara dalam 41 bahasa dan aksen: Arabic (Egypt), Indonesian (Indonesia)CatalanDanish (Denmark)Czech (Czechia)German (Austria)German (Switzerland)German (Germany)English (Australia)English (Canada)Arabic (Saudi Arabia)French (Canada)French (Belgium)Finnish (Finland)Spanish (Mexico)French (Switzerland)Spanish (Spain)English (United States)English (India)French (France)English (Ireland)English (Hong Kong SAR)English (United Kingdom)Hindi (India)Hungarian (Hungary)Norwegian Bokmål (Norway)Korean (Korea)Dutch (Belgium)Japanese (Japan)Dutch (Netherlands)Polish (Poland)Portuguese (Portugal)Swedish (Sweden)Russian (Russia)Portuguese (Brazil)Turkish (Türkiye)Italian (Italy)Thai (Thailand), Chinese (Mandarin, Simplified), , . Chinese (Taiwanese Mandarin, Traditional)Chinese (Cantonese, Traditional)

Suara multibahasa ini tidak sepenuhnya mendukung elemen SSML tertentu, seperti break, penekanan, keheningan, dan sub.

Penting

Suara en-US-JennyMultilingualV2Neural disediakan sementara di soley pratinjau publik untuk tujuan evaluasi. Ini akan dihapus di masa mendatang.

Untuk berbicara dalam bahasa selain bahasa Inggris, implementasi en-US-JennyMultilingualNeural suara saat ini mengharuskan Anda mengatur <lang xml:lang> elemen . Kami mengantisipasi bahwa selama tahun kalender Q4 2023, en-US-JennyMultilingualNeural suara akan diperbarui untuk berbicara dalam bahasa teks input tanpa <lang xml:lang> elemen . Ini akan setara dengan en-US-JennyMultilingualV2Neural suara.

Memperkenalkan fitur baru dalam pratinjau publik untuk suara di bawah ini:

Menambahkan input Latin untuk suara Serbia (Serbia): sr-RSsr-latn-RS-SophieNeural dan sr-latn-RS-NicholasNeural.
Menambahkan dukungan pengucapan bahasa Inggris untuk suara Albania (Albania): sq-ALsq-AL-AnilaNeural dan sq-AL-IlirNeural.

Rilis Mei 2023

Pembuatan Konten Audio

Semua suara bawaan dengan gaya berbicara dan suara kustom multi-gaya mendukung penyesuaian derajat gaya.
Sekarang Anda dapat memperbaiki pengucapan kata dengan mengucapkan kata dan merekamnya. Fonem dapat dikenali secara otomatis dari rekaman Anda. Fitur Kenali dengan berbicara sekarang dalam pratinjau publik.

Rilis April 2023

Suara TTS Neural Bawaan

Fitur berikut dari suara ini dipindahkan dari pratinjau publik ke GA:

Gaya	Suara teks ke ucapan
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural`, dan `it-IT-IsabellaNeural`
style="ceria"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural`, dan `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural`, dan `fr-FR-HenriNeural`

Tingkatkan pengucapan bahasa Inggris untuk hi-IN, ta-IN dan te-IN suara, sekarang penerbangan di wilayah pratinjau publik

Untuk informasi selengkapnya, lihat daftar bahasa dan suara.

Rilis Maret 2023

Fitur baru

Speech Synthesis Markup Language (SSML) diperbarui untuk mendukung elemen prosesor efek audio yang mengoptimalkan kualitas output ucapan yang disintesis untuk skenario tertentu pada perangkat. Pelajari lebih lanjut di markup sintesis ucapan.

Suara neural kustom

Menambahkan dukungan untuk nl-BE lokal dengan Suara neural kustom Pro. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara TTS Neural Bawaan

Suara berikut sekarang tersedia secara umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-AU`	Inggris (Australia)	`en-AU-AnnetteNeural` (Perempuan) `en-AU-CarlyNeural` (Perempuan) `en-AU-DarrenNeural` (Laki-laki) `en-AU-DuncanNeural` (Laki-laki) `en-AU-ElsieNeural` (Perempuan) `en-AU-FreyaNeural` (Perempuan) `en-AU-JoanneNeural` (Perempuan) `en-AU-KenNeural` (Laki-laki) `en-AU-KimNeural` (Perempuan) `en-AU-NeilNeural` (Laki-laki) `en-AU-TimNeural` (Laki-laki) `en-AU-TinaNeural` (Perempuan) `en-AU-WilliamNeural` (Laki-laki)
`en-GB`	Inggris (Kerajaan Inggris Bersatu)	`en-GB-RyanNeural` (Laki-laki) `en-GB-SoniaNeural` (Perempuan)
`es-ES`	Spanyol (Spanyol)	`es-ES-AbrilNeural` (Perempuan) `es-ES-ArnauNeural` (Laki-laki) `es-ES-DarioNeural` (Laki-laki) `es-ES-EliasNeural` (Laki-laki) `es-ES-EstrellaNeural` (Perempuan) `es-ES-IreneNeural` (Perempuan) `es-ES-LaiaNeural` (Perempuan) `es-ES-LiaNeural` (Perempuan) `es-ES-NilNeural` (Laki-laki) `es-ES-SaulNeural` (Laki-laki) `es-ES-TeoNeural` (Laki-laki) `es-ES-TrianaNeural` (Perempuan) `es-ES-VeraNeural` (Perempuan)
`es-MX`	Spanyol (Meksiko)	`es-MX-JorgeNeural` (Laki-laki)
`fr-FR`	Bahasa Prancis (Prancis)	`fr-FR-HenriNeural` (Laki-laki)
`it-IT`	Italia (Italia)	`it-IT-IsabellaNeural` (Perempuan)
`ja-JP`	Jepang (Jepang)	`ja-JP-AoiNeural` (Perempuan) `ja-JP-DaichiNeural` (Laki-laki) `ja-JP-MayuNeural` (Perempuan) `ja-JP-NaokiNeural` (Laki-laki) `ja-JP-ShioriNeural` (Perempuan)

Menambahkan dukungan untuk cheerful gaya dengan de-DE-ConradNeural suara.

Rilis Februari 2023

Suara TTS Neural Bawaan

Suara berikut sekarang tersedia secara umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`zh-CN`	Mandarin (Mandarin, Sederhana)	`zh-CN-XiaomengNeural` (Perempuan) `zh-CN-XiaoyiNeural` (Perempuan) `zh-CN-XiaozhenNeural` (Perempuan) `zh-CN-YunfengNeural` (Laki-laki) `zh-CN-YunhaoNeural` (Laki-laki) `zh-CN-YunjianNeural` (Laki-laki) `zh-CN-YunxiaNeural` (Laki-laki) `zh-CN-YunzeNeural` (Laki-laki)
`zh-CN-henan`	Mandarin (Zhongyuan Mandarin Henan, Sederhana)	`zh-CN-henan-YundengNeural` (Laki-laki)

Rilis Desember 2022

REST API sintesis batch (Pratinjau)

API sintesis Batch saat ini dalam pratinjau publik. Setelah tersedia secara umum, API Audio Panjang tidak digunakan lagi. Untuk informasi selengkapnya, lihat Migrasi ke API sintesis batch.

Rilis November 2022

Suara TTS Neural Bawaan (GA)

Suara berikut sekarang tersedia secara umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`es-MX`	Spanyol (Meksiko)	`es-MX-BeatrizNeural` (Perempuan) `es-MX-CandelaNeural` (Perempuan) `es-MX-CarlotaNeural` (Perempuan) `es-MX-CecilioNeural` (Laki-laki) `es-MX-GerardoNeural` (Laki-laki) `es-MX-LarissaNeural` (Perempuan) `es-MX-LibertoNeural` (Laki-laki) `es-MX-LucianoNeural` (Laki-laki) `es-MX-MarinaNeural` (Perempuan) `es-MX-NuriaNeural` (Perempuan) `es-MX-PelayoNeural` (Laki-laki) `es-MX-RenataNeural` (Perempuan) `es-MX-YagoNeural` (Laki-laki)
`it-IT`	Italia (Italia)	`it-IT-BenignoNeural` (Laki-laki) `it-IT-CalimeroNeural` (Laki-laki) `it-IT-CataldoNeural` (Laki-laki) `it-IT-FabiolaNeural` (Perempuan) `it-IT-FiammaNeural` (Perempuan) `it-IT-GianniNeural` (Laki-laki) `it-IT-ImeldaNeural` (Perempuan) `it-IT-IrmaNeural` (Perempuan) `it-IT-LisandroNeural` (Laki-laki) `it-IT-PalmiraNeural` (Perempuan) `it-IT-PierinaNeural` (Perempuan) `it-IT-RinaldoNeural` (Laki-laki)
`pt-BR`	Portugis (Brasil)	`pt-BR-BrendaNeural` (Perempuan) `pt-BR-DonatoNeural` (Laki-laki) `pt-BR-ElzaNeural` (Perempuan) `pt-BR-FabioNeural` (Laki-laki) `pt-BR-GiovannaNeural` (Perempuan) `pt-BR-HumbertoNeural` (Laki-laki) `pt-BR-JulioNeural` (Laki-laki) `pt-BR-LeilaNeural` (Perempuan) `pt-BR-LeticiaNeural` (Perempuan) `pt-BR-ManuelaNeural` (Perempuan) `pt-BR-NicolauNeural` (Laki-laki) `pt-BR-ValerioNeural` (Laki-laki) `pt-BR-YaraNeural` (Perempuan)

Suara neural kustom

Dukungan lokal berikut ditambahkan untuk suara neural kustom. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Menambahkan dukungan untuk fr-BE lokal dengan suara neural kustom Pro.
Menambahkan dukungan untuk es-ES lokal dengan lite suara saraf kustom.

Rilis Oktober 2022

Suara TTS Neural Bawaan (GA)

Suara berikut sekarang tersedia secara umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`eu-ES`	Basque	`eu-ES-AinhoaNeural` (Perempuan) `eu-ES-AnderNeural` (Laki-laki)
`hy-AM`	Armenia (Armenia)	`hy-AM-AnahitNeural` (Perempuan) `hy-AM-HaykNeural` (Laki-laki)

Suara TTS Neural Bawaan (Pratinjau)

Suara berikut sekarang tersedia di pratinjau publik. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-AU`	Inggris (Australia)	`en-AU-AnnetteNeural`(Perempuan) `en-AU-CarlyNeural`(Perempuan) `en-AU-DarrenNeural`(Laki-laki) `en-AU-DuncanNeural`(Laki-laki) `en-AU-ElsieNeural`(Perempuan) `en-AU-FreyaNeural`(Perempuan) `en-AU-JoanneNeural`(Perempuan) `en-AU-KenNeural`(Laki-laki) `en-AU-KimNeural`(Perempuan) `en-AU-NeilNeural`(Laki-laki) `en-AU-TimNeural`(Laki-laki) `en-AU-TinaNeural`(Perempuan)
`es-ES`	Spanyol (Spanyol)	`es-ES-AbrilNeural`(Perempuan) `es-ES-AlvaroNeural`(Laki-laki) `es-ES-ArnauNeural`(Laki-laki) `es-ES-DarioNeural`(Laki-laki) `es-ES-EliasNeural`(Laki-laki) `es-ES-EstrellaNeural`(Perempuan) `es-ES-IreneNeural`(Perempuan) `es-ES-LaiaNeural`(Perempuan) `es-ES-LiaNeural`(Perempuan) `es-ES-NilNeural`(Laki-laki) `es-ES-SaulNeural`(Laki-laki) `es-ES-TeoNeural`(Laki-laki) `es-ES-TrianaNeural`(Perempuan) `es-ES-VeraNeural`(Perempuan)
`ja-JP`	Jepang (Jepang)	`ja-JP-AoiNeural`(Perempuan) `ja-JP-DaichiNeural`(Laki-laki) `ja-JP-MayuNeural`(Perempuan) `ja-JP-NaokiNeural`(Laki-laki) `ja-JP-ShioriNeural`(Perempuan)
`ko-KR`	Korea (Korea)	`ko-KR-BongJinNeural`(Laki-laki) `ko-KR-GookMinNeural`(Laki-laki) `ko-KR-JiMinNeural`(Perempuan) `ko-KR-SeoHyeonNeural`(Perempuan) `ko-KR-SoonBokNeural`(Perempuan) `ko-KR-YuJinNeural`(Perempuan)
`wuu-CN`	Bahasa Tionghoa (Wu, Sederhana)	`wuu-CN-XiaotongNeural` (Perempuan) `wuu-CN-YunzheNeural` (Laki-laki)
`yue-CN`	Bahasa Tionghoa (Kanton, Sederhana)	`yue-CN-XiaoMinNeural` (Perempuan) `yue-CN-YunSongNeural` (Laki-laki)

Pembaruan suara TTS umum

Peningkatan kualitas untuk fil-PH-AngeloNeural suara dan fil-PH-BlessicaNeural .
Aturan Normalisasi Teks diperbarui untuk suara dengan es-CL lokal Spanyol (Chili) dan uz-UZ Uzbekistan (Uzbekistan).
Menambahkan ejaan huruf bahasa Inggris untuk suara dengan sq-AL lokal Albania (Albania) dan az-AZ Azerbaijan (Azerbaijan).
Pengucapan bahasa Inggris yang ditingkatkan untuk suara.zh-HK-WanLungNeural
Nada pertanyaan yang ditingkatkan nl-NL-MaartenNeural untuk suara dan pt-BR-AntonioNeural .
Menambahkan dukungan untuk <lang ="en-US"> tag untuk pengucapan bahasa Inggris yang lebih baik dengan suara berikut: de-DE-ConradNeural, , , de-DE-KatjaNeurales-ES-AlvaroNeural, es-MX-JorgeNeurales-MX-DaliaNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, , fr-FR-HenriNeural, it-IT-DiegoNeural, dan it-IT-IsabellaNeural.
Menambahkan dukungan untuk style="chat" tag dengan suara berikut: en-GB-RyanNeural, , es-MX-JorgeNeuraldan it-IT-IsabellaNeural.
Menambahkan dukungan untuk style="cheerful" tag dengan suara berikut: en-GB-RyanNeural, , en-GB-SoniaNeural, es-MX-JorgeNeuralfr-FR-DeniseNeural, fr-FR-HenriNeural, dan it-IT-IsabellaNeural.
Menambahkan dukungan untuk style="sad" tag dengan suara berikut: en-GB-SoniaNeural, fr-FR-DeniseNeural dan fr-FR-HenriNeural.

Rilis September 2022

Voice TTS Neural bawaan

Semua suara saraf bawaan telah ditingkatkan ke suara dengan keakuratan tinggi dengan laju sampel 48kHz.

Rilis Agustus 2022

Voice TTS Neural bawaan

Merilis suara baru di pratinjau publik:

Suara untuk bahasa Inggris (Amerika Serikat): en-US-AIGenerate1Neural dan en-US-AIGenerate2Neural.
Suara untuk bahasa regional Cina: zh-CN-henan-YundengNeural, , zh-CN-shaanxi-XiaoniNeuraldan zh-CN-shandong-YunxiangNeural.

Untuk informasi selengkapnya, lihat daftar bahasa dan suara.

Rilis Juli 2022

Voice TTS Neural bawaan

Menambahkan 5 suara baru zh-CN Bahasa Tionghoa (Mandarin, Sederhana) dan 1 suara baru en-US Inggris (Amerika Serikat) di Pratinjau Publik. Lihat daftar bahasa dan suara lengkap.

Bahasa	Lokal	Jenis kelamin	Nama suara	Dukungan gaya
Mandarin (Mandarin, Sederhana)	`zh-CN`	Perempuan	`zh-CN-XiaomengNeural`^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Mandarin (Mandarin, Sederhana)	`zh-CN`	Perempuan	`zh-CN-XiaoyiNeural`^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Mandarin (Mandarin, Sederhana)	`zh-CN`	Perempuan	`zh-CN-XiaozhenNeural`^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Mandarin (Mandarin, Sederhana)	`zh-CN`	Laki-laki	`zh-CN-YunxiaNeural`^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Mandarin (Mandarin, Sederhana)	`zh-CN`	Laki-laki	`zh-CN-YunzeNeural`^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Inggris (Amerika Serikat)	`en-US`	Laki-laki	`en-US-RogerNeural`^Baru	Umum

Gaya dan peran yang didukung untuk suara saraf tambahan.

Suara	Gaya	Gelar gaya	Peran
^{Pratinjau publik} zh-CN-XiaomengNeural	`chat`	Didukung
^{Pratinjau umum} zh-CN-XiaoyiNeural	`affectionate`, , `cheerfulangry`, `disgruntled`, `embarrassed`, `fearful`, `gentle`, , `sad`,`serious`	Didukung
zh-CN-XiaozhenNeural ^{Public preview}	`angry`, , `cheerfuldisgruntled`, `fearful`, , `sad`,`serious`	Didukung
^{Pratinjau umum} zh-CN-YunxiaNeural	`angry`, , `calmcheerful`, , `fearful`,`sad`	Didukung
^{Pratinjau umum} zh-CN-YunzeNeural	`angry`, , `cheerfulcalm`, `depressed`, `disgruntled`, `documentary-narration`, `fearful`, , `sad`,`serious`	Didukung	Didukung

Mendapatkan posisi wajah dengan viseme

Tambahkan dukungan bentuk campuran untuk mendorong gerakan wajah karakter 3D yang Anda rancang. Pelajari lebih lanjut di cara mendapatkan posisi wajah dengan viseme.
SSML diperbarui untuk mendukung elemen viseme. Lihat markup sintesis ucapan.

Rilis Juni 2022

Voice TTS Neural bawaan

Menambahkan 9 bahasa dan varian baru untuk teks Neural ke ucapan:

Bahasa	Lokal	Jenis kelamin	Nama suara	Dukungan gaya
Arab (Lebanon)	`ar-LB`	Perempuan	`ar-LB-LaylaNeural`^Baru	Umum
Arab (Lebanon)	`ar-LB`	Laki-laki	`ar-LB-RamiNeural`^Baru	Umum
Arab (Oman)	`ar-OM`	Perempuan	`ar-OM-AyshaNeural`^Baru	Umum
Arab (Oman)	`ar-OM`	Laki-laki	`ar-OM-AbdullahNeural`^Baru	Umum
Azerbaijani (Azerbaijan)	`az-AZ`	Perempuan	`az-AZ-BabekNeural`^Baru	Umum
Azerbaijani (Azerbaijan)	`az-AZ`	Laki-laki	`az-AZ-BanuNeural`^Baru	Umum
Kroasia (Bosnia dan Herzegovina)	`bs-BA`	Perempuan	`bs-BA-VesnaNeural`^Baru	Umum
Kroasia (Bosnia dan Herzegovina)	`bs-BA`	Laki-laki	`bs-BA-GoranNeural`^Baru	Umum
Georgia (Georgia)	`ka-GE`	Perempuan	`ka-GE-EkaNeural`^Baru	Umum
Georgia (Georgia)	`ka-GE`	Laki-laki	`ka-GE-GiorgiNeural`^Baru	Umum
Mongolia (Mongolia)	`mn-MN`	Perempuan	`mn-MN-YesuiNeural`^Baru	Umum
Mongolia (Mongolia)	`mn-MN`	Laki-laki	`mn-MN-BataaNeural`^Baru	Umum
Nepal (Nepal)	`ne-NP`	Perempuan	`ne-NP-HemkalaNeural`^Baru	Umum
Nepal (Nepal)	`ne-NP`	Laki-laki	`ne-NP-SagarNeural`^Baru	Umum
Albania (Albania)	`sq-AL`	Perempuan	`sq-AL-AnilaNeural`^Baru	Umum
Albania (Albania)	`sq-AL`	Laki-laki	`sq-AL-IlirNeural`^Baru	Umum
Tamil (Malaysia)	`ta-MY`	Perempuan	`ta-MY-KaniNeural`^Baru	Umum
Tamil (Malaysia)	`ta-MY`	Laki-laki	`ta-MY-SuryaNeural`^Baru	Umum

Suara GA 36 dari Pratinjau Umum untuk Bahasa Inggris (Inggris) en-GB, Prancis (Prancis) fr-FR dan Jerman (Jerman)de-DE:

Bahasa	Lokal	Jenis kelamin	Nama suara	Dukungan gaya
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-AbbiNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-BellaNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-HollieNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-MaisieNeural`	Umum, suara anak
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-OliviaNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-SoniaNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-AlfieNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-ElliotNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-EthanNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-NoahNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-OliverNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-ThomasNeural`	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-BrigitteNeural`	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-CelesteNeural`	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-CoralieNeural`	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-EloiseNeural`	Umum, suara anak
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-JacquelineNeural`	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-JosephineNeural`	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-YvetteNeural`	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-AlainNeural`	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-ClaudeNeural`	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-JeromeNeural`	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-MauriceNeural`	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-YvesNeural`	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-AmalaNeural`	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-ElkeNeural`	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-GiselaNeural`	Umum, suara anak
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-KlarissaNeural`	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-LouisaNeural`	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-MajaNeural`	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-TanjaNeural`	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-BerndNeural`	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-ChristophNeural`	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KasperNeural`	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KillianNeural`	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KlausNeural`	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-RalfNeural`	Umum

Menambahkan 40 suara baru Spanyol (Meksiko) es-MX, Italia (Italia) it-IT, Portugis (Brasil) pt-BR dan 2 aksen untuk Bahasa Mandarin (Mandarin, Sederhana) zh-CN di Pratinjau Umum:

Bahasa	Lokal	Jenis kelamin	Nama suara	Dukungan gaya
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-BeatrizNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-CarlotaNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-NuriaNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-RenataNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-LarissaNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-CandelaNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-MarinaNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-FiammaNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-IrmaNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-FabiolaNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-PalmiraNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-ImeldaNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-PierinaNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-ElzaNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-ManuelaNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-BrendaNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-LeilaNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-YaraNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-GiovannaNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-LeticiaNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-CecilioNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-LibertoNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-LucianoNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-PelayoNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-YagoNeural`^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-GerardoNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-BenignoNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-CataldoNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-LisandroNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-CalimeroNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-RinaldoNeural`^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-GianniNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-DonatoNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-HumbertoNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-FabioNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-JulioNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-ValerioNeural`^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-NicolauNeural`^Baru	Umum
Mandarin (Mandarin, Sederhana)	`zh-CN-sichuan`	Laki-laki	`zh-CN-sichuan-YunxiSichuanNeural`^Baru	Umum, aksen Sichuan
Mandarin (Mandarin, Sederhana)	`zh-CN-liaoning`	Perempuan	`zh-CN-liaoning-XiaobeiNeural`^Baru	Umum, aksen Liaoning

Peningkatan kualitas untuk en-SG-LunaNeural dan en-SG-WayneNeural
Dukungan output 48kHz untuk Pratinjau Umum dengan en-US-JennyNeural, en-US-AriaNeural, dan zh-CN-XiaoxiaoNeural

Suara neural kustom

Diaktifkan untuk memperbaiki masalah data secara online. Pelajari selengkapnya tentang cara mengatasi masalah data di Speech Studio.
Menambahkan versi resep pelatihan. Pelajari selengkapnya tentang memilih versi resep pelatihan untuk model suara Anda.

Alat Pembuatan Konten Audio

Penomoran halaman yang didukung.
Diaktifkan untuk mengurutkan secara global menurut nama, jenis file, dan waktu pembaruan pada halaman file kerja.

Rilis Mei 2022

Voice TTS Neural bawaan

Merilis 5 suara baru dalam pratinjau publik dengan berbagai gaya untuk memperkaya variasi dalam bahasa Inggris Amerika. Lihat daftar bahasa dan suara lengkap.
Dukung gaya baru ini Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified dan Whispering dalam pratinjau publik untuk en-US-AriaNeural.
Dukung gaya baru ini Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified dan Whispering dalam pratinjau publik untuk en-US-GuyNeural, en-US-JennyNeural.
Dukung gaya baru ini Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified dan Whispering dalam pratinjau publik untuk en-US-SaraNeural. Lihat gaya dan peran suara.
Merilis suara baru zh-CN-YunjianNeural, zh-CN-YunhaoNeural, dan zh-CN-YunfengNeural di pratinjau publik. Lihat daftar bahasa dan suara lengkap.
Dukung 2 gaya baru sports-commentary, sports-commentary-excited, dalam pratinjau publik untuk zh-CN-YunjianNeural. Lihat gaya dan peran suara.
Dukung 1 gaya baru advertisement-upbeat dalam pratinjau publik untuk zh-CN-YunhaoNeural. Lihat gaya dan peran suara.
Gaya cheerful dan sad untuk fr-FR-DeniseNeural umumnya tersedia di semua wilayah.
SSML diperbarui untuk mendukung elemen MathML untuk suara en-US dan en-AU. Pelajari lebih lanjut di markup sintesis ucapan.

Suara neural kustom

Diaktifkan untuk membatalkan pelatihan selama model suara pelatihan. Pelajari selengkapnya tentang cara membatalkan pelatihan.
Diaktifkan untuk mengkloning model (mengganti nama model suara). Pelajari selengkapnya tentang cara mengganti nama model suara Anda.
Diaktifkan untuk menguji model suara Anda dengan menambahkan skrip pengujian Anda sendiri. Pelajari selengkapnya tentang cara mengunggah skrip pengujian Anda.
Diaktifkan untuk memperbarui versi mesin untuk model suara Anda. Pelajari selengkapnya tentang cara memperbarui versi mesin model.
Mendukung lebih banyak wilayah pelatihan. Lihat dukungan wilayah.
Didukung 10 lokal untuk kebohongan suara neural kustom (pratinjau). Lihat Dukungan bahasa komputer.

Alat Pembuatan Konten Audio

Diaktifkan untuk mencoba alat Pembuatan Konten Audio tanpa masuk.
Tata letak yang disempurnakan untuk menyesuaikan fonem.
Performa yang ditingkatkan: Menentukan jumlah maksimum (200) file yang akan diunggah pada satu waktu.
Performa yang ditingkatkan: Menentukan tingkat kedalaman direktori maksimum (5 tingkat).

Rilis Maret 2022

Voice TTS Neural bawaan

Menambahkan dukungan dalam pratinjau publik untuk gaya Cheerful dan Sad dengan fr-FR-DeniseNeural. Lihat gaya dan peran suara.
Kontainer terputus yang dirilis untuk suara TTS saraf bawaan dalam pratinjau publik. Lihat menggunakan kontainer di lingkungan yang terputus.

Suara neural kustom

Peran dukungan berbasis kontrol akses. Pelajari lebih lanjut pada kontrol akses berbasis peran Azure di Studio Azure Cognitive Service untuk Ucapan
Titik akhir privat dan titik akhir layanan jaringan virtual yang didukung. Pelajari lebih lanjut Cara menggunakan titik akhir privat dengan layanan ucapan.

Alat Pembuatan Konten Audio

Memperbarui ukuran file dan batas konkurensi untuk sumber daya tingkat bebas (F0) untuk membuat pengalaman konsisten dengan Speech SDK dan API. Lihat Kuota dan batas layanan ucapan.

Rilis Februari 2022

Suara neural kustom

Merilis kebohongan suara saraf kustom dalam pratinjau publik. Pelajari selengkapnya tentang apa itu kebohongan suara saraf kustom.
Dukungan bahasa diperluas ke 49 lokal. Lihat Dukungan bahasa komputer.
Mendukung lebih banyak wilayah/pusat data. Lihat dukungan wilayah.

Alat Pembuatan Konten Audio

Menghapus batas panjang output untuk mengunduh audio.

Rilis Januari 2022

Bahasa dan suara baru

Menambahkan 10 bahasa dan varian baru untuk teks Neural ke ucapan:

Bahasa	Lokal	Jenis kelamin	Nama suara	Dukungan gaya
Bengali (India)	`bn-IN`	Perempuan	`bn-IN-TanishaaNeural`^Baru	Umum
Bengali (India)	`bn-IN`	Laki-laki	`bn-IN-BashkarNeural`^Baru	Umum
Islandia (Islandia)	`is-IS`	Perempuan	`is-IS-GudrunNeural`^Baru	Umum
Islandia (Islandia)	`is-IS`	Laki-laki	`is-IS-GunnarNeural`^Baru	Umum
Kannada (India)	`kn-IN`	Perempuan	`kn-IN-SapnaNeural`^Baru	Umum
Kannada (India)	`kn-IN`	Laki-laki	`kn-IN-GaganNeural`^Baru	Umum
Kazakh (Kazakhstan)	`kk-KZ`	Perempuan	`kk-KZ-AigulNeural`^Baru	Umum
Kazakh (Kazakhstan)	`kk-KZ`	Laki-laki	`kk-KZ-DauletNeural`^Baru	Umum
Lao (Laos)	`lo-LA`	Perempuan	`lo-LA-KeomanyNeural`^Baru	Umum
Lao (Laos)	`lo-LA`	Laki-laki	`lo-LA-ChanthavongNeural`^Baru	Umum
Makedonia (Republik Makedonia Utara)	`mk-MK`	Perempuan	`mk-MK-MarijaNeural`^Baru	Umum
Makedonia (Republik Makedonia Utara)	`mk-MK`	Laki-laki	`mk-MK-AleksandarNeural`^Baru	Umum
Malayalam (India)	`ml-IN`	Perempuan	`ml-IN-SobhanaNeural`^Baru	Umum
Malayalam (India)	`ml-IN`	Laki-laki	`ml-IN-MidhunNeural`^Baru	Umum
Pashto (Afganistan)	`ps-AF`	Perempuan	`ps-AF-LatifaNeural`^Baru	Umum
Pashto (Afganistan)	`ps-AF`	Laki-laki	`ps-AF-GulNawazNeural`^Baru	Umum
Serbia (Serbia, Cyrillic)	`sr-RS`	Perempuan	`sr-RS-SophieNeural`^Baru	Umum
Serbia (Serbia, Cyrillic)	`sr-RS`	Laki-laki	`sr-RS-NicholasNeural`^Baru	Umum
Bahasa Sinhala (Sri Lanka)	`si-LK`	Perempuan	`si-LK-ThiliniNeural`^Baru	Umum
Bahasa Sinhala (Sri Lanka)	`si-LK`	Laki-laki	`si-LK-SameeraNeural`^Baru	Umum

Untuk daftar lengkap suara yang tersedia, lihat Dukungan bahasa.

Suara neural dalam pratinjau

Menambahkan suara baru untuk en-GB, fr-FR dan de-DE dalam pratinjau:

Bahasa	Lokal	Jenis kelamin	Nama suara	Dukungan gaya
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-AbbiNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-BellaNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-HollieNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-OliviaNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Gadis	`en-GB-MaisieNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-AlfieNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-ElliotNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-EthanNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-NoahNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-OliverNeural`^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-ThomasNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-BrigitteNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-CelesteNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-CoralieNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-JacquelineNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-JosephineNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-YvetteNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Gadis	`fr-FR-EloiseNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-AlainNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-ClaudeNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-JeromeNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-MauriceNeural`^Baru	Umum
Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-YvesNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-AmalaNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-ElkeNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-KlarissaNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-LouisaNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-MajaNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-TanjaNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Gadis	`de-DE-GiselaNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-BerndNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-ChristophNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KasperNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KillianNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KlausNeural`^Baru	Umum
Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-RalfNeural`^Baru	Umum

Untuk daftar lengkap suara yang tersedia, lihat Dukungan bahasa.

Akurasi pengucapan

Peningkatan pengucapan kata bahasa Inggris untuk semua suara he-IL.
Peningkatan akurasi pengucapan tingkat kata untuk cs-CZ dan da-DK.
Diakritik Bahasa Arab yang lebih baik dan penanganan Nikud Ibrani.
Peningkatan pembacaan entitas untuk ja-JP

Studio Ucapan

Suara neural kustom: mengaktifkan pengujian model tambahan menggunakan API batch (API audio panjang)
Pembuatan Konten Audio: mengaktifkan lebih banyak format output

Rilis Oktober 2021

Bahasa dan suara baru

Menambahkan 49 bahasa baru dan 98 suara untuk teks Neural ke ucapan:

Adri di af-ZA Afrikaans (Afrika Selatan), Willem di af-ZA Afrikaans (Afrika Selatan), Mekdes in am-ET Amharic (Ethiopia), Ameha in am-ET Amharic (Ethiopia), Fatima in ar-AE Arabic (United Arab Emirates), Hamdan in ar-AE Arabic (United Arab Emirates), Ala dalam ar-BH bahasa Arab (Bahrain), Ali dalam ar-BH bahasa Arab (Bahrain), Amina dalam ar-DZ bahasa Arab (Aljazair), Ismael dalam ar-DZ bahasa Arab (Aljazair), Rana dalam ar-IQ bahasa Arab (Irak), Bassel dalam ar-IQ bahasa Arab (Irak), Sana dalam ar-JO bahasa Arab (Yordania), Taim dalam ar-JO bahasa Arab (Yordania), Noura dalam ar-KW bahasa Arab (Kuwait), Fahed dalam ar-KW bahasa Arab (Kuwait), Iman dalam ar-LY bahasa Arab (Libya), Omar dalam ar-LY bahasa Arab (Libya), Mouna dalam ar-MA bahasa Arab (Maroko), Jamal dalam ar-MA bahasa Arab (Maroko), Amal dalam ar-QA bahasa Arab (Qatar), Moaz dalam ar-QA bahasa Arab (Qatar), Amany dalam ar-SY bahasa Arab (Suriah), Laith dalam ar-SY bahasa Arab (Suriah), Reem dalam ar-TN bahasa Arab (Tunisia), Hedi dalam ar-TN bahasa Arab (Tunisia), Maryam dalam ar-YE bahasa Arab (Yaman), Saleh dalam ar-YE bahasa Arab (Yaman), Nabanita di bn-BD Bangla (Bangladesh), Pradeep di bn-BD Bangla (Bangladesh), Asilia dalam en-KE bahasa Inggris (Kenya), Chilimba dalam en-KE bahasa Inggris (Kenya), Ezinne dalam en-NG bahasa Inggris (Nigeria), Abeo dalam en-NG bahasa Inggris (Nigeria Imani dalam en-TZ bahasa Inggris (Tanzania), Elimu dalam en-TZ bahasa Inggris (Tanzania), Sofia dalam es-BO bahasa Spanyol (Bolivia), Marcelo dalam es-BO bahasa Spanyol (Bolivia), Catalina dalam es-CL bahasa Spanyol (Chili), Lorenzo dalam es-CL bahasa Spanyol (Chili), Maria di es-CR Spanyol (Kosta Rika), Juan dalam es-CR bahasa Spanyol (Kosta Rika), Belkys dalam es-CU bahasa Spanyol (Kuba), Manuel dalam es-CU bahasa Spanyol (Kuba), Ramona dalam es-DO bahasa Spanyol (Republik Dominika), Emilio dalam es-DO bahasa Spanyol (Republik Dominika), Andrea dalam es-EC bahasa Spanyol (Ekuador), Luis dalam es-EC bahasa Spanyol (Ekuador), Teresa dalam es-GQ bahasa Spanyol (Guinea Khatulistiwa), Javier dalam es-GQ bahasa Spanyol (Guinea Khatulistiwa), Marta dalam es-GT bahasa Spanyol (Guatemala), Andres dalam es-GT bahasa Spanyol (Guatemala), Karla di es-HN Spanyol (Honduras), Carlos dalam es-HN bahasa Spanyol (Honduras), Yolanda dalam es-NI bahasa Spanyol (Nikaragua), Federico dalam es-NI bahasa Spanyol (Nikaragua), Margarita dalam es-PA bahasa Spanyol (Panama), Roberto dalam es-PA bahasa Spanyol (Panama), Camila dalam es-PE bahasa Spanyol (Peru), Alex dalam es-PE bahasa Spanyol (Peru), Karina dalam es-PR bahasa Spanyol (Puerto Riko), Victor dalam es-PR bahasa Spanyol (Puerto Riko), Tania dalam es-PY bahasa Spanyol (Paraguay), Mario dalam es-PY bahasa Spanyol (Paraguay), Lorena dalam es-SV bahasa Spanyol (El Salvador), Rodrigo di es-SV Spanyol (El Salvador), Valentina dalam es-UY bahasa Spanyol (Uruguay), Mateo dalam es-UY bahasa Spanyol (Uruguay), Paola dalam es-VE bahasa Spanyol (Venezuela), Sebastian dalam es-VE bahasa Spanyol (Venezuela), Dila persia fa-IR (Iran), Farid dalam fa-IR bahasa Persia (Iran), Blessica di fil-PH Filipina (Filipina), Angelo di fil-PH Filipina (Filipina), Sabela di gl-ES Galician, Roi di gl-ES Galician, Siti dalam jv-ID bahasa Jawa (Indonesia), Dimas dalam jv-ID bahasa Jawa (Indonesia), Sreymom di km-KH Khmer (Kamboja), Piseth di km-KH Khmer (Kamboja), Nilar di my-MM Burma (Myanmar), Thiha di my-MM Burma (Myanmar), Ubax di so-SO Somali (Somalia), Muuse di so-SO Somali (Somalia), Tuti dalam su-ID bahasa Sunda (Indonesia), Jajang dalam su-ID bahasa Sunda (Indonesia), Rehema di sw-TZ Swahili (Tanzania), Daudi di sw-TZ Swahili (Tanzania), Saranya di ta-LK Tamil (Sri Lanka), Kumar di ta-LK Tamil (Sri Lanka), Venba di ta-SG Tamil (Singapura), Anbu di ta-SG Tamil (Singapura), Teluk di ur-IN Urdu (India), Salman di ur-IN Urdu (India), Madina di uz-UZ Uzbekistan (Uzbekistan), Sardor di uz-UZ Uzbekistan (Uzbekistan), Thando di zu-ZA Zulu (Afrika Selatan), Themba di zu-ZA Zulu (Afrika Selatan).

Rilis September (2021)

Suara chatbot baru di en-US Bahasa Inggris (AS): Sara, mewakili seorang wanita dewasa muda yang berbicara lebih santai dan paling cocok untuk skenario chatbot.
Gaya baru ditambahkan untuk ja-JP Suara Jepang Nanami: Tiga gaya baru sekarang tersedia dengan Nanami: obrolan, layanan pelanggan, dan ceria.
Peningkatan pengucapan secara keseluruhan: Ardi di id-ID, Premwadee di th-TH, Christel di da-DK, HoaiMy, dan NamMinh di vi-VN.
Dua suara baru dalam zh-CN China (Mandarin, China) dalam pratinjau: Xiaochen & Xiaoyan, dioptimalkan untuk skenario ucapan spontan dan layanan pelanggan.

Rilis Juli 2021

Pembaruan teks neural ke ucapan

Mengurangi kesalahan pengucapan dalam bahasa Ibrani sebesar 20%.

Pembaruan Studio Ucapan

Suara saraf kustom: Memperbarui alur pelatihan ke UniTTSv3 yang kualitas modelnya ditingkatkan saat waktu pelatihan berkurang 50% untuk model akustik.
Pembuatan Konten Audio: Memperbaiki masalah performa "Ekspor" dan bug pada pemilihan suara kustom.

Rilis Juni (2021)

Pembaruan Studio Ucapan

Suara saraf kustom: Pelatihan suara neural kustom diperluas untuk mendukung Asia Tenggara. Fitur baru dirilis untuk mendukung pemeriksaan status pengunggahan data.
Pembuatan Konten Audio: Merilis fitur baru untuk mendukung leksikon kustom. Dengan fitur ini, pengguna dapat membuat file leksikon mereka dengan mudah dan menentukan pengucapan yang disesuaikan untuk output audio mereka.

Rilis Mei 2021

Bahasa dan suara baru yang ditambahkan untuk TTS neural

Sepuluh bahasa baru yang diperkenalkan - 20 suara baru dalam 10 lokal baru ditambahkan ke dalam daftar bahasa TTS neural: Yan dalam en-HK bahasa Inggris (Hongkong), Sam dalm en-HK bahasa Inggris (Hongkong), Molly dalam en-NZ bahasa Inggris (Selandia Baru), Mitchell dalam en-NZ bahasa Inggris (Selandia Baru), Luna dalam en-SG bahasa Inggris (Singapura), Wayne dalam en-SG bahasa Inggris (Singapura), Leah dalam en-ZA bahasa Inggris (Afrika Selatan), Luke dalam en-ZA bahasa Inggris (Afrika Selatan), Dhwani dalam gu-IN bahasa Gujarat (India), Niranjan dalam gu-IN bahasa Gujarat (India), Aarohi dalam mr-IN baahsa Marathi (India), Manohar dalam mr-IN bahasa Marathi (India), Elena dalam es-AR bahasa Spanyol (Argentina), Tomas dalam es-AR bahasa Spanyol (Argentina), Salome dalam es-CO bahasa Spanyol (Kolombia), Gonzalo dalam es-CO bahasa Spanyol (Kolombia), Paloma dalam es-US bahasa Spanyol (AS), Alonso dalam es-US bahasa Spanyol (AS), Zuri dalam sw-KE bahasa Swahili (Kenya), Rafiki dalam sw-KE bahasa Swahili (Kenya).
Sebelas suara en-US baru dalam pratinjau - 11 suara en-US baru dalam pratinjau ditambahkan ke bahasa Inggris Amerika, suara tersebut adalah Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Lima zh-CN Suara bahasa Tionghoa (Mandarin, Sederhana) tersedia secara umum - 5 suara bahasa Tionghoa (Mandarin, Sederhana) diubah dari pratinjau menjadi tersedia secara umum. Yaitu Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Sekarang, suara-suara ini tersedia di semua wilayah. Yunxi ditambahkan dengan gaya 'asisten' baru, yang cocok untuk bot obrolan dan agen suara. Gaya suara Xiaomo disempurnakan agar lebih alami dan menonjol.

Rilis April (2021)

Teks neural ke ucapan tersedia di 21 wilayah

Dua belas wilayah baru ditambahkan - Teks neural ke ucapan sekarang tersedia di 12 wilayah baru ini: Japan East, , , North EuropeSouth Central USSoutheast AsiaNorth Central USJapan WestKorea Central, UK South, west Central US, , West Europe, , West US, . West US 2 Periksa di sini untuk daftar lengkap 21 wilayah yang didukung.

Rilis Maret 2021

Bahasa dan suara baru yang ditambahkan untuk TTS neural

Enam bahasa baru yang diperkenalkan - 12 suara baru di 6 lokal baru ditambahkan ke daftar bahasa TTS neural: Nia dalam cy-GB bahasa Wales (Inggris), Aled dalam cy-GB bahasa Wales (Inggris), Rosa dalam en-PH bahasa Inggris (Filipina), James dalam en-PH bahasa Inggris (Filipina), Charline dalam fr-BE bahasa Prancis (Belgia), Gerard dalam fr-BE bahasa Prancis (Belgia), Dena dalam nl-BE bahasa Belanda (Belgia), Arnaud dalam nl-BE bahasa Belanda (Belgia), Polina dalam uk-UA bahasa Ukraina (Ukraina), Ostap dalam uk-UA bahasa Ukraina (Ukraina), Uzma dalam ur-PK bahasa Urdu (Pakistan), Asad dalam ur-PK bahasa Urdu (Pakistan).
Lima bahasa dari pratinjau ke GA - 10 suara dalam 5 lokal yang diperkenalkan pada november sekarang adalah GA: Kert di et-EE Estonia (Estonia), Colm di ga-IE Irlandia (Irlandia), Nils di lv-LV Latvia (Latvia), Leonas di lt-LT Lithuania (Lithuania), Joseph di mt-MT Malta (Malta).
Suara laki-laki baru ditambahkan untuk bahasa Prancis (Kanada) - Suara baru Antoine tersedia untuk fr-CA bahasa Prancis (Kanada).
Peningkatan kualitas - Pengurangan tingkat kesalahan pengucapan pada hu-HU bahasa Hungaria - 48,17%, nb-NO Norwegia - 52,76%, nl-NL Belanda (Belanda) - 22,11%.

Dengan rilis ini, kami sekarang mendukung total 142 suara neural di 60 bahasa/lokal. Selain itu, lebih dari 70 suara standar tersedia dalam 49 bahasa/lokal. Kunjungi Dukungan bahasa untuk daftar lengkap.

Dapatkan peristiwa pose wajah untuk menganimasikan karakter

Teks Neural ke ucapan sekarang menyertakan peristiwa viseme. Peristiwa Viseme memungkinkan pengguna mendapatkan urutan pose wajah bersama dengan ucapan yang disintesis. Visemes dapat digunakan untuk mengontrol pergerakan model avatar 2D dan 3D, mencocokkan gerakan mulut dengan ucapan yang disintesis. Peristiwa Viseme hanya tersedia untuk suara en-US-AriaNeural saat ini.

Menambahkan elemen marka buku dalam Bahasa Markup Sintesis Ucapan (SSML)

Elemen marka buku memungkinkan Anda menyisipkan penanda kustom di SSML untuk mendapatkan offset setiap penanda di aliran audio. Elemen marka buku dapat digunakan untuk mereferensikan lokasi tertentu dalam urutan teks atau tag.

Rilis Februari 2021

GA suara neural kustom

Suara neural kustom adalah GA pada bulan Februari dalam 13 bahasa: Mandarin (Mandarin, Sederhana), Inggris (Australia), Inggris (India), Inggris (Inggris), Inggris (Amerika Serikat), Prancis (Kanada), Prancis (Prancis), Jerman (Jerman), Italia (Italia), Jepang (Jepang), Korea (Korea), Portugis (Brasil), Spanyol (Meksiko), dan Spanyol (Spanyol). Pelajari selengkapnya tentang apa itu suara saraf kustom dan cara menggunakannya secara bertanggung jawab. Fitur suara neural kustom memerlukan pendaftaran dan Microsoft dapat membatasi akses berdasarkan kriteria kelayakan Microsoft. Pelajari selengkapnya tentang akses terbatas.

Rilis Desember 2020

Suara saraf baru di GA dan pratinjau

Merilis 51 suara baru untuk total 129 suara neural di 54 bahasa/lokal:

46 suara baru di lokal GA: Shakir dalam ar-EG bahasa Arab (Mesir), Hamed dalam ar-SA bahasa Arab (Arab Saudi), Borislav dalam bg-BG bahasa Bulgaria (Bulgaria), Joana di ca-ES Catalan, Antonin di cs-CZ Ceko (Republik Ceko), Jeppe dalam da-DK bahasa Denmark (Denmark), Jonas dalam de-AT bahasa Jerman (Austria), Jan dalam de-CH bahasa Jerman (Swiss), Nestoras dalam el-GR bahasa Yunani (Yunani), Liam dalam en-CA bahasa Inggris (Kanada), Connor dalam en-IE bahasa Inggris (Irlandia), Madhur di en-IN Hindi (India), Mohan di en-IN Telugu (India), Prabhat dalam en-IN bahasa Inggris (India), Valluvar di en-IN Tamil (India), Enric in es-ES Catalan, Kert dalam bahasa et-EE Estonia (Estonia), Harri dalam fi-FI bahasa Finlandia (Finlandia), Selma dalam fi-FI bahasa Finlandia (Finlandia), Fabrice dalam bahasa fr-CH Prancis (Swiss), Colm di ga-IE Irlandia (Irlandia), Avri dalam he-IL bahasa Ibrani (Israel), Srecko dalam hr-HR bahasa Kroasia (Kroasia), Tamas di hu-HU Hongaria (Hungaria), Gadis dalam id-ID bahasa Indonesia (Indonesia), Leonas di lt-LT Lithuania (Lithuania), Nils di lv-LV Latvia (Latvia), Osman di ms-MY Melayu (Malaysia), Joseph di mt-MT Malta (Malta), Finn di nb-NO Norwegia, Bokmål (Norwegia), Pernille di nb-NO Norwegia, Bokmål (Norwegia), Fenna di nl-NL Belanda (Belanda), Maarten dalam nl-NL bahasa Belanda (Belanda), Agnieszka di pl-PL Polandia (Polandia), Marek di pl-PL Polandia (Polandia), Duarte dalam pt-BR bahasa Portugis (Brasil), Raquel di pt-PT Portugis (Potugal), Emil di ro-RO Rumania (Rumania), Dmitry di ru-RU Rusia (Rusia), Svetlana di ru-RU Rusia (Rusia), Lukas di sk-SK Slowakia (Slowakia), Rok di sl-SI Slovenia (Slovenia), Mattias di sv-SE Swedia (Swedia), Sofie di sv-SE Swedia (Swedia), Niwat di th-TH Thailand (Thailand), Ahmet dalam tr-TR bahasa Turki (Türkiye), NamMinh dalam vi-VN bahasa Vietnam (Vietnam), HsiaoChen dalam zh-TW bahasa Mandarin Taiwan (Taiwan), YunJhe dalam zh-TW bahasa Mandarin Taiwan (Taiwan), HiuMaan dalam zh-HK bahasa Kanton Cina (Wilayah Administratif Khusus Hong Kong), WanLung dalam zh-HK Bahasa Kanton Cina (Hong Kong SAR).
5 suara baru dalam lokal pratinjau: Kert dalam et-EE bahasa Estonia (Estonia), Colm dalam ga-IE bahasa Irlandia (Irlandia), Nils dalam lv-LV bahasa Latvia (Latvia), Leonas dalam lt-LT bahasa Lithuania (Lithuania), Joseph dalam mt-MT bahasa Malta (Malta).

Dengan rilis ini, kami sekarang mendukung total 129 suara neural di 54 bahasa/lokal. Selain itu, lebih dari 70 suara standar tersedia dalam 49 bahasa/lokal. Kunjungi Dukungan bahasa untuk daftar lengkap.

Pembaruan untuk Pembuatan Konten Audio

Antarmuka pengguna pemilihan suara yang disempurnakan dengan kategori suara dan deskripsi suara terperinci.
Mengaktifkan penyetelan intonasi untuk semua suara neural dalam berbagai bahasa.
Mengotomatiskan lokalisasi antarmuka pengguna berdasarkan bahasa browser.
Mengaktifkan StyleDegree kontrol untuk semua zh-CN suara Neural. Kunjungi alat Pembuatan Konten Audio untuk melihat fitur baru.

Pembaruan untuk suara zh-CN

Memperbarui semua zh-CN suara neural untuk mendukung berbahasa Inggris.
Mengaktifkan semua zh-CN suara neural untuk mendukung penyesuaian intonasi. Alat SSML atau Pembuatan Konten Audio dapat digunakan untuk menyesuaikan intonasi terbaik.
Memperbarui semua zh-CN suara neural multi-gaya untuk mendukung kontrol StyleDegree. Intensitas emosi (lembut atau kuat) dapat disesuaikan.
Diperbarui zh-CN-YunyeNeural untuk mendukung beberapa gaya yang dapat melakukan emosi yang berbeda.

Rilis November 2020

Lokal dan suara baru dalam pratinjau

Lima suara dan bahasa baru diperkenalkan ke portofolio teks neural ke ucapan. Suara dan bahasa tersebut adalah: Grace dalam bahasa Malta (Malta), Ona dalam bahasa Lithuania (Lithuania), Anu dalam bahasa Estonia (Estonia), Orla dalam bahasa Irlandia (Irlandia) dan Everita dalam bahasa Latvia (Latvia).
Lima suara baruzh-CN dengan dukungan beberapa gaya dan peran: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan, dan Yunxi.

Suara-suara ini tersedia dalam pratinjau publik di tiga wilayah Azure: EastUS, SouthEastAsia, dan WestEurope.

Teks neural ke UCAPAN Container GA

Dengan teks Neural ke Kontainer ucapan, pengembang dapat menjalankan sintesis ucapan dengan suara digital paling alami di lingkungan mereka sendiri untuk persyaratan keamanan dan tata kelola data tertentu. Periksa cara menginstal Kontainer Ucapan.

Fitur baru

Suara kustom: memungkinkan pengguna menyalin model suara dari satu wilayah ke wilayah lain; penangguhan dan melanjutkan titik akhir yang didukung. Buka portal di sini.
Dukungan tag keheningan SSML.
Peningkatan kualitas suara TTS umum: Peningkatan akurasi pengucapan tingkat kata dalam nb-NO. Mengurangi 53% kesalahan pengucapan.

Baca selengkapnya di blog teknologi ini.

Rilis Oktober 2020

Fitur baru

Jenny mendukung gaya newscast baru. Lihat cara menggunakan gaya berbicara di SSML.
Suara neural ditingkatkan ke vocoder HiFiNet, dengan keakuratan audio yang lebih tinggi dan kecepatan sintesis yang lebih cepat. Ini menguntungkan pelanggan yang skenarionya bergantung pada audio hi-fi atau interaksi panjang, termasuk dubbing video, buku audio, atau materi pendidikan online. Baca lebih selengkapnya cerita dan dengarkan sampel suara di blog komunitas teknologi kami
Suara kustom & Audio Content Creation Studio dilokalkan ke 17 lokal. Pengguna dapat dengan mudah mengalihkan antarmuka pengguna ke bahasa lokal untuk pengalaman yang lebih bersahabat.
Pembuatan Konten Audio: Menambahkan kontrol tingkat gaya untuk XiaoxiaoNeural; Menyempurnakan fitur hentian yang disesuaikan untuk menyertakan hentian inkremental 50ms.

Peningkatan kualitas suara TTS umum

Peningkatan akurasi pengucapan tingkat kata di pl-PL (pengurangan tingkat kesalahan: 51%) dan fi-FI (pengurangan tingkat kesalahan: 58%)
Peningkatan ja-JP pembacaan kata tunggal untuk skenario kamus. Mengurangi 80% kesalahan pengucapan.
zh-CN-XiaoxiaoNeural: Meningkatkan sentimen/Layanan Pelanggan/Siaran Berita/Kualitas suara gaya Ceria/Marah.
zh-CN: Meningkatkan pengucapan dan nada ringan Erhua dan prosody ruang halus, yang sangat meningkatkan kecerdasan.

Rilis September 2020

Fitur baru

Teks neural ke ucapan
- Diperluas untuk mendukung 18 bahasa/lokal baru. Bahasa/lokal baru tersebut adalah Bulgaria, Ceko, Jerman (Austria), Jerman (Swiss), Yunani, Inggris (Irlandia), Prancis (Swiss), Ibrani, Kroasia, Hungaria, Indonesia, Melayu, Rumania, Slovakia, Slovenia, Tamil, Telugu, dan Vietnam.
- Merilis 14 suara baru untuk memperkaya variasi dalam bahasa yang ada. Lihat daftar bahasa dan suara lengkap.
- Gaya berbicara baru untuk suaraen-US dan zh-CN. Jenny, suara baru dalam bahasa Inggris (AS), mendukung chatbot, layanan pelanggan, dan gaya asisten. 10 gaya berbicara baru tersedia dengan suara zh-CN kami, XiaoXiao. Selain itu, suara neural XiaoXiao mendukung penyetelan StyleDegree. Lihat cara menggunakan gaya berbicara di SSML.
Kontainer: Kontainer teks neural ke ucapan dirilis dalam pratinjau publik dengan 16 suara tersedia dalam 14 bahasa. Pelajari selengkapnya tentang cara menyebarkan Kontainer Ucapan untuk teks Neural ke ucapan

Baca pengumuman lengkap pembaruan TTS untuk Ignite 2020

Rilis Agustus 2020

Fitur baru

Teks neural ke ucapan: gaya berbicara baru untuk en-US suara Aria. AriaNeural bisa terdengar seperti pembaca berita saat membaca berita. Gaya 'newscast-formal' terdengar lebih serius, sementara gaya 'newscast-casual' lebih santai dan informal. Lihat cara menggunakan gaya berbicara di SSML.
Suara kustom: fitur baru dirilis untuk memeriksa kualitas data pelatihan secara otomatis. Saat Anda mengunggah data, sistem akan memeriksa berbagai aspek data audio dan transkrip Anda, serta secara otomatis memperbaiki atau memfilter masalah untuk meningkatkan kualitas model suara. Ini mencakup volume audio Anda, tingkat kebisingan, akurasi pengucapan ucapan, penyelarasan ucapan dengan teks yang dinormalkan, keheningan dalam audio, selain format audio dan skrip.
Pembuatan Konten Audio: serangkaian fitur baru untuk mengaktifkan kemampuan penyetelan suara dan manajemen audio yang lebih kuat.
- Pengucapan: fitur penyetelan pengucapan diperbarui ke set fonem terbaru. Anda dapat memilih elemen fonem yang tepat dari pustaka dan memperbaiki pengucapan kata-kata yang telah Anda pilih.
- Unduh: Fitur "Unduh"/"Ekspor" audio ditingkatkan untuk mendukung pembuatan audio menurut paragraf. Anda dapat mengedit konten dalam file/ SSML yang sama, sambil menghasilkan beberapa output audio. Struktur file "Unduh" juga disempurnakan. Sekarang, Anda dapat dengan mudah mendapatkan semua file audio dalam satu folder.
- Status tugas : Pengalaman ekspor multi-file ditingkatkan. Ketika Anda mengekspor beberapa file sebelumnya, jika salah satu file gagal, seluruh tugas akan gagal. Namun sekarang, semua file lain akan berhasil diekspor. Laporan tugas diperkaya dengan informasi yang lebih mendetail dan terstruktur. Anda dapat memeriksa log untuk semua file dan kalimat yang gagal sekarang dengan laporan.
- Dokumentasi SSML: ditautkan ke dokumen SSML untuk membantu Anda memeriksa aturan tentang cara menggunakan semua fitur penyetelan.
API Voice List diperbarui untuk menyertakan nama tampilan yang mudah digunakan dan gaya berbicara yang didukung untuk suara saraf.

Peningkatan kualitas suara TTS umum

Mengurangi kesalahan pengucapan tingkat kata % untuk ru-RU (kesalahan berkurang 56%) dan sv-SE (kesalahan berkurang 49%)
Peningkatan pembacaan kata polifoni pada en-US suara neural sebesar 40%. Contoh kata-kata polifoni termasuk "baca", "hidup", "konten", "rekam", "objek", dll.
Meningkatkan kealamian nada pertanyaan dalam fr-FR. Perolehan MOS (Skor Opini Rata-Rata): +0.28
Memperbarui vocoder untuk suara berikut, dengan peningkatan keakuratan dan kecepatan performa keseluruhan sebesar 40%.

Lokal Suara

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Lokal	Suara
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Perbaikan bug

Memperbaiki sejumlah bug dengan alat Pembuatan Konten Audio
- Memperbaiki masalah dengan refresh otomatis.
- Memperbaiki masalah gaya suara di zh-CN di kawasan Asia Tenggara.
- Memperbaiki masalah stabilitas, termasuk kesalahan ekspor dengan tag 'break', dan kesalahan dalam tanda baca.

Rilis April 2024

Ucapan real time ke teks dengan diariazation (GA)

Ucapan real time ke teks dengan diariazation sekarang tersedia secara umum.

Lihat Mulai cepat diarisasi real time untuk mempelajari selengkapnya tentang cara membuat aplikasi ucapan ke teks yang menggunakan diarisasi untuk membedakan antara pembicara yang berbeda yang berpartisipasi dalam percakapan.

Pembaruan model Ucapan ke Teks

Real-time Speech to Text telah merilis model baru dengan kemampuan dwibahasa. Model ini en-IN sekarang mendukung skenario dua bahasa Inggris dan Hindi dan menawarkan akurasi yang ditingkatkan. Lokal Arab (ar-AE, , ar-BH, ar-ILar-DZ, ar-IQ, ar-LYar-KWar-LBar-MAar-OM, , ar-PS, ar-QA, ar-SA, , ar-SY, ar-TN, ) ar-YEsekarang dilengkapi dengan dukungan dua bahasa untuk bahasa Inggris, akurasi yang ditingkatkan dan dukungan pusat panggilan.

Transkripsi batch telah meluncurkan model dengan arsitektur baru untuk es-ES, , es-MX, fr-FR, it-ITja-JP, ko-KR, pt-BR, zh-CN. Model-model ini secara signifikan meningkatkan keterbacaan dan pengenalan entitas.

Rilis Maret 2024

Ketersediaan umum bisikan (GA)

Model Ucapan berbisik ke teks dengan Azure AI Speech sekarang tersedia secara umum.

Lihat Apa model Whisper? untuk mempelajari selengkapnya tentang kapan menggunakan Azure AI Speech vs. Azure OpenAI Service.

Rilis Februari 2024

Penilaian Pengucapan

Penilaian Pengucapan Ucapan sekarang mendukung 23 bahasa yang tersedia secara umum (dengan 5 bahasa baru ditambahkan), dengan 3 bahasa lainnya tersedia dalam pratinjau publik. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.

Bahasa	Lokal (BCP-47)
Arab (Mesir)	`ar-EG`¹
Arab (Arab Saudi)	`ar-SA`
Mandarin (Kanton, Tradisional)	`zh-HK`¹
Mandarin (Mandarin, Sederhana)	`zh-CN`
Bahasa Belanda (Belanda)	`nl-NL`¹
Inggris (Australia)	`en-AU`
Inggris (Kanada)	`en-CA`
Inggris (India)	`en-IN`
Inggris (Kerajaan Inggris Bersatu)	`en-GB`
Inggris (Amerika Serikat)	`en-US`
Prancis (Kanada)	`fr-CA`
Bahasa Prancis (Prancis)	`fr-FR`
Bahasa Jerman (Jerman)	`de-DE`
Hindi (India)	`hi-IN`
Italia (Italia)	`it-IT`
Jepang (Jepang)	`ja-JP`
Korea (Korea)	`ko-KR`
Melayu (Malaysia)	`ms-MY`
Bahasa Norwegia Bokmål (Norwegia)	`nb-NO`
Portugis (Brasil)	`pt-BR`
Rusia (Rusia)	`ru-RU`
Spanyol (Meksiko)	`es-MX`
Spanyol (Spanyol)	`es-ES`
Swedia (Swedia)	`sv-SE`
Tamil (India)	`ta-IN`
Bahasa Vietnam (Vietnam)	`vi-VN`

¹ Bahasa dalam pratinjau publik untuk penilaian pengucapan.

Daftar frasa

Menambahkan dukungan daftar frasa untuk lokal berikut: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Rilis November 2023

Memperkenalkan Pemodelan Ucapan Dua Bahasa!

Kami sangat senang untuk mengungkap tambahan groundbreaking untuk pemodelan ucapan real-time kami—Pemodelan Ucapan Bilingual. Peningkatan signifikan ini memungkinkan model ucapan kami untuk dengan mulus mendukung pasangan bahasa dwibahasa, seperti bahasa Inggris dan Spanyol, serta bahasa Inggris dan Prancis. Fitur ini memberdayakan pengguna untuk dengan mudah beralih antar bahasa selama interaksi real-time, menandai momen penting dalam komitmen kami untuk meningkatkan pengalaman komunikasi.

Sorotan Utama:

Dukungan Dwibahasa: Dengan rilis terbaru kami, pengguna dapat beralih dengan mulus antara bahasa Inggris dan Spanyol atau antara bahasa Inggris dan Prancis selama interaksi ucapan real-time. Fungsionalitas ini disesuaikan untuk mengakomodasi penutur dua bahasa yang sering bertransisi antara kedua bahasa ini.
Pengalaman Pengguna yang Ditingkatkan: Pembicara dua bahasa, baik di tempat kerja, rumah, atau di berbagai pengaturan komunitas, akan menemukan fitur ini sangat bermanfaat. Kemampuan model untuk memahami dan menanggapi bahasa Inggris dan Spanyol secara real time membuka kemungkinan baru untuk komunikasi yang efektif dan lancar.

Cara Menggunakan:

Pilih es-US (Spanyol dan Inggris) atau fr-CA (Prancis dan Inggris) saat Anda memanggil Speech Service API atau mencobanya di Speech Studio. Jangan ragu untuk berbicara bahasa atau mencampurnya bersama-sama—model dirancang untuk beradaptasi secara dinamis, memberikan respons yang akurat dan sadar konteks dalam kedua bahasa.

Saatnya meningkatkan game komunikasi Anda dengan rilis fitur terbaru kami—komunikasi multibahasa yang mulus di ujung jari Anda!

Pembaruan model Ucapan ke teks

Kami senang memperkenalkan pembaruan yang signifikan pada model ucapan kami, menjanjikan akurasi yang ditingkatkan, peningkatan keterbacaan, dan pengenalan entitas yang disempurnakan. Peningkatan ini dilengkapi dengan struktur baru yang kuat, didukung oleh himpunan data pelatihan yang diperluas, memastikan kemajuan yang ditandai dalam performa keseluruhan. Ini termasuk model yang baru dirilis untuk en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE, dan he-IL.

Sorotan:

Akurasi yang lebih baik dengan struktur model baru: Struktur model yang ditentukan ulang, ditambah dengan himpunan data pelatihan yang lebih kaya, meningkatkan tingkat akurasi, menjanjikan output ucapan yang lebih tepat.
Peningkatan keterbacaan: Model terbaru kami menghadirkan peningkatan besar pada keterbacaan, meningkatkan koherensi dan kejelasan konten lisan.
Pengenalan entitas tingkat lanjut: Pengenalan entitas menerima peningkatan yang substansial, menghasilkan hasil yang lebih akurat dan bernuansa.

Dampak potensial: Terlepas dari kemajuan ini, sangat penting untuk memperhatikan potensi dampak:

Fitur Batas Waktu Diam Kustom: Pengguna yang menggunakan batas waktu keheningan kustom, terutama dengan pengaturan rendah, mungkin mengalami segmentasi berlebihan dan potensi kelalaian frasa kata tunggal.
Model baru mungkin menunjukkan masalah kompatibilitas dengan fitur Awalan kata kunci, dan pengguna disarankan untuk menilai performanya dalam aplikasi spesifik mereka.
Pengurangan kata atau frasa perbedaan: Pengguna mungkin melihat pengurangan kata atau frasa perbedaan seperti "um" atau "uh" dalam output ucapan.
Ketidakakuratan dalam durasi tanda waktu kata: Beberapa kata disfluensi mungkin menampilkan ketidakakuratan dalam durasi tanda waktu, membutuhkan perhatian dalam aplikasi tergantung pada waktu yang tepat.
Varian distribusi skor keyakinan: Pengguna yang mengandalkan skor keyakinan dan ambang batas terkait harus menyadari potensi variasi dalam distribusi, membutuhkan penyesuaian untuk performa optimal.
Peningkatan akurasi fitur daftar frasa mungkin dipengaruhi oleh kesalahan pengenalan frasa tertentu.

Kami mendorong Anda untuk mengeksplorasi peningkatan ini dan mempertimbangkan potensi masalah untuk transisi yang mulus, dan seperti biasa, umpan balik Anda berperan penting dalam menyempurnakan dan memajukan layanan kami.

Penilaian Pengucapan

Penilaian Pengucapan Ucapan sekarang mendukung 18 bahasa yang tersedia secara umum, dengan enam bahasa lagi tersedia dalam pratinjau publik. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.
Kami sangat senang mengumumkan bahwa Penilaian Pengucapan memperkenalkan fitur baru mulai 1 November 2023: Prosody, Tata Bahasa, Kosakata, dan Topik. Penyempurnaan ini bertujuan untuk memberikan pengalaman pembelajaran bahasa yang lebih komprehensif untuk penilaian membaca dan berbicara. Tingkatkan ke SDK versi 1.35.0 atau yang lebih baru untuk menjelajahi detail lebih lanjut dalam Cara menggunakan penilaian pengucapan dan penilaian Pengucapan di Speech Studio.

Rilis September 2023

Pratinjau publik bisikan

Azure AI Speech sekarang mendukung model Whisper OpenAI melalui API transkripsi batch. Untuk mempelajari lebih lanjut , lihat panduan Membuat transkripsi batch.

Catatan

Azure OpenAI Service juga mendukung model Whisper OpenAI untuk ucapan ke teks dengan REST API sinkron. Untuk mempelajari lebih lanjut , lihat mulai cepat.

Lihat Apa model Whisper? untuk mempelajari selengkapnya tentang kapan menggunakan Azure AI Speech vs. Azure OpenAI Service.

Pratinjau publik REST API ucapan ke teks v3.2

REST API ucapan ke teks v3.2 tersedia dalam pratinjau. REST API ucapan ke teks v3.1 umumnya tersedia. REST API ucapan ke teks v3.0 akan dihentikan pada 1 April 2026. Untuk informasi selengkapnya, lihat panduan migrasi Ucapan ke teks REST API v3.0 ke v3.1 dan v3.1 ke v3.2 .

Rilis Agustus 2023

Ucapan Baru ke teks-lokal:

Ucapan ke teks mendukung dua lokal baru seperti yang diperlihatkan dalam tabel berikut. Lihat daftar bahasa lengkap di sini.

Lokal	Bahasa
`pa-IN`	Punjabi (India)
`ur-IN`	Urdu (India)

Penilaian Pengucapan

Penilaian Pengucapan Ucapan sekarang mendukung 3 bahasa tambahan yang umumnya tersedia dalam bahasa Inggris (Kanada), Inggris (India), dan Prancis (Kanada), dengan 3 bahasa tambahan yang tersedia dalam pratinjau. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.

Rilis Mei 2023

Penilaian Pengucapan

Penilaian Pengucapan Ucapan sekarang mendukung 3 bahasa tambahan yang umumnya tersedia dalam bahasa Jerman (Jerman), Jepang (Jepang), dan Spanyol (Meksiko), dengan 4 bahasa tambahan yang tersedia dalam pratinjau. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.
Anda sekarang dapat menggunakan tingkat komitmen Ucapan ke Teks standar untuk penilaian pengucapan di semua wilayah publik. Jika Anda membeli tingkat komitmen untuk Ucapan ke teks standar, pengeluaran untuk penilaian pengucapan akan memenuhi komitmen. Lihat harga tingkat komitmen.

Rilis Februari 2023

Penilaian Pengucapan

Penilaian Pengucapan Ucapan sekarang mendukung 5 bahasa tambahan yang umumnya tersedia dalam bahasa Inggris (Inggris), Inggris (Australia), Prancis (Prancis), Spanyol (Spanyol), dan Mandarin (Mandarin, Sederhana), dengan bahasa lain yang tersedia dalam pratinjau.
Menambahkan kode sampel yang menunjukkan cara menggunakan Penilaian Pengucapan dalam mode streaming di aplikasi Anda sendiri.
- C#: Lihat kode sampel.
- C++: Lihat kode sampel.
- java: Lihat kode sampel.
- javascript: Lihat kode sampel.
- Objective-C: Lihat kode sampel.
- Python: Lihat kode sampel.
- Swift: Lihat kode sampel.

Ucapan kustom

Dukungan untuk audio + transkrip berlabel manusia ditambahkan untuk de-AT lokal.

Rilis Januari 2023

Ucapan kustom

Dukungan untuk audio + transkrip berlabel manusia ditambahkan untuk lokal tambahan: ar-BH, , , ar-DZar-EG, ar-MA, ar-SA, ar-TN, ar-YE, dan ja-JP.

Dukungan untuk adaptasi teks terstruktur ditambahkan untuk lokal de-AT.

Rilis Desember 2022

REST API ucapan ke teks

REST API Ucapan ke teks versi 3.1 umumnya tersedia. Rest API Ucapan ke teks versi 3.0 akan dihentikan. Untuk informasi selengkapnya tentang cara bermigrasi, lihat panduan.

Rilis Oktober 2022

Ucapan baru ke lokal teks

Menambahkan dukungan untuk Malayalam (India) dengan ml-IN lokal. Lihat daftar bahasa lengkap di sini.

Rilis Juli 2022

Ucapan Baru ke teks-lokal:

Menambahkan 7 lokal baru seperti yang ditunjukkan pada tabel berikut. Lihat daftar bahasa lengkap di sini.

Lokal	Bahasa
`bs-BA`	Kroasia (Bosnia dan Herzegovina)
`yue-CN`	Bahasa Tionghoa (Kanton, Sederhana)
`zh-CN-sichuan`	Tiongkok (Mandarin Barat Daya, Sederhana)
`wuu-CN`	Bahasa Tionghoa (Wu, Sederhana)
`ps-AF`	Pashto (Afganistan)
`so-SO`	Somalia (Somalia)
`cy-GB`	Welsh (Inggris Raya)

Rilis Juni 2022

Ucapan Baru ke teks-lokal:

Menambahkan 10 lokal baru seperti yang diperlihatkan dalam tabel berikut. Lihat daftar bahasa lengkap di sini.

Lokal	Bahasa
`sq-AL`	Albania (Albania)
`hy-AM`	Armenia (Armenia)
`az-AZ`	Azerbaijani (Azerbaijan)
`eu-ES`	Basque
`gl-ES`	Galisia
`ka-GE`	Georgia (Georgia)
`it-CH`	Italia (Swiss)
`kk-KZ`	Kazakh (Kazakhstan)
`mn-MN`	Mongolia (Mongolia)
`ne-NP`	Nepal (Nepal)

Rilis April 2022

Ucapan Baru ke teks-lokal:

Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokal	Bahasa
`bn-IN`	Bengali (India)

Rilis Januari 2022

Ucapan Baru ke teks-lokal:

Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokal	Bahasa
`af-ZA`	Afrikaans (Afrika Selatan)
`am-ET`	Amharis (Ethiopia)
`de-CH`	Jerman (Swiss)
`fr-BE`	Prancis (Belgia)
`is-IS`	Islandia (Islandia)
`jv-ID`	Jawa (Indonesia)
`km-KH`	Khmer (Kamboja)
`kn-IN`	Kannada (India)
`lo-LA`	Lao (Laos)
`mk-MK`	Makedonia (Makedonia Utara)
`my-MM`	Burma (Myanmar)
`nl-BE`	Belanda (Belgia)
`si-LK`	Bahasa Sinhala (Sri Lanka)
`sr-RS`	Serbia (Serbia)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Ukraina (Ukraina)
`uz-UZ`	Uzbekistan (Uzbekistan)
`zu-ZA`	Zulu (Afrika Selatan)

Rilis Juli 2021

Ucapan Baru ke teks-lokal:

Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokal	Bahasa
`ar-DZ`	Arab (Aljazair)
`ar-LY`	Arab (Libya)
`ar-MA`	Arab (Maroko)
`ar-TN`	Arab (Tunisia)
`ar-YE`	Arab (Yaman)
`bg-BG`	Bulgaria (Bulgaria)
`el-GR`	Yunani (Yunani)
`et-EE`	Estonia (Estonia)
`fa-IR`	Persia (Iran)
`ga-IE`	Irlandia (Irlandia)
`hr-HR`	Kroasia (Kroasia)
`lt-LT`	Lituania (Lituania)
`lv-LV`	Latvia (Latvia)
`mt-MT`	Malta (Malta)
`ro-RO`	Rumania (Rumania)
`sk-SK`	Slowakia (Slowakia)
`sl-SI`	Slovenia (Slovenia)
`sw-KE`	Swahili (Kenya)

Rilis Januari 2021

Ucapan Baru ke teks-lokal:

Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokal	Bahasa
`ar-AE`	Arab (Uni Emirat Arab)
`ar-IL`	Arab (Israel)
`ar-IQ`	Arab (Irak)
`ar-OM`	Arab (Oman)
`ar-PS`	Arab (Otoritas Nasional Palestina)
`de-AT`	Jerman (Austria)
`en-GH`	Inggris (Ghana)
`en-KE`	Inggris (Kenya)
`en-NG`	Inggris (Nigeria)
`en-TZ`	Inggris (Tanzania)
`es-GQ`	Spanyol (Guinea Khatulistiwa)
`fil-PH`	Filipino (Filipina)
`fr-CH`	Prancis (Swiss)
`he-IL`	Ibrani (Israel)
`id-ID`	Indonesia (Indonesia)
`ms-MY`	Melayu (Malaysia)
`vi-VN`	Bahasa Vietnam (Vietnam)

Rilis Agustus 2020

Ucapan baru ke lokal teks:

Ucapan ke teks merilis cs-CZ 26 lokal baru pada bulan Agustus: 2 bahasa Eropa dan hu-HU, 5 lokal Inggris dan 19 lokal Spanyol yang mencakup sebagian besar negara/wilayah Amerika Selatan. Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokal	Bahasa
`cs-CZ`	Bahasa Ceko (Republik Ceko)
`en-HK`	Inggris (Wilayah Administratif Khusus Hong Kong)
`en-IE`	Inggris (Irlandia)
`en-PH`	Bahasa Inggris (Filipina)
`en-SG`	Inggris (Singapura)
`en-ZA`	Inggris (Afrika Selatan)
`es-AR`	Bahasa Spanyol (Argentina)
`es-BO`	Bahasa Spanyol (Bolivia)
`es-CL`	Bahasa Spanyol (Chili)
`es-CO`	Bahasa Spanyol (Kolombia)
`es-CR`	Bahasa Spanyol (Kosta Rika)
`es-CU`	Bahasa Spanyol (Kuba)
`es-DO`	Bahasa Spanyol (Republik Dominika)
`es-EC`	Bahasa Spanyol (Ekuador)
`es-GT`	Bahasa Spanyol (Guatemala)
`es-HN`	Bahasa Spanyol (Honduras)
`es-NI`	Bahasa Spanyol (Nikaragua)
`es-PA`	Bahasa Spanyol (Panama)
`es-PE`	Bahasa Spanyol (Peru)
`es-PR`	Bahasa Spanyol (Puerto Riko)
`es-PY`	Bahasa Spanyol (Paraguay)
`es-SV`	Bahasa Spanyol (El Salvador)
`es-US`	Bahasa Spanyol (AS)
`es-UY`	Bahasa Spanyol (Uruguay)
`es-VE`	Bahasa Spanyol (Venezuela)
`hu-HU`	Bahasa Hungaria (Hungaria)

Rilis Februari 2024

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 4.6.0
Ucapan ke teks 4.6.0
Teks neural ke ucapan 3.1.0

Tingkatkan komponen ucapan ke teks ke yang terbaru. Tingkatkan semua es model lokal ke yang terbaru. Meningkatkan buffer transformasi media untuk kasus penggunaan ucapan ke teks.

Rilis November 2023

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 4.5.0
Ucapan ke teks 4.5.0
Teks neural ke ucapan 2.19.0

Rilis Oktober 2023

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 4.4.0
Ucapan ke teks 4.4.0
Teks neural ke ucapan 2.18.0

Perbaiki banyak masalah kerentanan risiko tinggi.

Hapus log redundan dalam kontainer.

Tingkatkan komponen media internal ke yang terbaru.

Tambahkan dukungan untuk suara en-IN-NeerjaNeural.

Rilis September 2023

Tambahkan dukungan untuk versi model terbaru:

Identifikasi bahasa ucapan 1.12.0
Ucapan kustom ke teks 4.3.0
Ucapan ke teks 4.3.0
Teks neural ke ucapan 2.17.0

Tingkatkan ucapan kustom ke teks dan ucapan ke teks ke kerangka kerja terbaru.

Memperbaiki masalah kerentanan.

Tambahkan dukungan untuk suara ar-AE-FatimaNeural.

Rilis Juli 2023

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 4.1.0
Ucapan ke teks 4.1.0
Teks neural ke ucapan 2.15.0

Perbaiki masalah menjalankan kontainer ucapan ke teks melalui docker opsi pemasangan dengan file model kustom lokal.

Perbaiki masalah yang dalam beberapa kasus RECOGNIZING peristiwa tidak muncul sebagai respons melalui Speech SDK.

Memperbaiki masalah kerentanan.

Rilis Juni 2023

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 4.0.0
Ucapan ke teks 4.0.0
Teks neural ke ucapan 2.14.0

Gambar ucapan ke teks lokal ditingkatkan ke .NET 6.0

Tingkatkan model tampilan untuk lokal termasuk en-us, , ar-eg, ar-bh, ja-jpko-kr, dan banyak lagi.

Tingkatkan komponen kontainer ucapan ke teks untuk mengatasi masalah kerentanan.

Menambahkan dukungan untuk suara de-DE-AmalaNeurallokal ,de-AT-IngridNeural,de-AT-JonasNeural, dan en-US-JennyMultilingualNeural

Rilis Mei 2023

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.14.0
Ucapan ke teks 3.14.0
Teks neural ke ucapan 2.13.0

he-IL Memperbaiki masalah tanda baca

Memperbaiki masalah kerentanan

Menambahkan suara en-US-MichelleNeurallokal baru dan es-MX-CandelaNeural

Rilis April 2023

Pembaruan Keamanan

Memperbaiki masalah kerentanan

Rilis Maret 2023

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.12.0
Ucapan ke teks 3.12.0
Identifikasi bahasa ucapan 1.11.0
Teks neural ke ucapan 2.11.0

Memperbaiki masalah kerentanan

Memperbaiki masalah kapitalisasi tr-TR

Meningkatkan model tampilan ucapan ke teks en-US

Menambahkan dukungan untuk teks Neural neural neural bawaan ke suara lokal ucapan ar-AE-HamdanNeural

Rilis Februari 2023

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.11.0
Ucapan ke teks 3.11.0
Teks neural ke ucapan 2.10.0

Memperbaiki masalah kerentanan

Peningkatan reguler untuk model ucapan

Tambahkan lokal Abraic baru:

ar-IL
ar-PS

Meningkatkan model tampilan Ibrani dan Turki

Rilis Januari 2023

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.10.0
Ucapan ke teks 3.10.0
Teks neural ke ucapan 2.9.0

Memperbaiki masalah mode Hipotesis

Memperbaiki masalah Proksi HTTP

Mode ucapan kustom ke kontainer teks terputus

Menambahkan dukungan kontainer Terputus CNV ke Frontend TTS

Tambahkan dukungan untuk suara lokal ini:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Rilis Desember 2022

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.9.0
Ucapan ke teks 3.9.0
Teks neural ke ucapan 2.8.0

Memperbaiki masalah ipv4/ipv6

Memperbaiki masalah kerentanan

Rilis November 2022

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.8.0
Ucapan ke teks 3.8.0
Teks neural ke ucapan 2.7.0

Rilis Oktober 2022

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.7.0
Ucapan ke teks 3.7.0
Teks neural ke ucapan 2.6.0

Rilis September 2022

Ucapan ke teks 3.6.0-amd64

Tambahkan dukungan untuk versi model terbaru.

Tambahkan dukungan untuk lokal ini:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
Begitu
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Ucapan kustom ke teks 3.6.0-amd64

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Teks Neural Neural ke ucapan v2.5.0

Tambahkan dukungan untuk suara neural bawaan ini:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Rilis Mei 2022

Kontainer deteksi-bahasa-ucapan v1.9.0-amd64-preview

Perbaikan bug untuk deteksi-bahasa-ucapan.

Rilis Maret-2022

Ucapan kustom ke teks Kontainer v3.1.0

Tambahkan dukungan untuk mendapatkan model tampilan.

Rilis Januari-2022

Kontainer Ucapan ke teks v3.0.0

Tambahkan dukungan untuk menggunakan kontainer di lingkungan yang terputus.

Kontainer Ucapan ke teks v2.18.0

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Teks neural-neural ke ucapan Kontainer v1.12.0

Tambahkan dukungan untuk suara saraf bawaan ini: am-et-amehaneural, , am-et-mekdesneuralso-so-muuseneural dan so-so-ubaxneural.

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.