Apa yang baru dalam Azure AI Speech?

2025-04-28

Azure AI Speech diperbarui secara berkelanjutan. Untuk tetap mengikuti perkembangan terbaru, artikel ini memberi Anda informasi tentang rilis dan fitur baru.

Sorotan terbaru

Untuk mentranskripsikan konten multibahasa secara terus menerus dan akurat dalam file audio, sekarang Anda dapat menggunakan model multibahasa terbaru tanpa menentukan kode lokal melalui API transkripsi cepat. Untuk informasi selengkapnya, lihat transkripsi multibahasa dalam transkripsi cepat.
Transkripsi cepat sekarang tersedia secara umum. Ini dapat mentranskripsikan audio jauh lebih cepat daripada durasi audio yang sebenarnya. Untuk informasi selengkapnya, lihat panduan API transkripsi cepat.
Ekstensi Azure AI Speech Toolkit sekarang tersedia untuk pengguna Visual Studio Code. Ini berisi daftar panduan cepat ucapan dan sampel skenario yang dapat dengan mudah dibangun dan dijalankan dengan klik sederhana. Untuk informasi selengkapnya, lihat Azure AI Speech Toolkit di Visual Studio Code Marketplace.
Suara ucapan definisi tinggi Azure AI (HD) tersedia dalam pratinjau publik. Suara HD dapat memahami konten, secara otomatis mendeteksi emosi dalam teks input, dan menyesuaikan nada bicara secara real time agar sesuai dengan sentimen. Untuk informasi selengkapnya, lihat Apa itu suara definisi tinggi Azure AI Speech (HD)?.
Terjemahan video sekarang tersedia di layanan Azure AI Speech. Untuk informasi selengkapnya, lihat Apa itu terjemahan video?.

Catatan rilis

Memilih layanan atau sumber daya

Penting

Penilaian konten (pratinjau) melalui Speech SDK dihentikan pada Juli 2025. Sebagai gantinya, Anda dapat menggunakan model Azure OpenAI untuk mendapatkan hasil penilaian konten seperti yang dijelaskan dalam dokumentasi penilaian konten.

Speech SDK 1.44.1: Rilis tambalan

SDK versi 1.44.1 sedang dirilis untuk JavaScript hanya dengan 4 perbaikan bug:

Perbaikan bug

Memperbaiki pengecualian di luar rentang ketika hanya satu parameter kontrol segmentasi yang disediakan.
enableDictation tidak diteruskan dengan benar ke Layanan Ucapan.
ConversationTranscriber tidak menggunakan jalur URL yang benar saat dibuat menggunakan metode fromEndpoint.
Memperbaiki kesalahan saat data didorong ke stream input setelah dipisahkan.

Speech SDK 1.44: Rilis Mei 2025

Penting

Dukungan untuk platform target sedang berubah.

Versi Android minimum yang didukung sekarang adalah Android 8.0 (API level 26).
Penerbitan paket Unity Speech SDK ditangguhkan setelah rilis ini.

Fitur baru:

Menambahkan dukungan untuk ukuran halaman memori Android 16 KB.
Mengurangi latensi peristiwa SpeechStartDetected dalam pengenalan ucapan yang disematkan.
[C++, Python] Menambahkan metode untuk mendapatkan ukuran AudioDataStream yang tersedia.
[C++, Python] Menambahkan dukungan untuk URL leksikon kustom dan lokal pilihan dalam permintaan sintesis ucapan.
[Java, Python] Menambahkan dukungan untuk autentikasi berbasis token Microsoft Entra dengan refresh token otomatis.
[Pergi] Menambahkan dukungan untuk Transkripsi Percakapan.

Perbaikan bug

Memperbaiki sintesis ucapan terjemahan tidak berfungsi saat deteksi bahasa sumber digunakan.
Memperbaiki jalur file dengan karakter non-ASCII yang tidak berfungsi untuk model ucapan yang disematkan, model KWS, atau file log (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
Memperbaiki perulangan NoMatch dalam penggunaan pengenal ucapan yang tertanam pada kondisi tertentu.
Memperbaiki destruktor objek asli yang diblokir karena pengenalan tidak ditandai sebagai dihentikan ketika peristiwa terputus.
Memperbaiki pencocokan pola IntentRecognizer yang tidak berfungsi dengan benar dengan karakter multi-byte dalam kondisi tertentu.
Close() Panggilan pada objek Koneksi tidak sinkron.
Memperbaiki kondisi balapan dalam dealokasi koneksi yang dapat menyebabkan crash.
[macOS] Memperbaiki pesan "Info:" yang muncul di konsol (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610).

Contoh

[Python] Menambahkan kode sampel untuk recognizer menggunakan kredensial token Microsoft Entra.

Speech SDK untuk JavaScript

Fitur baru:

Dependensi pengembangan yang diperbarui: TypeScript 3.5.3 → 4.5
TranslationRecognizer yang telah diperbarui kini menggunakan endpoint V2 sebagai default.
Memperbarui SpeechRecongizer untuk menggunakan titik akhir V2.
- Ini menghasilkan tidak lagi menerima hasil NoMatch.
Menambahkan dukungan untuk autentikasi berbasis token Microsoft Entra untuk Pengenalan dan Terjemahan Ucapan.
Api FromEndpoint yang diperbarui menjadi metode yang direkomendasikan untuk membuat SpeechConfig untuk sebagian besar skenario.
- Berlaku saat menggunakan:
  - Pengenal Ucapan
  - TranslationRecognizer (melalui SpeechTranslationConfig)
  - Penerjemah Percakapan
  - Penyintesis Suara
- Sekarang Anda dapat menggunakan titik akhir dari portal Microsoft Azure untuk sumber daya Speech dan Azure AI Foundry untuk membuat objek SpeechConfig.
- Semua metode lain untuk membangun SpeechConfig terus berfungsi dan didukung.

Perbaikan bug

Memperbaiki loop percobaan ulang koneksi tanpa batas pada kode penutupan koneksi yang tidak didukung (https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896).

Speech CLI (SPX)

Fitur baru

Menambahkan dukungan untuk autentikasi dengan kredensial token Microsoft Entra.
Menambahkan dukungan untuk API transkripsi cepat.

Perbaikan bug

Memperbaiki URL input yang dipisahkan oleh titik koma dan yang tidak berfungsi, serta daftar file/URL input dari file.

Speech SDK 1.43: Rilis Maret 2025

Catatan

Ubuntu 20.04 "pemeliharaan keamanan standar" kedaluwarsa pada Bulan April 2025 dan tidak akan lagi tersedia sebagai agen ADO Build. Rilis Future Speech SDK akan memerlukan Ubuntu 22.04 LTS (bukan Ubuntu 20.04) sebagai versi minimum yang didukung.

Fitur baru:

Api FromEndpoint yang diperbarui menjadi metode yang direkomendasikan untuk membuat SpeechConfig untuk sebagian besar skenario.
- Berlaku saat menggunakan:
  - Pengenal Ucapan
  - TranslationRecognizer (melalui SpeechTranslationConfig)
  - Penerjemah Percakapan
  - SpeechSynthesizer Di semua bahasa pemrograman kecuali JavaScript.
- Anda sekarang dapat menggunakan Alamat Endpoint dari Portal Azure untuk sumber daya Ucapan dan Layanan Kognitif untuk membuat objek SpeechConfig.
- Semua metode lain untuk membangun SpeechConfig terus berfungsi dan didukung.
TranslationRecognizer yang telah diperbarui kini menggunakan endpoint V2 sebagai default.
- Ini memindahkan parameter kontrol dari URL ke pesan dalam saluran saat menggunakan titik akhir V2.
- Perubahan konfigurasi: Sekarang bahasa default untuk "zh" diatur menjadi "zh-CN" bukan lagi "zh-hans"
Menambahkan id properti untuk SpeechSynthesis_FrameTimeoutInterval dan SpeechSynthesis_RtfTimeoutThreshold.
Mengoptimalkan frekuensi penghubungan kembali SDK untuk proses pengenalan yang berlangsung lama.
[C++, Python] Menambahkan dukungan untuk menentukan gaya dan suhu dalam permintaan streaming teks.
[C#] Menambahkan dukungan untuk refresh token AAD otomatis saat menggunakan FromEndpoint untuk membuat objek konfigurasi.
- Ini menambahkan dependensi dari Speech SDK ke paket nuget Azure.Core.
- Speech SDK sekarang dapat menerima objek turunan TokenCredential untuk autentikasi saat menggunakan:
  - Pengenal Ucapan
  - Pengenal Terjemahan
  - Penerjemah Percakapan
[Objective-C] SPXTranslationRecognizer telah diperbarui untuk mendukung deteksi otomatis bahasa sumber dari rentang yang ditentukan secara terbuka.
[Objective-C , Python ] Menambahkan API diagnostik EventLogger, FileLogger, dan MemoryLogger.
[Go]: Menambahkan dukungan TranslationRecognizer

Perbaikan bug

Memperbaiki dukungan OpenSSL 3 di Linux arm32 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736).
Memperbaiki bidang status yang hilang dalam daftar suara sintesis ucapan (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771).
Memperbaiki pencocokan pola IntentRecognizer pada pengurai bahasa Jepang yang tidak mengidentifikasi karakter bilangan bulat dengan benar.
Memperbaiki kemungkinan masalah dengan hasil duplikat dari pengenalan ucapan secara tertanam.
[Java] Memperbaiki masalah peserta kosong pada ConversationParticipantsChangedEventArgs di Android 12 dan yang lebih baru (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687).

Contoh

[C++] Menambahkan sampel untuk pengenalan intent secara mandiri menggunakan pencocokan pola.
- Dengan pensiunnya layanan LUIS pada Oktober 2025, Speech SDK juga akan menghentikan keluarga objek IntentRecognizer.
- Sebelum itu, kami ingin berbagi implementasi untuk pencocokan pola.
[C++, C#, Java, Python] Memperbarui sebagian besar sampel untuk menggunakan FromEndpoint API alih-alih FromSubscription.
[C#] Menambahkan sampel skenario untuk aplikasi pengenalan ucapan multi-tingkat.
- Menunjukkan metodologi untuk pemutaran ulang audio dan koneksi ulang dari perangkat edge ke layanan tingkat menengah yang kemudian meneruskan audio ke Layanan Ucapan melalui Speech SDK
[C#] Sampel terbaru telah disesuaikan untuk menggunakan penyegaran token AAD otomatis.
[Python] Menambahkan sampel untuk API diagnostik baru.
[Unity] Menambahkan instruksi untuk menginstal dependensi Azure.Core baru.

Speech SDK 1.42.0: Rilis Desember 2024

Fitur baru

Java: Menambahkan API pembuatan log Diagnostik menggunakan kelas FileLogger, MemoryLogger, EventLogger, dan SpxTrace.
Mendukung pengiriman properti JSON "detail" peserta rapat ke layanan
Go: Menambahkan properti publik id SpeechServiceConnection_ProxyHostBypass untuk menentukan host yang tidak menggunakan proxy.
JavaScript, Go: Menambahkan id properti publik Speech_SegmentationStrategy untuk menentukan kapan frasa lisan telah berakhir dan hasil akhir yang dikenali harus dihasilkan (termasuk segmentasi semantik)
JavaScript, Go: Menambahkan id properti publik Speech_SegmentationMaximumTimeMs menentukan akhir frasa lisan berdasarkan waktu di Java, Python, C#, C++

Perbaikan bug

Memperbaiki proses pemuatan ulang suara TTS yang disematkan untuk setiap sintesis jika nama suara tidak ditentukan.
Memperbaiki masalah perhitungan offset saat menggunakan MeetingTranscriber dalam beberapa skenario.
Memperbaiki potensi deadlock saat mendaftarkan beberapa pendengar acara diagnostik secara paralel.
(JavaScript) Memperbaiki kemungkinan hilangnya hasil NoMatch saat di akhir audio. Perbaikan ini juga menyelaraskan perilaku di akhir ucapan dengan bahasa SDK lainnya dan dapat mengakibatkan beberapa peristiwa kosong tidak lagi dimunculkan.
(JavaScript) Perbaiki offset dalam hasil JSON untuk menyelaraskan dengan offset pada objek hasil. Sebelumnya, hanya properti offset dari objek hasil yang disesuaikan untuk mempertimbangkan koneksi ulang layanan.
Bahasa go: Memperbaiki kesalahan kompilasi https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
Memperbaiki offset hasil dalam transkripsi rapat saat koneksi ulang ke layanan terjadi.
Memperbaiki kebuntuan dalam pencatatan log.

Contoh

Sampel C# yang diperbarui untuk menggunakan .NET 8.0.
Sampel Java menggunakan API pembuatan log Diagnostik yang menunjukkan penggunaan kelas Pembuatan Log Diagnostik baru.

Rilis November 2024

Ekstensi Azure AI Speech Toolkit untuk Visual Studio Code

Ekstensi Azure AI Speech Toolkit sekarang tersedia untuk pengguna Visual Studio Code. Ini berisi daftar panduan cepat ucapan dan sampel skenario yang dapat dengan mudah dibangun dan dijalankan dengan klik sederhana. Untuk informasi selengkapnya, lihat Azure AI Speech Toolkit di Visual Studio Code Marketplace.

Sampel kode avatar teks ke ucapan

Kami menambahkan teks ke sampel kode avatar ucapan untuk Android dan iOS. Contoh ini menunjukkan cara menggunakan avatar teks ke ucapan waktu nyata di aplikasi seluler Anda.

Speech SDK 1.41.1: Rilis Oktober 2024

Fitur baru

Menambahkan dukungan untuk Amazon Linux 2023 dan Azure Linux 3.0.
Menambahkan id properti publik SpeechServiceConnection_ProxyHostBypass untuk menentukan host yang proksinya tidak digunakan.
Menambahkan properti untuk mengontrol strategi segmentasi frasa baru.

Perbaikan Kesalahan

Memperbaiki dukungan yang tidak lengkap untuk pengenalan kata kunci Model tingkat lanjut yang diproduksi setelah Agustus 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Perhatikan bahwa dengan Swift di iOS, proyek Anda harus menggunakan pod MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (dari https://aka.ms/csspeech/iosbinaryembedded) atau MicrosoftCognitiveServicesSpeechEmbedded-iOS yang menyertakan dukungan Model tingkat lanjut.
Memperbaiki kebocoran memori di C# yang terkait dengan penggunaan string.
Ketidakmampuan untuk mendapatkan SPXAutoDetectSourceLanguageResult dari SPXConversationTranscriptionResult di Objective-C dan Swift telah diperbaiki.
Memperbaiki crash sesekali saat menggunakan Microsoft Audio Stack untuk pengenalan suara.
Petunjuk jenis tetap di Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
Telah diperbaiki masalah ketidakmampuan mengambil daftar suara TTS saat menggunakan titik akhir kustom.
Memperbaiki inisialisasi ulang TTS yang disematkan setiap kali ada permintaan bicara ketika suara ditentukan oleh nama pendek.
Memperbaiki dokumentasi referensi API untuk durasi maksimum audio RecognizeOnce.
Memperbaiki penanganan kesalahan untuk tingkat pengambilan sampel arbitrer di JavaScript
- Terima kasih kepada rseanhall untuk kontribusi ini.
Memperbaiki kesalahan saat menghitung offset audio di JavaScript
- Terima kasih untuk motamed untuk kontribusi ini.

Memecahkan Perubahan

Dukungan pengenalan kata kunci pada Windows ARM 32-bit telah dihapus karena runtime ONNX yang diperlukan tidak tersedia untuk platform ini.

Speech SDK 1.40: Rilis Agustus 2024

Catatan

Speech SDK versi 1.39.0 adalah rilis internal dan tidak hilang.

Fitur baru

Ditambahkan dukungan untuk streaming audio terkompresi G.722 dalam pengenalan ucapan.
Menambahkan dukungan untuk pengaturan nada, laju, dan volume dalam streaming teks input dalam sintesis ucapan.
Menambahkan dukungan untuk streaming teks input suara pribadi dengan memperkenalkan PersonalVoiceSynthesisRequest dalam sintesis ucapan. API ini dalam pratinjau dan dapat berubah dalam versi mendatang.
Menambahkan dukungan untuk diarisasi hasil perantara saat ConversationTranscriber digunakan.
Menghapus dukungan CentOS/RHEL 7 karena CentOS 7 EOL dan akhir Dukungan Pemeliharaan RHEL 7 2.
Penggunaan model ucapan yang disematkan sekarang memerlukan lisensi model alih-alih kunci model. Jika Anda adalah pelanggan yang menggunakan layanan ucapan tersemat dan ingin memperbarui, silakan hubungi tim dukungan Anda di Microsoft untuk rincian pembaruan model.

Perbaikan bug

Biner hasil kompilasi Speech SDK untuk Windows dengan bendera _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR sebagai langkah mitigasi terhadap masalah runtime Visual C++ pelanggaran akses dengan std::mutex::lock setelah peningkatan ke VS 2022 versi 17.10.0 - Komunitas Pengembang (visualstudio.com). Aplikasi Windows C++ yang menggunakan Speech SDK mungkin perlu menerapkan bendera konfigurasi build yang sama jika kodenya menggunakan std::mutex (lihat detail dalam masalah yang ditautkan).
Memperbaiki deteksi OpenSSL 3.x yang tidak berfungsi pada Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
Memperbaiki masalah di mana saat menyebarkan aplikasi UWP, pustaka, dan model dari paket MAS NuGet tidak disalin ke lokasi penyebaran.
Memperbaiki konflik penyedia konten dalam paket Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
Memperbaiki opsi pasca-pemrosesan yang tidak berlaku untuk hasil pengenalan ucapan sementara.
Memperbaiki peringatan .NET 8 mengenai pengidentifikasi runtime khusus distribusi (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).

Contoh

Sampel ucapan disematkan diperbarui untuk menggunakan lisensi model, bukan kunci.

Speech SDK 1.38.0: Rilis Juni 2024

Fitur baru

Meningkatkan persyaratan platform Speech SDK Linux:
- Garis besar minimum baru adalah Ubuntu 20.04 LTS atau kompatibel dengan glibc 2.31 atau yang lebih baru.
- Biner untuk Linux x86 dihapus sesuai dengan dukungan platform Ubuntu 20.04.
- Perhatikan bahwa RHEL/CentOS 7 tetap didukung hingga 30 Juni (akhir CentOS 7 dan akhir Dukungan Pemeliharaan RHEL 7 2). Biner untuk mereka akan dihapus pada rilis Speech SDK 1.39.0.
Tambahkan dukungan untuk OpenSSL 3 di Linux.
Tambahkan dukungan untuk format output audio g722-16khz-64kbps dengan sintesis suara.
Tambahkan dukungan untuk mengirimkan pesan melalui objek koneksi dengan penyintesis suara.
Tambahkan API Start/StopKeywordRecognition di Objective-C dan Swift.
Tambahkan API untuk memilih kategori model terjemahan kustom.
Perbarui penggunaan GStreamer dengan speech synthesizer.

Perbaikan bug

Memperbaiki kesalahan "Ukuran pesan Websocket tidak boleh melebihi 65.536 byte" saat Start/Stop Keyword Recognition.
Memperbaiki kesalahan segmentasi Python selama sintesis ucapan.

Contoh

Perbarui sampel C# untuk menggunakan .NET 6.0 secara default.

Speech SDK 1.37.0: Dirilis April 2024

Fitur baru

Tambahkan dukungan untuk streaming teks input dalam sintesis ucapan.
Ubah suara sintesis ucapan default menjadi en-US-AvaMultilingualNeural.
Perbarui build Android untuk menggunakan OpenSSL 3.x.

Perbaikan bug

Mengatasi kerusakan JVM sesekali pada saat penghentian penggunaan SpeechRecognizer ketika menggunakan MAS. Aku akan menemui dia. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125
Meningkatkan deteksi perangkat audio default di Linux. Aku akan menemui dia. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292

Contoh

Diperbarui untuk fitur baru.

Speech SDK 1.36.0: Rilis Maret 2024

Fitur baru

Tambahkan dukungan untuk identifikasi bahasa dalam terjemahan multibahasa pada endpoint v2 menggunakan AutoDetectSourceLanguageConfig::FromOpenRange().

Perbaikan bug

Perbaiki event SynthesisCanceled yang tidak diaktifkan jika perintah berhenti dipanggil selama event SynthesisStarted.
Perbaiki masalah kebisingan dalam sintesis ucapan yang disematkan.
Memperbaiki kerusakan dalam pengenalan ujaran yang tersemat saat menjalankan beberapa pengenal secara bersamaan.
Perbaiki pengaturan mode deteksi frasa pada titik akhir v1/v2.
Memperbaiki berbagai masalah dengan Microsoft Audio Stack.

Contoh

Pembaruan untuk fitur baru.

Speech SDK 1.35.0: Rilis Februari 2024

Fitur baru

Ubah teks default menjadi suara ucapan dari en-US-JennyMultilingualNeural menjadi en-US-AvaNeural.
Mendukung detail tingkat kata dalam hasil terjemahan ucapan yang disematkan menggunakan format output terperinci.

Perbaikan bug

Perbaiki API getter posisi AudioDataStream di Python.
Perbaiki terjemahan ucapan menggunakan endpoint v2 tanpa pendeteksian bahasa.
Perbaiki crash acak dan duplikasi peristiwa batas kata pada fungsi pengucapan teks yang disematkan.
Mengembalikan kode kesalahan pembatalan yang benar untuk kesalahan server internal pada koneksi WebSocket.
Perbaiki kegagalan memuat pustaka FPIEProcessor.dll saat MAS digunakan dengan C#.

Contoh

Sedikit pembaruan pemformatan untuk sampel pengenalan tertanam.

Speech SDK 1.34.1: Rilis Januari 2024

Perubahan mendasar

Perbaikan bug saja

Fitur baru

Perbaikan bug saja

Perbaikan bug

Memperbaiki masalah regresi yang muncul di versi 1.34.0, di mana URL titik akhir layanan dibangun dengan informasi lokal yang salah untuk pengguna di beberapa wilayah Tiongkok.

Speech SDK 1.34.0: Rilis November 2023

Perubahan mendasar

SpeechRecognizer diperbarui untuk menggunakan titik akhir baru secara default (yaitu, ketika tidak secara eksplisit menentukan URL) yang tidak lagi mendukung parameter string kueri untuk sebagian besar properti. Alih-alih mengatur parameter string kueri secara langsung dengan ServicePropertyChannel.UriQueryParameter, silakan gunakan fungsi API yang sesuai.

Fitur baru

Kompatibilitas dengan .NET 8 (Perbaikan untuk https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170, kecuali peringatan yang berkaitan dengan centos7-x64)
Dukungan untuk metrik performa ucapan yang disematkan yang dapat digunakan untuk mengevaluasi kemampuan perangkat untuk menjalankan ucapan yang disematkan.
Dukungan untuk identifikasi bahasa sumber dalam terjemahan multibahasa yang disematkan.
Dukungan untuk fitur ucapan ke teks, teks ke ucapan, dan terjemahan yang terintegrasi pada iOS dan Swift/Objective-C dirilis dalam pratinjau.
Dukungan tersemat tersedia di MicrosoftCognitiveServicesSpeechEmbedded-iOS CocoaPod.

Perbaikan bug

Perbaikan untuk iOS SDK pertumbuhan ukuran biner menjadi dua kali lipat · Masalah #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Perbaikan untuk Ketidakmampuan mendapatkan stempel waktu pada tingkat kata dari API ucapan ke teks Azure · Masalah #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Perbaikan atas fase penghancuran DialogServiceConnector untuk memutuskan event dengan benar. Ini menyebabkan terjadinya kerusakan sesekali.
Solusi untuk kesalahan selama pembuatan pengenal ketika MAS digunakan.
FPIEProcessor.dll dari paket NuGet Microsoft.CognitiveServices.Speech.Extension.MAS untuk Windows UWP x64 dan Arm64 memiliki dependensi pada pustaka runtime VC untuk C++ asli. Masalah ini telah diperbairah dengan memperbarui dependensi untuk memperbaiki pustaka runtime VC (untuk UWP).
Perbaikan untuk panggilan berulang [MAS] untuk mengenali OnceAsync yang mengarah ke SPXERR_ALREADY_INITIALIZED saat menggunakan MAS · Masalah #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Perbaikan untuk kerusakan sistem pada fitur pengenalan ucapan saat daftar frasa digunakan.

Contoh

Sampel iOS yang tertanam untuk konversi ucapan ke teks, teks ke ucapan, dan penerjemahan.

Rilis November 2023 untuk Speech CLI 1.34.0

Fitur baru

Dukung output kejadian batas kata saat mensintesis ucapan.

Perbaikan bug

Memperbarui dependensi JMESPath ke rilis terbaru, yang dapat meningkatkan evaluasi string

Speech SDK 1.33.0: Rilis Oktober 2023

Pemberitahuan perubahan besar

Paket NuGet baru yang ditambahkan untuk Microsoft Audio Stack (MAS) sekarang diperlukan untuk disertakan oleh aplikasi yang menggunakan MAS dalam file konfigurasi paket mereka.

Fitur baru

Menambahkan paket NuGet baru Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, yang memberikan peningkatan performa pembatalan gema saat menggunakan Microsoft Audio Stack
Penilaian Pengucapan: menambahkan dukungan untuk evaluasi prosodi dan konten, yang dapat menilai ucapan lisan dalam hal prosody, kosakata, tata bahasa, dan topik.

Perbaikan bug

Memperbaiki offset hasil pengenalan kata kunci sehingga cocok dengan aliran audio input sejak awal. Perbaikan ini berlaku untuk pengenalan kata kunci mandiri dan pengenalan ucapan yang dipicu kata kunci.
Fixed Synthesizer stopSpeaking tidak segera mengembalikan hasil metode SPXSpeechSynthesizer stopSpeaking() tidak dapat segera kembali di iOS 17 - Masalah #2081
Memperbaiki masalah impor Mac Catalyst pada Dukungan modul Swift untuk Mac Catalyst dengan Apple Silicon. Masalah #1948
JS: Muat modul AudioWorkletNode sekarang menggunakan URL tepercaya, dengan fallback untuk inklusi peramban CDN.
JS: File lib yang dikemas sekarang menargetkan ES6 JS, dengan dukungan untuk ES5 JS dihapus.
JS: peristiwa perantara untuk skenario terjemahan yang menargetkan titik akhir v2 ditangani dengan benar
JS: Properti bahasa untuk TranslationRecognitionEventArgs sekarang ditetapkan pada event translation.hypothesis.
Sintesis Ucapan: Peristiwa SynthesisCompleted dijamin akan dikeluarkan setelah semua peristiwa metadata, sehingga dapat digunakan untuk menunjukkan akhir dari peristiwa. Bagaimana cara mendeteksi saat visem diterima sepenuhnya? Laporan Masalah #2093 Azure-Samples/cognitive-services-speech-sdk

Contoh

Menambahkan sampel untuk menunjukkan streaming MULAW menggunakan Python)
Perbaikan untuk sampel NAudio ucapan ke teks

Speech CLI 1.33.0: Rilis Oktober 2023

Fitur baru

Dukung output kejadian batas kata saat mensintesis ucapan.

Perbaikan bug

tidak ada

Speech SDK 1.32.1: Rilis September 2023

Perbaikan bug

Pembaruan paket Android dengan perbaikan keamanan terbaru dari OpenSSL1.1.1v
JS – Properti WebWorkerLoadType ditambahkan untuk memungkinkan menghindari pemuatan URL data untuk pekerja dengan batas waktu
JS – Perbaiki Terjemahan Percakapan yang terputus setelah 10 menit
JS – Token autentikasi dari layanan Percakapan kini disebarkan ke koneksi layanan Terjemahan.

Contoh

Transkripsi percakapan dengan API Swift

Speech SDK 1.31.0: Rilis Agustus 2023

Fitur baru

Dukungan untuk diarisasi real-time tersedia dalam pratinjau publik dengan Speech SDK 1.31.0. Fitur ini tersedia di SDK berikut: C#, C++, Java, JavaScript, Python, dan Objective-C/Swift.
Sinkronisasi batas kata dalam sintesis ucapan dan peristiwa viseme dengan pemutaran audio.

Perubahan mendasar

Skenario "transkripsi percakapan" sebelumnya diganti namanya menjadi "transkripsi rapat". Misalnya, gunakan MeetingTranscriber alih-alih ConversationTranscriber, dan gunakan CreateMeetingAsync alih-alih CreateConversationAsync. Meskipun nama objek dan metode SDK telah berubah, penggantian nama tidak mengubah fitur itu sendiri. Gunakan objek transkripsi rapat untuk transkripsi rapat dengan profil pengguna dan tanda tangan suara. Objek dan metode "terjemahan percakapan" tidak terpengaruh oleh perubahan ini. Anda masih dapat menggunakan objek ConversationTranslator dan metodenya untuk skenario penerjemahan.
Untuk diarisasi real time, objek baru ConversationTranscriber diperkenalkan. Model objek "transkripsi percakapan" baru dan pola panggilan mirip dengan pengenalan berkelanjutan dengan SpeechRecognizer objek . Perbedaan utamanya adalah bahwa ConversationTranscriber objek dirancang untuk digunakan dalam skenario percakapan di mana Anda ingin membedakan beberapa pembicara (diarisasi). Profil pengguna dan tanda tangan suara tidak berlaku. Lihat panduan cepat diarisasi waktu nyata untuk informasi selengkapnya.

Tabel ini memperlihatkan nama objek sebelumnya dan baru untuk diarisasi real time dan transkripsi rapat. Nama skenario berada di kolom pertama, nama objek sebelumnya berada di kolom kedua, dan nama objek baru berada di kolom ketiga.

Nama skenario	Nama objek sebelumnya	Nama objek baru
Diarisasi waktu nyata	Tidak Berlaku	`ConversationTranscriber`
Transkripsi rapat	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant` ¹ `ParticipantChangedReason` ¹ `User` ¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting` ²

¹ Objek Participant, ParticipantChangedReason, dan User berlaku untuk skenario transkripsi rapat dan terjemahan rapat.

² Objek Meeting baru dan digunakan dengan MeetingTranscriber objek .

Perbaikan bug

Memperbaiki versi minimum macOS yang didukung https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Telah memperbaiki bug pada Penilaian Pengucapan.
- Telah diselesaikan masalah skor akurasi fonem, memastikan bahwa sekarang skor tersebut secara akurat hanya mencerminkan fonem yang salah diucapkan secara spesifik. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Menyelesaikan masalah di mana fitur Penilaian Pengucapan secara tidak akurat mengidentifikasi pengucapan yang sepenuhnya benar sebagai salah, terutama dalam situasi di mana kata-kata dapat memiliki beberapa pengucapan yang valid. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Contoh

Speech SDK 1.30.0: Rilis Juli 2023

Fitur baru

C++, C#, Java - Menambahkan dukungan untuk DisplayWords dalam hasil terperinci Pengenalan Ucapan Tertanam.
Objective-C/Swift - Menambahkan dukungan untuk ConnectionMessageReceived peristiwa di Objective-C/Swift.
Objective-C/Swift - Model spotting kata kunci yang ditingkatkan untuk iOS. Perubahan ini telah meningkatkan ukuran paket tertentu, yang berisi biner iOS (seperti NuGet, XCFramework). Kami berupaya mengurangi ukuran rilis mendatang.

Perbaikan bug

Memperbaiki kebocoran memori saat menggunakan pengenal ucapan dengan PhraseListGrammar, seperti yang dilaporkan oleh pelanggan (masalah GitHub).
Memperbaiki kemacetan dalam API koneksi terbuka text-to-speech.

Catatan lainnya

Java - Beberapa metode Java API yang digunakan public secara internal diubah menjadi paket internal, protected atau private. Perubahan ini seharusnya tidak berpengaruh pada pengembang, karena kami tidak mengharapkan aplikasi menggunakannya. Dicatatkan di sini demi transparansi.

Contoh

Sampel Penilaian Pengucapan Baru tentang cara menentukan bahasa pembelajaran di aplikasi Anda sendiri
- C#: Lihat kode sampel.
- C++: Lihat kode sampel.
- JavaScript: Lihat kode sampel.
- Objective-C: Lihat sampel kode.
- Python: Lihat kode sampel.
- Swift: Lihat sampel kode.

Speech SDK 1.29.0: Rilis Juni 2023

Fitur baru

C++, C#, Java - Pratinjau API Penerjemahan Pidato Tersemat. Sekarang Anda dapat melakukan terjemahan ucapan tanpa koneksi cloud!
JavaScript - Identifikasi Bahasa Berkelanjutan (LID) sekarang diaktifkan untuk terjemahan ucapan.
JavaScript - Kontribusi komunitas untuk menambahkan LocaleName properti ke VoiceInfo kelas. Terima kasih GitHub pengguna shivsarthak untuk permintaan pull.
C++, C#, Java - Menambahkan dukungan untuk pengambilan sampel ulang teks yang disematkan ke output ucapan dari laju sampel 16 kHz hingga 48 kHz.
Ditambahkan dukungan untuk lokalisasi hi-IN pada Intent Recognizer dengan Pencocokan Pola Sederhana.

Perbaikan bug

Memperbaiki crash yang disebabkan oleh kondisi lomba di Speech Recognizer selama proses penghancuran objek, seperti yang terlihat dalam beberapa pengujian Android kami
Memperbaiki kemungkinan kebuntuan di Intent Recognizer dengan Simple Pattern Matcher

Contoh

Sampel Terjemahan Ucapan Tersemat Baru

Speech SDK 1.28.0: Rilis Mei 2023

Perubahan yang tidak kompatibel mundur

JavaScript SDK: Protokol Status Sertifikat Online (OCSP) dihapuskan. Ini memungkinkan klien untuk lebih sesuai dengan standar browser dan Node untuk penanganan sertifikat. Versi 1.28 dan seterusnya tidak akan lagi menyertakan modul OCSP kustom kami.

Fitur baru

Pengenalan Ucapan Tertanam sekarang mengembalikan NoMatchReason::EndSilenceTimeout ketika batas waktu diam terjadi di akhir ungkapan. Ini sesuai dengan perilaku saat melakukan pengenalan menggunakan layanan pengenalan ucapan secara real-time.
JavaScript SDK: Atur properti pada SpeechTranslationConfig menggunakan nilai enum PropertyId.

Perbaikan bug

C# di Windows - Memperbaiki potensi kondisi perlombaan/kebuntuan di ekstensi audio Windows. Dalam skenario yang melibatkan pembuangan perender audio dengan cepat dan juga menggunakan metode Synthesizer untuk menghentikan berbicara, acara tersebut tidak direset ketika berhenti, dan dapat menyebabkan objek perender tidak pernah dibuang, sementara itu bisa memegang kunci global yang diperlukan untuk pembuangan, membekukan utas GC dotnet.

Contoh

Ditambahkan sampel ucapan bawaan untuk MAUI.
Memperbarui contoh ucapan terintegrasi untuk Android Java dengan menyertakan fungsi teks ke ucapan.

Speech SDK 1.27.0: Rilis April 2023

Pemberitahuan tentang perubahan yang akan datang

Kami berencana untuk menghapus Protokol Status Sertifikat Online (OCSP) dalam rilis JavaScript SDK berikutnya. Ini memungkinkan klien untuk lebih sesuai dengan standar browser dan Node untuk penanganan sertifikat. Versi 1.27 adalah rilis terakhir yang menyertakan modul OCSP kustom kami.

Fitur baru

JavaScript – Menambahkan dukungan untuk input mikrofon dari browser dengan Identifikasi dan Verifikasi Pembicara.
Pengenalan Ucapan Tersemat - Perbarui dukungan untuk pengaturan PropertyId::Speech_SegmentationSilenceTimeoutMs.

Perbaikan bug

Umum - Pembaruan keandalan dalam logika koneksi ulang layanan (semua bahasa pemrograman kecuali JavaScript).
Umum - Memperbaiki konversi string yang membocorkan memori di Windows (semua bahasa pemrograman yang relevan kecuali JavaScript).
Pengenalan Ucapan Tertanam - Perbaiki crash di Pengenalan Ucapan Prancis saat menggunakan entri daftar gramatikal tertentu.
Dokumentasi kode sumber - Koreksi pada komentar dokumentasi referensi SDK yang terkait dengan peloggingan audio pada layanan.
Pengenalan Niat - Memperbaiki prioritas Pencocokan Pola berkaitan dengan entitas daftar.

Contoh

Tangani kegagalan autentikasi dengan benar dalam sampel C# Conversation Transcription (CTS).
Menambahkan contoh penilaian pengucapan streaming untuk Python, JavaScript, Objective-C dan Swift.

Speech SDK 1.26.0: Rilis Maret 2023

Perubahan mendasar

Bitcode telah dinonaktifkan di semua target iOS dalam paket berikut: Cocoapod dengan xcframework, NuGet (untuk Xamarin dan MAUI) dan Unity. Perubahan ini disebabkan oleh penghentian dukungan bitcode Apple dari Xcode 14 dan seterusnya. Perubahan ini juga berarti jika Anda menggunakan versi Xcode 13 atau Anda telah secara eksplisit mengaktifkan bitcode pada aplikasi Anda menggunakan Speech SDK, Anda mungkin mengalami kesalahan yang mengatakan "kerangka kerja tidak berisi bitcode dan Anda harus membangunnya kembali". Untuk mengatasi masalah ini, pastikan target Anda menonaktifkan bitcode.
Target penyebaran iOS minimum ditingkatkan ke 11.0 dalam rilis ini, yang berarti armv7 HW tidak lagi didukung.

Fitur baru

Pengenalan Ucapan yang Disematkan (di Perangkat) sekarang mendukung audio masukan dengan laju pengambilan sampel 8 dan 16 kHz (16-bit per sampel, mono PCM).
Sintesis Ucapan sekarang melaporkan latensi koneksi, jaringan, dan layanan dalam hasil untuk mengoptimalkan latensi dari ujung ke ujung.
Aturan baru untuk pemecahan seri pada Pengenalan Niat dengan pencocokan pola sederhana. Semakin banyak byte karakter yang dicocokkan, akan lebih unggul dibandingkan dengan kecocokan pola yang memiliki jumlah byte karakter lebih rendah. Contoh: Pola "Pilih {something} di kanan atas" akan menang atas "Pilih {something}"

Perbaikan bug

Sintesis Ucapan: perbaiki bug di mana emoji tidak muncul dengan benar dalam peristiwa pembatas kata.
Pengenalan Niat dengan Pemahaman Bahasa Percakapan (CLU):
- Tujuan dari Alur Kerja Orkestrator CLU sekarang ditampilkan dengan benar.
- Hasil JSON sekarang tersedia melalui properti ID LanguageUnderstandingServiceResponse_JsonResult.
Pengenalan ucapan dengan aktivasi kata kunci: Memperbaiki hilangnya audio sekitar 150 ms setelah pengenalan kata kunci.
Perbaikan untuk Rilis Build MAUI Speech SDK NuGet iOS, dilaporkan oleh pelanggan (isu GitHub)

Contoh

Perbaikan pada sampel Swift iOS, dilaporkan oleh pelanggan (isu GitHub)

Speech SDK 1.25.0: Rilis Januari 2023

Perubahan mendasar

API Identifikasi Bahasa (pratinjau) telah disederhanakan. Jika Anda memperbarui ke Speech SDK 1.25 dan melihat hentian build, silakan kunjungi halaman Identifikasi Bahasa untuk mempelajari tentang properti SpeechServiceConnection_LanguageIdMode baru. Properti tunggal ini menggantikan dua properti sebelumnya SpeechServiceConnection_SingleLanguageIdPriority dan SpeechServiceConnection_ContinuousLanguageIdPriority. Memprioritaskan antara latensi rendah dan akurasi tinggi tidak lagi diperlukan setelah peningkatan model terbaru. Sekarang, Anda hanya perlu memilih apakah akan menjalankan Identifikasi Bahasa di awal atau berkelanjutan saat melakukan pengenalan atau terjemahan ucapan berkelanjutan.

Fitur baru

C#/C++/Java: Embedded Speech SDK sekarang dirilis di bawah pratinjau publik yang terjaga. Lihat Dokumentasi Pembicaraan Tertanam (pratinjau). Anda sekarang dapat melakukan ucapan ke teks dan teks ke ucapan di perangkat saat konektivitas cloud terputus-putus atau tidak tersedia. Didukung di platform Android, Linux, macOS, dan Windows
C# MAUI: Dukungan ditambahkan untuk target iOS dan Mac Catalyst di Speech SDK NuGet (Keluhan pelanggan)
Unity: Arsitektur Android x86_64 ditambahkan ke paket Unity (Masalah pelanggan)
Pergi:
- Dukungan streaming langsung ALAW/MULAW ditambahkan untuk pengenalan ucapan (Masalah pelanggan)
- Menambahkan dukungan untuk PhraseListGrammar. Terima kasih GitHub pengguna czkoko untuk kontribusi komunitas!
C#/C++: Intent Recognizer sekarang mendukung model Pemahaman Bahasa Percakapan di C++ dan C# dengan orkestrasi pada layanan Microsoft

Perbaikan bug

Memperbaiki masalah macet yang terjadi sesekali di KeywordRecognizer saat mencoba menghentikannya
Python:
- Perbaikan untuk mendapatkan hasil Penilaian Pengucapan ketika PronunciationAssessmentGranularity.FullText diatur (Masalah pelanggan)
- Perbaikan untuk properti gender suara laki-laki yang gagal diambil saat proses mendapatkan suara sintesis ucapan
JavaScript
- Perbaikan untuk mengurai beberapa file WAV yang direkam di perangkat iOS (Masalah pelanggan)
- JS SDK sekarang dibangun tanpa menggunakan npm-force-resolutions (Masalah pelanggan)
- Penerjemah Percakapan sekarang mengatur titik akhir layanan dengan benar saat menggunakan instans speechConfig yang dibuat menggunakan SpeechConfig.fromEndpoint()

Contoh

Sampel tambahan yang menunjukkan cara menggunakan Ucapan Tertanam
Ditambahkan contoh pengubah ucapan menjadi teks untuk MAUI

Lihat repositori contoh Speech SDK.

Speech SDK 1.24.2: Rilis November 2022

Fitur baru

Tidak ada fitur baru, hanya perbaikan mesin tertanam untuk mendukung file model baru.

Perbaikan bug

Semua bahasa pemrograman
- Memperbaiki masalah pada proses enkripsi model pengenalan ucapan yang disematkan.

Speech SDK 1.24.1: Rilis November 2022

Fitur baru

Paket yang diterbitkan untuk pratinjau "Embedded Speech". Lihat https://aka.ms/embedded-speech untuk informasi lebih lanjut.

Perbaikan bug

Semua bahasa pemrograman
- Memperbaiki crash pada aplikasi TTS yang disematkan ketika font suara tidak didukung
- Memperbaiki stopSpeaking() tidak dapat menghentikan pemutaran di Linux (#1686)
JavaScript SDK
- Memperbaiki kemunduran dalam cara transcriber percakapan mengatur audio.
Jawa
- File POM dan Javadocs versi terbaru diterbitkan sementara ke Maven Central untuk memungkinkan jalur dokumen memperbarui dokumen referensi daring.
Python
- Perbaiki regresi di mana Python speak_text(ssml) mengembalikan kekosongan.

Speech SDK 1.24.0: Rilis Oktober 2022

Fitur baru

Semua bahasa pemrograman: AMR-WB (16khz) ditambahkan ke daftar format output audio teks ke ucapan yang didukung
Python: Paket ditambahkan untuk Linux Arm64 untuk distribusi Linux yang didukung.
C#/C++/Java/Python: Dukungan ditambahkan untuk pengaliran langsung ALAW & MULAW ke layanan ucapan (selain pengaliran PCM yang sudah ada) menggunakan AudioStreamWaveFormat.
C# MAUI: Paket NuGet diperbarui untuk mendukung target Android untuk pengembang .NET MAUI (Masalah pelanggan)
Mac: Menambahkan XCframework terpisah untuk Mac, yang tidak berisi biner iOS apa pun. Ini menawarkan opsi untuk pengembang yang hanya membutuhkan biner Mac menggunakan paket XCframework yang lebih kecil.
Microsoft Audio Stack (MAS):
- Ketika sudut pembentukan sinar ditentukan, suara yang berasal dari luar rentang yang ditentukan akan ditekan dengan lebih baik.
- Sekitar 70% pengurangan ukuran libMicrosoft.CognitiveServices.Speech.extension.mas.so untuk Linux ARM32 dan Linux Arm64.
Pengenalan Niat menggunakan pencocokan pola:
- Menambahkan dukungan orthografi untuk bahasa fr, , de, esjp
- Menambahkan dukungan bilangan bulat bawaan untuk bahasa es.

Perbaikan bug

iOS: memperbaiki kesalahan sintesis ucapan pada iOS 16 yang disebabkan oleh kegagalan penguraian audio terkompresi (Masalah dari Pelanggan).
JavaScript:
- Perbaiki token autentikasi tidak berfungsi saat mendapatkan daftar suara untuk sintesis ucapan (Masalah pelanggan).
- Gunakan URL data untuk pemuatan pekerja (Masalah pelanggan).
- Buat worklet prosesor audio hanya ketika AudioWorklet didukung pada browser (Masalah pelanggan). Ini adalah kontribusi komunitas oleh William Wong. Terima kasih William!
- Perbaiki panggilan balik yang dikenali saat respons LUIS connectionMessage kosong (Masalah pelanggan).
- Atur batas waktu segmentasi ucapan dengan benar.
Pengenalan Niat menggunakan pencocokan pola:
- Karakter non-json di dalam model sekarang dapat dimuat dengan benar.
- Masalah macet saat recognizeOnceAsync(text) dipanggil selama pengenalan berkelanjutan telah diatasi.

Speech SDK 1.23.0: Rilis Juli 2022

Fitur baru

C#, C++, Java: Menambahkan dukungan untuk bahasa zh-cn dan zh-hk dalam Pengenalan Niat dengan Pencocokan Pola.
C#: Menambahkan dukungan untuk build AnyCPU .NET Framework

Perbaikan bug

Android: Memperbaiki kerentanan OpenSSL CVE-2022-2068 dengan memperbarui OpenSSL ke 1.1.1q
Python: Memperbaiki kerusakan saat menggunakan PushAudioInputStream
iOS: Memperbaiki masalah "EXC_BAD_ACCESS: Mencoba mengakses pointer null" seperti yang dilaporkan di iOS (masalah GitHub)

Speech SDK 1.22.0: Rilis Juni 2022

Fitur baru

Java: API IntentRecognitionResult untuk getEntities(), applyLanguageModels(), dan recognizeOnceAsync(text) ditambahkan untuk mendukung mesin "pencocokan pola sederhana".
Unity: Menambahkan dukungan untuk Mac M1 (Apple Silicon) untuk paket Unity (masalah GitHub)
C#: Menambahkan dukungan untuk x86_64 untuk Xamarin Android (masalah GitHub)
C#: Versi minimum .NET framework diperbarui ke v4.6.2 untuk paket SDK C# karena v4.6.1 telah dihentikan (lihat Kebijakan Siklus Hidup Komponen Microsoft .NET Framework)
Linux: Menambahkan dukungan untuk Debian 11 dan Ubuntu 22.04 LTS. Ubuntu 22.04 LTS memerlukan penginstalan manual libssl1.1 baik sebagai paket biner dari sini (misalnya, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb atau yang lebih baru untuk x64), atau dengan mengkompilasi dari sumber.

Perbaikan bug

UWP: Dependensi OpenSSL dihapus dari pustaka UWP dan diganti dengan websocket WinRT dan API HTTP untuk memenuhi kepatuhan keamanan dan jejak biner yang lebih kecil.
Mac: Memperbaiki masalah "Modul MicrosoftCognitiveServicesSpeech Tidak Ditemukan" saat menggunakan proyek Swift yang menargetkan platform macOS
Windows, Mac: Memperbaiki masalah khusus platform di mana sumber audio yang dikonfigurasi melalui properti untuk melakukan streaming pada tingkat real time terkadang tertinggal dan akhirnya melebihi kapasitas

Sampel (GitHub)

C#: Sampel kerangka kerja .NET diperbarui untuk menggunakan v4.6.2
Unity: Sampel asisten virtual diperbaiki untuk Android dan UWP
Unity: Sampel Unity diperbarui untuk versi Unity 2020 LTS

Speech SDK 1.21.0: Rilis April 2022

Fitur baru

Java & JavaScript: Menambahkan dukungan untuk Identifikasi Bahasa Berkelanjutan saat menggunakan objek SpeechRecognizer
JavaScript: Menambahkan Diagnostics APIs untuk mengaktifkan level pengelogan konsol dan (khusus Node) pengelogan file, untuk membantu Microsoft memecahkan masalah yang dilaporkan pelanggan.
Python: Menambahkan dukungan untuk Transkripsi Percakapan
Go: Menambahkan dukungan untuk Pengenalan Penutur
C++ & C#: Menambahkan dukungan untuk sekelompok kata yang diperlukan di Intent Recognizer (pencocokan pola sederhana). Misalnya: "(atur|mulai|nyalakan) penghitung waktu" di mana "atur", "mulai" atau "nyalakan" harus ada agar maksudnya dapat dikenali.
Semua bahasa pemrograman, Sintesis Ucapan: Menambahkan properti durasi pada kejadian batas kata. Menambahkan dukungan untuk batas tanda baca dan batas kalimat
Objective-C/Swift/Java: Menambahkan hasil tingkat kata pada objek hasil Penilaian Pengucapan (mirip dengan C#). Aplikasi tidak perlu lagi mengurai string hasil JSON untuk mendapatkan informasi tingkat kata (masalah GitHub)
Platform iOS: Menambahkan dukungan eksperimental untuk arsitektur ARMv7

Perbaikan bug

Platform iOS: Memperbaiki agar memungkinkan pembangunan untuk target "Perangkat iOS apa pun", saat menggunakan CocoaPod (isu GitHub)
Platform Android: Versi OpenSSL telah diperbarui ke 1.1.1n untuk memperbaiki kerentanan keamanan CVE-2022-0778
JavaScript: Memperbaiki masalah saat header wav tidak diperbarui dengan ukuran file (masalah GitHub)
JavaScript: Memperbaiki masalah desinkronissi ID permintaan yang melanggar skenario terjemahan (masalah GitHub)
JavaScript: Memperbaiki masalah saat membuat instans SpeakerAudioDestination tanpa aliran (masalah GitHub)
C++: Memperbaiki header C++ untuk menghapus peringatan saat mengompilasi untuk C++17 atau yang lebih baru

Sampel GitHub

Sampel Java baru untuk Pengenalan Ucapan dengan Identifikasi Bahasa
Sampel Python dan Java baru untuk Transkripsi Percakapan
Sampel Go baru untuk Pengenalan Penutur
Alat baru C++ dan C# untuk Windows yang mendaftar semua perangkat penangkap dan pemroses audio untuk menemukan ID perangkat mereka. ID ini diperlukan oleh Speech SDK jika Anda berencana untuk mengambil audio dari, atau merender audio ke, perangkat nondefault.

Speech SDK 1.20.0: Rilis Januari 2022

Fitur baru

Objective-C, Swift, dan Python: Menambahkan dukungan untuk DialogServiceConnector, digunakan untuk skenario asisten suara.
Python: Dukungan untuk Python 3.10 ditambahkan. Dukungan untuk Python 3.6 telah dihapus, sesuai dengan akhir dukungan Python untuk 3.6.
Unity: Speech SDK sekarang didukung untuk aplikasi Unity di Linux.
C++, C#: IntentRecognizer menggunakan pencocokan pola sekarang didukung di C#. Selain itu, skenario dengan entitas kustom, grup opsional, dan peran entitas sekarang didukung dalam C ++ dan C#.
C++, C#: Diagnostik yang ditingkatkan melacak pencatatan menggunakan kelas baru FileLogger, MemoryLogger, dan EventLogger. Log SDK adalah alat penting bagi Microsoft untuk mendiagnosis masalah yang dilaporkan pelanggan. Kelas-kelas baru ini memudahkan pelanggan untuk mengintegrasikan log Speech SDK ke dalam sistem pengelogan mereka sendiri.
Semua bahasa pemrograman: PronunciationAssessmentConfig sekarang memiliki properti untuk mengatur alfabet fonem yang diinginkan (IPA atau SAPI) dan N-Best Phoneme Count (menghindari kebutuhan untuk menulis konfigurasi JSON sesuai GitHub masalah 1284). Selain itu, output tingkat suku kata sekarang didukung.
Android, iOS, dan macOS (semua bahasa pemrograman): GStreamer tidak lagi diperlukan untuk mendukung jaringan bandwidth terbatas. SpeechSynthesizer sekarang menggunakan kemampuan sistem operasi untuk mendekode audio terkompresi yang dialirkan dari layanan teks-ke-ucapan.
Semua bahasa pemrograman: SpeechSynthesizer sekarang mendukung tiga format Opus keluaran mentah baru (tanpa kontainer), yang banyak digunakan dalam skenario streaming langsung.
JavaScript: Menambahkan getVoicesAsync() API ke SpeechSynthesizer untuk mengambil daftar suara sintesis yang didukung (GitHub masalah 1350)
JavaScript: Menambahkan API getWaveFormat() ke AudioStreamFormat untuk mendukung format gelombang non-PCM (GitHub masalah 452)
JavaScript: Menambahkan volume getter/setter dan mute()/unmute() API ke SpeakerAudioDestination (GitHub issue 463)

Perbaikan bug

C++, C#, Java, JavaScript, Objective-C, dan Swift: Perbaiki untuk menghapus penundaan 10 detik sambil menghentikan pengenalan ucapan yang menggunakan PushAudioInputStream. Ini untuk kasus di mana tidak ada audio baru yang didorong setelah StopContinuousRecognition dipanggil (masalah GitHub 1318, 331)
Unity di Android dan UWP: File meta Unity diperbaiki untuk UWP, Android Arm64, dan Subsistem Windows untuk Android (WSA) Arm64 (masalah GitHub 1360)
iOS: Mengompilasi aplikasi Speech SDK Anda di Perangkat iOS apa pun saat menggunakan CocoaPods sekarang sudah diperbaiki (masalah GitHub 1320)
iOS: Ketika SpeechSynthesizer dikonfigurasi untuk mengeluarkan audio langsung ke speaker, pemutaran berhenti di awal dalam kondisi langka. Ini sudah diperbaiki.
JavaScript: Gunakan fallback pemroses skrip untuk input mikrofon jika tidak ada worklet audio yang ditemukan (issue GitHub 455)
JavaScript: Menambahkan protokol ke agen untuk mengurangi bug yang ditemukan dengan integrasi Sentry (GitHub masalah 465)

Sampel GitHub

Sampel C++, C#, Python, dan Java menunjukkan cara mendapatkan hasil pengenalan terperinci. Rinciannya termasuk hasil pengenalan alternatif, skor kepercayaan, bentuk Leksikal, bentuk dinormalisasi, bentuk Normalisasi Bertopeng dengan penentuan waktu pada tingkat kata untuk masing-masing.
Sampel iOS ditambahkan menggunakan AVFoundation sebagai sumber audio eksternal.
Sampel Java ditambahkan untuk menunjukkan cara mendapatkan format SRT (SubRip Text) menggunakan peristiwa WordBoundary.
Sampel Android untuk Penilaian Pengucapan.
C++, C# menampilkan penggunaan kelas Pencatatan Diagnostik baru.

Speech SDK 1.19.0: Dirilis November 2021

Sorotan

Layanan Pengenalan Pembicara kini tersedia secara umum (GA). API Speech SDK tersedia di C ++, C#, Java dan JavaScript. Dengan Pengenalan Pembicara Anda dapat secara akurat memverifikasi dan mengidentifikasi pembicara dengan karakteristik suara mereka yang unik. Untuk informasi selengkapnya tentang topik ini, lihat dokumentasi.
Kami sudah tidak lagi memberikan dukungan untuk Ubuntu 16.04 bersama dengan Azure DevOps dan GitHub. Ubuntu 16.04 mencapai akhir masa dukungannya pada bulan April 2021. Migrasikan alur kerja Ubuntu 16.04 Anda ke Ubuntu 18.04 atau yang lebih baru.
Penautan OpenSSL di biner Linux berubah menjadi dinamis. Ukuran biner Linux telah berkurang sekitar 50%.
Dukungan silikon untuk Mac M1 berbasis ARM telah ditambahkan.

Fitur baru

C++/C#/Java: API baru telah ditambahkan guna mengaktifkan dukungan pemrosesan audio untuk input ucapan dengan Microsoft Audio Stack. Dokumentasi di sini.
C ++ : API baru untuk pengenalan niat untuk memfasilitasi pencocokan pola yang lebih andal. Hal ini termasuk entitas Daftar dan Integer Bawaan serta dukungan untuk mengelompokkan maksud dan entitas sebagai model (Dokumentasi, pembaruan, dan sampel sedang dalam tahap pengembangan dan akan diterbitkan dalam waktu dekat).
Mac: Dukungan untuk chip berbasis Arm64 (M1) untuk paket CocoaPod, Python, Java, dan NuGet yang terkait dengan isu GitHub 1244.
iOS/Mac: Biner iOS dan macOS sekarang dikemas ke dalam xcframework terkait dengan isu GitHub 919.
iOS/Mac: Dukungan untuk Mac catalyst terkait dengan isu GitHub 1171.
Linux: Paket tar baru ditambahkan untuk CentOS7 Tentang SDK Ucapan. Paket .tar Linux sekarang berisi pustaka khusus untuk RHEL / CentOS 7 di lib/centos7-x64. Pustaka Speech SDK di lib/x64 masih berlaku untuk semua distribusi Linux x64 lain yang didukung (termasuk RHEL/CentOS 8) dan tidak akan berfungsi pada RHEL/CentOS 7.
JavaScript: API VoiceProfile & SpeakerRecognizer dibuat asinkron/dapat ditunggu.
JavaScript: Dukungan ditambahkan untuk wilayah Azure pemerintah AS.
Windows: Dukungan ditambahkan untuk pemutaran di Platform Windows Universal (UWP).

Perbaikan bug

Android: Pembaruan keamanan OpenSSL (diperbarui ke versi 1.1.1l) untuk paket Android.
Python: Menyelesaikan bug saat memilih perangkat speaker pada Python gagal.
Core: Secara otomatis menghubungkan kembali saat upaya koneksi gagal.
iOS: Kompresi audio dinonaktifkan pada paket iOS karena ketidakstabilan dan masalah pembuatan bitcode saat menggunakan GStreamer. Detailnya dapat dilihat di GitHub edisi 1209.

Sampel GitHub

Mac/iOS: Sampel dan panduan memulai cepat yang diperbarui untuk menggunakan paket xcframework.
.NET: Sampel diperbarui untuk menggunakan versi .NET core 3.1.
JavaScript: Menambahkan sampel untuk Asisten Voice.

Speech SDK 1.18.0: Rilis Juli 2021

Catatan: Mulai gunakan Speech SDK di sini.

Ringkasan sorotan

Ubuntu 16.04 mencapai akhir masa penggunaan pada April 2021. Dengan Azure DevOps dan GitHub, kami akan menghilangkan dukungan untuk 16.04 pada Bulan September 2021. Migrasikan alur kerja ubuntu-16.04 ke ubuntu-18.04 atau yang lebih baru sebelum itu.

Fitur baru

C++ : Pencocokan Pola Bahasa Sederhana dengan Pengenal Niat kini membuat penerapan skenario pengenalan niat sederhana lebih mudah.
C++/C#/Java: Kami menambahkan API baru, GetActivationPhrasesAsync() ke kelas VoiceProfileClient guna menerima daftar frasa aktivasi valid di fase pendaftaran pengenal pembicara untuk skenario pengenalan independen.
- Penting: Fitur Pengenal Pembicara sedang dalam Pratinjau. Semua profil suara yang dibuat di Pratinjau akan dihentikan 90 hari setelah fitur Pengenalan Pembicara dipindahkan dari Pratinjau ke Ketersediaan Umum. Pada saat itu, profil suara Pratinjau akan tidak berfungsi lagi.
Python: Menambahkan dukungan untuk Identifikasi Bahasa (LID) berkelanjutan pada objek SpeechRecognizer dan TranslationRecognizer yang ada.
Python: Menambahkan objek Python baru bernama SourceLanguageRecognizer untuk melakukan LID satu kali atau berkelanjutan (tanpa pengenalan atau terjemahan).
JavaScript: getActivationPhrasesAsync API ditambahkan ke kelas VoiceProfileClient guna menerima daftar frasa aktivasi yang valid di fase pendaftaran pengenalan pembicara untuk skenario pengenalan independen.
JavaScriptVoiceProfileClientenrollProfileAsync API kini mendukung async/await. Lihat kode identifikasi independen ini, misalnya penggunaan.

Perbaikan

Java: Dukungan AutoCloseable ditambahkan ke banyak objek Java. Model try-with-resources kini didukung untuk melepaskan sumber daya. Lihat sampel ini yang menggunakan try-with-resources. Lihat juga tutorial dokumentasi Oracle Java untuk Pernyataan try-with-resources untuk mempelajari pola ini.
Jejak disk telah berkurang secara signifikan untuk banyak platform dan arsitektur. Contoh untuk Microsoft.CognitiveServices.Speech.core biner: x64 Linux adalah 475KB lebih kecil (pengurangan 8,0%); Arm64 Windows UWP berukuran 464KB lebih kecil (pengurangan 11,5%); x86 Windows lebih kecil 343KB (pengurangan 17,5%); dan x64 Windows 451KB lebih kecil (pengurangan 19,4%).

Perbaikan bug

Java: Kesalahan sintesis tetap saat teks sintesis berisi karakter pengganti. Lihat detailnya di sini.
JavaScript: Pemrosesan audio mikrofon browser kini menggunakan AudioWorkletNode dan bukan ScriptProcessorNode yang tidak digunakan lagi. Lihat detailnya di sini.
JavaScript: Dengan benar menjaga percakapan tetap hidup selama skenario terjemahan percakapan yang berlangsung lama. Lihat detailnya di sini.
JavaScript: Memperbaiki masalah dengan pengenal yang menyambung kembali ke aliran media dalam mode pengenalan berkelanjutan. Lihat detailnya di sini.
JavaScript: Memperbaiki masalah dengan pengenalan yang menyambung kembali ke pushStream dalam pengenalan berkelanjutan. Lihat detailnya di sini.
JavaScript: Memperbaiki perhitungan offset pada tingkat kata dalam hasil pengenalan yang terperinci. Lihat detailnya di sini.

Contoh

Contoh pengantar cepat Java diperbarui di sini.
Sampel Pengenalan Pembicara JavaScript diperbarui untuk menunjukkan penggunaan baru enrollProfileAsync(). Lihat sampel di sini.

Speech SDK 1.17.0: rilis Mei 2021

Catatan

Mulai gunakan Speech SDK di sini.

Ringkasan sorotan

Jejak penggunaan yang lebih kecil - kami terus mengurangi penggunaan memori dan penyimpanan SDK Ucapan serta komponennya.
API identifikasi bahasa mandiri baru memungkinkan Anda mengenali bahasa apa yang sedang diucapkan.
Kembangkan aplikasi realitas campuran dan game yang didukung ucapan menggunakan Unity di macOS.
Anda sekarang dapat menggunakan Teks untuk ucapan selain pengenalan ucapan dari bahasa pemrograman Go.
Beberapa perbaikan bug untuk mengatasi masalah Anda, pelanggan setia kami, yang telah Anda tandai di GitHub! TERIMA KASIH! Terus berikan umpan balik!

Fitur baru

C++/C#: Deteksi Bahasa mandiri di awal dan berkelanjutan yang baru melalui API SourceLanguageRecognizer. Jika Anda hanya ingin mendeteksi bahasa yang diucapkan dalam konten audio, ini adalah API untuk melakukannya. Lihat detail untuk C ++ dan C#.
C++/C#: Pengenalan Ucapan dan Pengenalan Terjemahan sekarang mendukung Identifikasi Bahasa awal dan berkelanjutan sehingga Anda dapat menentukan bahasa mana yang diucapkan secara terprogram sebelum ditranskripsikan atau diterjemahkan. Lihat dokumentasi di sini untuk Pengenalan Ucapan dan di sini untuk Terjemahan Ucapan.
C#: Menambahkan dukungan Unity ke macOS (x64). Ini membuka kasus penggunaan pengenalan ucapan dan sintesis ucapan dalam realitas campuran dan game!
Go: Kami menambahkan dukungan untuk teks sintesis ucapan ke ucapan ke bahasa pemrograman Go untuk membuat sintesis ucapan tersedia dalam kasus penggunaan yang lebih banyak lagi. Lihat panduan cepat kami atau dokumen referensi kami.
C++/C#/Java/Python/Objective-C/Go: Synthesizer ucapan sekarang mendukung objek connection. Ini membantu Anda mengelola dan memantau koneksi ke layanan Speech, dan sangat berguna untuk terhubung sebelumnya guna mengurangi latensi. Lihat dokumentasi di sini.
C++/C#/Java/Python/Objective-C/Go: Kami sekarang mengekspos latensi dan waktu underrun di SpeechSynthesisResult untuk membantu Anda memantau dan mendiagnosis masalah latensi sintesis ucapan. Lihat detail untuk C++, C#, Java, Python, Objective-C, dan Go.
C++/C#/Java/Python/Objective-C: Teks ke ucapan sekarang menggunakan suara neural secara default saat Anda tidak menentukan suara yang akan digunakan. Ini memberi Anda output keakuratan yang lebih tinggi secara default, tetapi juga meningkatkan harga default.
C++/C#/Java/Python/Objective-C/Go: Kami menambahkan properti Jenis Kelamin ke info suara sintesis untuk memudahkan memilih suara berdasarkan jenis kelamin. Ini mengatasi masalah GitHub #1055.
C++, C#, Java, JavaScript: Kami sekarang mendukung retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync, dan getAllProfilesAsync() serta di Pengenalan Pembicara untuk memudahkan manajemen pengguna semua profil suara untuk akun tertentu. Lihat dokumentasi untuk C++, C#, Java, JavaScript. Ini mengatasi masalah GitHub #338.
JavaScript: Kami menambahkan upaya ulang untuk kegagalan koneksi yang akan membuat aplikasi ucapan berbasis JavaScript Anda lebih tangguh.

Perbaikan

Biner Linux dan Android Speech SDK telah diperbarui untuk menggunakan OpenSSL versi terbaru (1.1.1k)
Peningkatan Ukuran Kode:
- Pemahaman Bahasa kini terpisah menjadi pustaka "lu" sendiri.
- Ukuran biner inti Windows x64 berkurang sebesar 14,4%.
- Ukuran biner inti Android Arm64 menurun 13,7%.
- komponen lain juga berkurang ukurannya.

Perbaikan bug

Semua: Memperbaiki masalah GitHub #842 untuk ServiceTimeout. Anda sekarang dapat mentranskripsikan file audio panjang menggunakan Speech SDK tanpa terputusnya koneksi ke layanan karena kesalahan ini. Namun, kami masih menyarankan Anda menggunakan transkripsi batch untuk file panjang.
C#: Memperbaiki masalah GitHub #947 yang menyebabkan aplikasi Anda dalam keadaan buruk karena tidak ada input ucapan.
Java: Memperbaiki Masalah GitHub #997 ketika Speech SDK untuk Java 1.16 mengalami crash saat menggunakan DialogServiceConnector tanpa koneksi jaringan atau kunci langganan yang tidak valid.
Memperbaiki kesalahan crash ketika menghentikan pengenalan ucapan secara mendadak (misalnya dengan menggunakan CTRL+C pada aplikasi konsol).
Java: Menambahkan perbaikan untuk menghapus file sementara di Windows saat menggunakan Speech SDK untuk Java.
Java: Memperbaiki masalah GitHub #994 yang pemanggilan DialogServiceConnector.stopListeningAsync dapat mengakibatkan kesalahan.
Java: Memperbaiki masalah pelanggan dalam quickstart asisten virtual.
JavaScript: Memperbaiki masalah GitHub #366 di mana ConversationTranslator melemparkan kesalahan 'this.cancelSpeech bukan fungsi'.
JavaScript: Memperbaiki masalah GitHub #298 ketika sampel 'Dapatkan hasil sebagai aliran dalam memori' diputar dengan suara keras.
JavaScript: Memperbaiki masalah GitHub #350 di mana panggilan AudioConfig dapat mengakibatkan 'ReferenceError: MediaStream tidak ditentukan'.
JavaScript Memperbaiki peringatan *UnhandledPromiseRejection* di Node.js untuk sesi dengan durasi panjang.

Contoh

Memperbaiki dokumentasi sampel Unity untuk macOS di sini.
Sampel React Native untuk layanan pengenalan Ucapan Azure AI sekarang tersedia di sini.

Speech SDK 1.16.0: Rilis Maret 2021

Catatan

SDK Ucapan di Windows bergantung pada Microsoft Visual C++ Redistributable bersama untuk Visual Studio 2015, 2017, dan 2019.

Fitur baru

C++/C#/Java/Python: Pindah ke versi terbaru GStreamer (1.18.3) untuk menambahkan dukungan untuk mentranskripsikan format media apa pun di Windows, Linux, dan Android. Lihat dokumentasi di sini.
C++/C#/Java/Objective-C/Python: Menambahkan dukungan untuk mendekode TTS/audio sintesis terkompresi ke SDK. Jika Anda mengatur format audio output ke PCM dan GStreamer tersedia di sistem Anda, SDK akan secara otomatis meminta audio terkompresi dari layanan untuk menyimpan bandwidth dan mendekode audio pada klien. Anda dapat mengatur SpeechServiceConnection_SynthEnableCompressedAudioTransmission ke false menonaktifkan fitur ini. Detail untuk C++, C#, Java, Objective-C, Python.
JavaScript: Pengguna Node.js sekarang dapat menggunakan AudioConfig.fromWavFileInput API. Ini mengatasi masalah GitHub #252.
C++/C#/Java/Objective-C/Python: Menambahkan metode GetVoicesAsync() bagi TTS untuk mengembalikan semua suara sintesis yang tersedia. Detail untuk C++, C#, Java, Objective-C, dan Python.
C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan event VisemeReceived untuk sintesis teks-ke-ucapan (TTS) mengembalikan animasi viseme yang sinkron. Lihat dokumentasi di sini.
C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan peristiwa BookmarkReached untuk TTS. Anda dapat mengatur penanda di input SSML dan mendapatkan offset audio untuk setiap penanda. Lihat dokumentasi di sini.
Java: Menambahkan dukungan untuk API Pengenalan Pembicara. Lihat detailnya di sini.
C++/C#/Java/JavaScript/Objective-C/Python: Menambahkan dua format audio output baru dengan kontainer WebM untuk TTS (Webm16Khz16BitMonoOpus dan Webm24Khz16BitMonoOpus). Ini adalah format yang lebih baik untuk streaming audio dengan codec Opus. Detail untuk C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: Menambahkan dukungan untuk mengambil profil suara untuk skenario Pengenalan Pembicara. Detail untuk C++, C#, dan Java.
C++/C#/Java/Objective-C/Python: Menambahkan dukungan untuk pustaka bersama terpisah untuk mikrofon audio dan kontrol pembicara. Ini memungkinkan pengembang untuk menggunakan SDK di lingkungan yang tidak memerlukan dependensi pustaka audio.
Objective-C/Swift: Menambahkan dukungan untuk rangka kerja modul dengan header payung. Hal ini memungkinkan pengembang untuk mengimpor Speech SDK sebagai modul di aplikasi iOS/Mac Objective-C/Swift. Ini mengatasi masalah GitHub #452.
Python: Menambahkan dukungan untuk Python 3.9 dan menghapus dukungan untuk Python 3.5 sesuai dengan masa akhir dukungan Python untuk 3.5.

Masalah yang diketahui

C++/C#/Java: DialogServiceConnector tidak dapat menggunakan CustomCommandsConfig untuk mengakses aplikasi Perintah Kustom dan sebaliknya akan mengalami kesalahan koneksi. Ini dapat diatasi dengan menambahkan ID aplikasi Anda secara manual ke permintaan dengan config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Perilaku yang diharapkan dari CustomCommandsConfig akan dipulihkan pada rilis berikutnya.

Perbaikan

Sebagai bagian dari upaya multi-rilis kami untuk mengurangi penggunaan memori dan ukuran salah satu file di disk dari Speech SDK, file biner Android sekarang lebih kecil 3% hingga 5%.
Peningkatan akurasi, keterbacaan, dan lihat juga bagian dokumentasi referensi C# kami di sini.

Perbaikan bug

JavaScript: Header file WAV berukuran besar sekarang diurai dengan benar (dengan ukuran irisan header meningkat menjadi 512 byte). Ini mengatasi masalah GitHub #962.
JavaScript: Memperbaiki masalah pengaturan waktu mikrofon jika aliran mikrofon yang berakhir sebelum menghentikan pengenalan, mengatasi masalah Pengenalan Ucapan yang tidak berfungsi di Firefox.
JavaScript: Kami sekarang menangani promise inisialisasi dengan benar ketika browser memaksa mikrofon dimatikan sebelum turnOn selesai.
JavaScript: Kami mengganti dependensi URL dengan url-parse. Ini mengatasi masalah GitHub #264.
Android: Memperbaiki panggilan balik yang tidak berfungsi saat minifyEnabled diatur ke benar.
C++/C#/Java/Objective-C/Python: TCP_NODELAY akan diatur dengan benar ke soket IO dasar untuk mengurangi latensi dalam TTS.
C++/C#/Java/Python/Objective-C/Go: Memperbaiki crash sesekali ketika pengenal dihapus tepat setelah memulai pengenalan.
C++/C#/Java: Memperbaiki crash yang terjadi sesekali dalam penghancuran pengenal pembicara.

Contoh

JavaScript: Sampel browser tidak lagi memerlukan unduhan file pustaka JavaScript terpisah.

Speech SDK 1.15.0: Rilis Januari 2021

Catatan

SDK Ucapan di Windows bergantung pada Microsoft Visual C++ Redistributable bersama untuk Visual Studio 2015, 2017, dan 2019.

Ringkasan sorotan

Memori dan jejak disk yang lebih kecil menjadikan SDK lebih efisien.
Format output keakuratan yang lebih tinggi tersedia untuk pratinjau privat suara neural kustom.
Intent Recognizer sekarang dapat menghasilkan lebih dari satu niat utama, memberi Anda kemampuan untuk melakukan penilaian terpisah mengenai tujuan pelanggan Anda.
Asisten suara dan bot kini lebih mudah dikonfigurasi, dan Anda dapat membuatnya berhenti mendengarkan seketika, serta menjalankan kontrol lebih besar atas cara menangani kesalahan.
Meningkatkan performa perangkat melalui membuat kompresi opsional.
Gunakan Speech SDK pada Windows ARM/Arm64.
Meningkatkan pemrograman debug tingkat rendah.
Fitur Penilaian Pengucapan kini lebih banyak tersedia.
Beberapa perbaikan bug untuk mengatasi masalah Anda, pelanggan setia kami, yang telah Anda tandai di GitHub! TERIMA KASIH! Terus berikan umpan balik!

Perbaikan

Speech SDK sekarang lebih efisien dan ringan. Kami telah memulai upaya multi rilis untuk mengurangi penggunaan memori dan jejak disk Speech SDK. Sebagai langkah pertama kami membuat pengurangan ukuran file yang signifikan di pustaka bersama di sebagian besar platform. Dibandingkan dengan rilis 1.14:
- Pustaka Windows yang kompatibel dengan UWP 64-bit sekitar 30% lebih kecil.
- Pustaka Windows 32-bit belum melihat peningkatan ukuran.
- Pustaka Linux 20-25% lebih kecil.
- Pustaka Android 3-5% lebih kecil.

Fitur baru

Semua: Format output 48 KHz baru tersedia untuk pratinjau privat suara neural kustom melalui API sintesis ucapan TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Semua: Suara kustom juga lebih mudah digunakan. Menambahkan dukungan untuk mengatur suara kustom melalui EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Sebelum perubahan ini, pengguna suara kustom perlu mengatur URL titik akhir melalui metode FromEndpoint. Sekarang pelanggan dapat menggunakan metode FromSubscription seperti suara standar, dan kemudian memberikan ID penyebaran dengan mengatur EndpointId. Ini menyederhanakan pengaturan suara kustom.
C++/C#/Java/Objective-C/Python: Dapatkan lebih dari sekadar niat teratas dariIntentRecognizer. Sekarang mendukung konfigurasi hasil JSON yang berisi semua maksud dan bukan hanya maksud dengan skor tertinggi, dengan menggunakan parameter uri LanguageUnderstandingModel FromEndpoint melalui metode verbose=true. Ini mengatasi masalah GitHub #880. Lihat dokumentasi yang diperbarui di sini.
C++/C#/Java: Buat asisten suara atau bot Anda segera berhenti mendengarkan. DialogServiceConnector (C++, C#, Java) sekarang memiliki metode StopListeningAsync() untuk menyertai ListenOnceAsync(). Ini akan segera menghentikan pengambilan audio dan dengan baik menunggu hasil, membuatnya sempurna untuk digunakan dengan skenario tekan tombol "berhenti sekarang".
C++/C#/Java/JavaScript: Buat asisten suara atau bot Anda bereaksi lebih baik terhadap kesalahan sistem yang mendasarinya. DialogServiceConnector (C++, C#, Java, JavaScript) sekarang memiliki handler peristiwa TurnStatusReceived baru. Peristiwa opsional ini sesuai dengan setiap resolusi ITurnContext pada Bot dan akan melaporkan kegagalan eksekusi saat terjadi, misalnya sebagai akibat dari pengecualian yang tidak tertangani, batas waktu, atau penurunan jaringan antara Direct Line Speech dan bot. TurnStatusReceived membuatnya lebih mudah untuk merespons kondisi kegagalan. Misalnya, jika bot terlalu lama pada kueri basis data backend (misalnya mencari produk), TurnStatusReceived membiarkan klien tahu untuk mengajukan kembali dengan "maaf, saya tidak menangkapnya, bisakah Anda mencoba lagi" atau sesuatu yang serupa.
C++/C# : Gunakan Speech SDK di lebih banyak platform. Paket Speech SDK NuGet sekarang mendukung biner asli desktop Windows ARM/Arm64 (UWP sudah didukung) untuk membuat Speech SDK lebih berguna pada lebih banyak jenis komputer.
Java: DialogServiceConnector sekarang memiliki metode setSpeechActivityTemplate() yang secara tidak sengaja dikecualikan dari bahasa sebelumnya. Ini setara dengan pengaturan properti Conversation_Speech_Activity_Template dan akan meminta semua aktivitas Bot Framework di masa depan yang berasal dari layanan Direct Line Speech menggabungkan konten yang disediakan ke dalam muatan JSON mereka.
Java: Memperbaiki debugging tingkat rendah. Kelas Connection sekarang memiliki peristiwa MessageReceived, mirip dengan bahasa pemrograman lainnya (C++, C#). Peristiwa ini menyediakan akses tingkat rendah ke data masuk dari layanan dan dapat berguna untuk diagnostik dan debugging.
JavaScript: Penyiapan yang lebih mudah untuk Asisten Suara dan bot melalui BotFrameworkConfig, yang sekarang memiliki metode pabrik fromHost() dan fromEndpoint() yang menyederhanakan penggunaan lokasi layanan kustom versus pengaturan properti secara manual. Kami juga menstandarisasi spesifikasi opsional botId untuk menggunakan bot non-default di seluruh pabrik konfigurasi.
JavaScript: Ditingkatkan pada performa perangkat melalui properti kontrol string tambahan untuk kompresi websocket. Untuk alasan performa, kami menonaktifkan kompresi websocket secara default. Ini dapat diaktifkan ulang dalam skenario dengan bandwidth rendah. Lihat detail lanjut di sini. Ini mengatasi masalah GitHub #242.
JavaScript: Menambahkan dukungan untuk lPronunciation Assessment untuk memungkinkan evaluasi pengucapan ucapan. Lihat panduan memulai cepat di sini.

Perbaikan bug

Semua (kecuali JavaScript): Memperbaiki regresi di versi 1.14, ketika terlalu banyak memori dialokasikan oleh pengenal.
C++ : Memperbaiki masalah kumpulan sampah dengan DialogServiceConnector, mengatasi masalah GitHub #794.
C#: Memperbaiki masalah dengan penghentian utas yang menyebabkan objek tertahan selama sekitar satu detik saat dibuang.
C++/C#/Java: Memperbaiki pengecualian yang mencegah aplikasi menetapkan token otorisasi ucapan atau templat aktivitas lebih dari sekali pada DialogServiceConnector.
C++/C#/Java: Kerusakan pengenal diperbaiki karena kondisi perlombaan saat pembongkaran.
JavaScript: DialogServiceConnector sebelumnya tidak mengakui parameter botId opsional yang ditentukan dalam pabrik BotFrameworkConfig. Ini membuatnya perlu untuk mengatur parameter string kueri botId secara manual untuk menggunakan bot non-default. Bug telah diperbaiki dan nilai botId yang diberikan ke pabrik BotFrameworkConfig akan dihargai dan digunakan, termasuk pada fromHost() baru serta penambahan fromEndpoint(). Ini juga berlaku untuk parameter applicationId untuk CustomCommandsConfig.
JavaScript: Memperbaiki masalah GitHub #881, memungkinkan penggunaan kembali objek pengenal.
JavaScript: Memperbaiki masalah ketika SKD mengirim speech.config beberapa kali dalam satu sesi TTS, membuang-buang bandwidth.
JavaScript: Penanganan kesalahan yang disederhanakan pada otorisasi mikrofon, memungkinkan pesan yang lebih deskriptif muncul saat pengguna belum memberikan izin untuk penggunaan mikrofon di browser mereka.
JavaScript: Memperbaiki masalah GitHub #249 ketika kesalahan jenis di ConversationTranslator dan ConversationTranscriber menyebabkan kesalahan kompilasi untuk pengguna TypeScript.
Objective-C: Memperbaiki masalah ketika build GStreamer gagal untuk iOS pada Xcode 11.4, mengatasi masalah GitHub #911.
Python: Memperbaiki masalah GitHub issue #870, menghapus "DeprecationWarning: modul imp dihapus demi importlib".

Contoh

Sampel berbasis file untuk browser JavaScript sekarang menggunakan file untuk pengenalan ucapan. Ini mengatasi masalah GitHub #884.

Speech SDK 1.14.0: Rilis Oktober 2020

Catatan

SDK Ucapan di Windows bergantung pada Microsoft Visual C++ Redistributable bersama untuk Visual Studio 2015, 2017, dan 2019.

Fitur baru

Linux: Menambahkan dukungan untuk Debian 10 dan Ubuntu 20.04 LTS.
Python/Objective-C: Menambahkan dukungan untuk KeywordRecognizer API. Dokumentasi akan tersedia di sini.
C++/Java/C# : Menambahkan dukungan untuk mengatur HttpHeader kunci/nilai apa pun melalui ServicePropertyChannel::HttpHeader.
JavaScript: Menambahkan dukungan untuk ConversationTranscriber API. Baca dokumentasi di sini.
C++/C# : Menambahkan metode AudioDataStream FromWavFileInput baru (untuk membaca file .WAV) di sini (C++) dan di sini (C#).
C++/C#/Java/Python/Objective-C/Swift: Menambahkan stopSpeakingAsync() metode untuk menghentikan teks ke sintesis ucapan. Baca Dokumentasi referensi di sini (C++), di sini (C#), di sini (Java), di sini (Python), dan di sini (Objective-C/Swift).
C#, C++, Java: Menambahkan fungsi FromDialogServiceConnector() ke kelas Connection yang dapat digunakan untuk memantau peristiwa koneksi dan melepas koneksi untuk DialogServiceConnector. Baca Dokumentasi referensi di sini (C#), di sini (C++), dan di sini (Java).
C++/C#/Java/Python/Objective-C/Swift: Menambahkan dukungan untuk Penilaian Pengucapan, yang mengevaluasi pengucapan ucapan dan memberikan umpan balik kepada pembicara tentang keakuratan dan kefasihan audio lisan. Baca dokumentasi di sini.

Perubahan yang tidak kompatibel mundur

JavaScript: PullAudioOutputStream.read() memiliki perubahan jenis pengembalian dari Janji internal menjadi Janji JavaScript Asli.

Perbaikan bug

Semua: Memperbaiki regresi 1.13 SetServiceProperty ketika nilai dengan karakter khusus tertentu diabaikan.
C# : Memperbaiki sampel konsol Windows di Visual Studio 2019 yang gagal menemukan DL asli.
C#: Diperbaiki crash dengan manajemen memori jika stream digunakan sebagai input KeywordRecognizer.
ObjectiveC/Swift: Memperbaiki crash dengan manajemen memori jika aliran digunakan sebagai input pengenal.
Windows: Memperbaiki masalah ko-eksistensi dengan BT HFP/A2DP di UWP.
JavaScript: Memperbaiki pemetaan ID sesi untuk meningkatkan pengelogan dan bantuan dalam korelasi debug/layanan internal.
JavaScript: Menambahkan perbaikan untuk DialogServiceConnector menonaktifkan ListenOnce panggilan setelah panggilan pertama dilakukan.
JavaScript: Memperbaiki masalah ketika output hasil selalu "sederhana".
JavaScript: Memperbaiki masalah pengenalan berkelanjutan di Safari di macOS.
JavaScript: Mitigasi beban CPU untuk skenario throughput permintaan tinggi.
JavaScript: Mengizinkan akses ke detail hasil Pendaftaran Profil Suara.
JavaScript: Menambahkan perbaikan untuk pengenalan berkelanjutan di IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: Memperbaiki url yang salah untuk australiaeast dan brazilsouth di IntentRecognizer.
C++/C# : Menambahkan VoiceProfileType sebagai argumen saat membuat objek VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC: Memperbaiki potensi SPX_INVALID_ARG saat mencoba membaca AudioDataStream dari posisi tertentu.
IOS: Memperbaiki crash pada pengenalan ucapan di Unity

Contoh

ObjectiveC: Menambahkan sampel untuk pengenalan kata kunci di sini.
C#/JavaScript: Menambahkan panduan memulai cepat untuk transkripsi percakapan di sini (C#) dan di sini (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: Menambahkan sampel untuk Penilaian Pengucapan di sini

Masalah yang diketahui

Sertifikat DigiCert Global Root G2 tidak didukung secara default di HoloLens 2 dan Android 4.4 (KitKat) dan perlu ditambahkan ke sistem untuk membuat Speech SDK berfungsi. Sertifikat akan ditambahkan ke gambar OS HoloLens 2 dalam waktu dekat. Pelanggan Android 4.4 perlu menambahkan sertifikat yang diperbarui ke sistem.

Tes ringkas COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kami melewatkan sesuatu, harap beri tahu kami di GitHub.
Tetap sehat!

Speech SDK 1.13.0: Rilis 2020-Juli

Catatan

SDK Ucapan di Windows bergantung pada Microsoft Visual C++ Redistributable bersama untuk Visual Studio 2015, 2017, dan 2019.

Fitur baru

C# : Menambahkan dukungan untuk transkripsi percakapan asinkron. Lihat dokumentasi di sini.
JavaScript: Menambahkan dukungan Pengenalan Pembicara untuk browser dan Node.js.
JavaScript: Menambahkan dukungan untuk identifikasi bahasa/ID bahasa. Lihat dokumentasi di sini.
Objective-C: Menambahkan dukungan untuk percakapan multi-perangkat dan transkripsi percakapan.
Python: Menambahkan dukungan audio terkompresi untuk Python di Windows dan Linux. Lihat dokumentasi di sini.

Perbaikan bug

Semua: Memperbaiki masalah yang menyebabkan KeywordRecognizer tidak meneruskan streaming setelah pengenalan.
Semua: Memperbaiki masalah yang menyebabkan aliran yang diperoleh dari KeywordRecognitionResult tidak berisi kata kunci.
Semua: Memperbaiki masalah bahwa SendMessageAsync tidak benar-benar mengirim pesan melalui kabel setelah pengguna selesai menunggunya.
Semua: Memperbaiki crash di API Pengenalan Pembicara saat pengguna memanggil metode VoiceProfileClient:SpeakerRecEnrollProfileAsync beberapa kali dan tidak menunggu panggilan selesai.
Semua: Tetap aktifkan pengelogan file di kelas VoiceProfileClient dan SpeakerRecognizer.
JavaScript: Memperbaiki masalah dengan pengaturan kecepatan saat penjelajah diminimalkan.
JavaScript: Memperbaiki masalah dengan kebocoran memori pada aliran data.
JavaScript: Menambahkan caching untuk respons OCSP dari NodeJS.
Java: Memperbaiki masalah yang menyebabkan bidang BigInteger selalu mengembalikan 0.
iOS: Memperbaiki masalah penerbitan aplikasi berbasis Speech SDK di App Store iOS.

Contoh

C++ : Menambahkan kode sampel untuk Pengenalan Pembicara di sini.

Tes ringkas COVID-19

Speech SDK 1.12.1: Rilis Juni 2020

Fitur baru

C#, C++: Pratinjau Pengenalan Pembicara: Fitur ini memungkinkan identifikasi pembicara (siapa yang berbicara?) dan verifikasi pembicara (apakah pembicara sesuai dengan yang diklaim?). Lihat dokumentasi gambaran umum.

Perbaikan bug

C#, C++: Memperbaiki perekaman mikrofon yang tidak berfungsi dalam versi 1.12 dalam Pengenalan Pembicara.
JavaScript: Perbaikan teks ke ucapan di Firefox, dan Safari di macOS dan iOS.
Perbaikan untuk kesalahan pelanggaran akses pada pemverifikasi aplikasi Windows saat melakukan transkripsi percakapan dengan menggunakan aliran delapan saluran.
Perbaikan untuk crash akibat pelanggaran akses pada pemverifikasi aplikasi Windows dalam terjemahan percakapan multi-perangkat.

Contoh

C#: Contoh kode untuk Pengenalan Pembicara.
C++: Contoh kode untuk Pengenalan Pembicara.
Java: Contoh kode untuk pengenalan niat di Android.

Tes ringkas COVID-19

Speech SDK 1.12.0: Rilis Mei 2020

Fitur baru

Go: Dukungan bahasa Go baru untuk Pengenalan Ucapan dan asisten suara kustom. Siapkan lingkungan pengembang Anda d sini. Untuk contoh kode, lihat bagian Sampel di bawah ini.
JavaScript: Menambahkan dukungan peramban untuk teks ke ucapan. Lihat dokumentasi di sini.
C++, C#, Java: Objek KeywordRecognizer baru dan API yang didukung di platform Windows, Android, Linux & iOS. Baca dokumentasi di sini. Untuk contoh kode, lihat bagian Sampel di bawah ini.
Java: Menambahkan percakapan multi-perangkat dengan dukungan terjemahan. Lihat dokumen referensi di sini.

Peningkatan & Optimisasi

JavaScript: Mengoptimalkan mikrofon browser yang meningkatkan akurasi pengenalan ucapan.
Java: Merefaktor pengikatan menggunakan implementasi JNI langsung tanpa SWIG. Perubahan ini mengurangi 10x ukuran pengikatan untuk semua paket Java yang digunakan untuk Windows, Android, Linux, dan Mac serta memudahkan pengembangan lebih lanjut dari implementasi Speech SDK Java.
Linux: Kami telah memperbarui dokumentasi dukungan dengan catatan terbaru yang spesifik untuk RHEL 7.
Meningkatkan logika koneksi untuk mencoba menyambungkan beberapa kali jika terjadi kesalahan layanan dan jaringan.
Memperbarui halaman portal.azure.com Speech Quickstart untuk membantu pengembang mengambil langkah berikutnya dalam perjalanan Azure AI Speech.

Perbaikan bug

C#, Java: Memperbaiki masalah dengan memuat pustaka SDK di Linux ARM (baik 32 bit maupun 64 bit).
C#: Memperbaiki penghapusan eksplisit handle asli untuk objek TranslationRecognizer, IntentRecognizer, dan Connection.
C# : Memperbaiki manajemen masa pakai input audio untuk objek ConversationTranscriber.
Memperbaiki masalah di mana IntentRecognizer penyebab hasil tidak diatur dengan benar saat mengenali tujuan dari frasa sederhana.
Memperbaiki masalah di mana hasil offset SpeechRecognitionEventArgs tidak diatur dengan benar.
Memperbaiki kondisi persaingan akses ketika SDK mencoba mengirim pesan jaringan sebelum membuka sambungan websocket. Dapat direproduksi untuk TranslationRecognizer sambil menambahkan peserta.
Memperbaiki kebocoran memori di mesin pengenal kata kunci.

Contoh

Go: Menambahkan panduan cepat untuk pengenalan ucapan dan asisten suara khusus. Temukan contoh kode di sini.
JavaScript: Menambahkan panduan cepat untuk Teks ke Ucapan, Terjemahan, dan Pengenalan Maksud.
Sampel pengenalan kata kunci untuk C# dan Java (Android).

Tes ringkas COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kita melewatkan sesuatu, beri tahu kami di GitHub.
Tetap sehat!

Speech SDK 1.11.0: Rilis Maret 2020

Fitur baru

Linux: Menambahkan dukungan untuk Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
Linux: Menambahkan dukungan untuk .NET Core C# di Linux ARM32 dan Arm64. Baca selengkapnya di sini.
C#, C++: Menambahkan UtteranceId di ConversationTranscriptionResult, ID yang konsisten di semua tahap perantara dan hasil akhir pengenalan ucapan. Detail untuk C#, C++.
Python: Menambahkan dukungan untuk Language ID. Lihat speech_sample.py di repositori GitHub.
Windows: Menambahkan dukungan format input audio terkompresi pada platform Windows untuk semua aplikasi konsol win32. Lihat detailnya di sini.
JavaScript: Mendukung sintesis ucapan (teks ke ucapan) di NodeJS. Pelajari lebih lanjut di sini.
JavaScript: Menambahkan API baru untuk mengaktifkan pemeriksaan semua pesan yang dikirim dan diterima. Pelajari lebih lanjut di sini.

Perbaikan bug

C#, C++: Memperbaiki masalah sehingga SendMessageAsync sekarang mengirim pesan biner sebagai jenis biner. Detail untuk C#, C++.
C#, C++: Memperbaiki masalah ketika menggunakan peristiwa Connection MessageReceived dapat menyebabkan crash jika Recognizer dihapus sebelum objek Connection. Detail untuk C#, C++.
Android: Ukuran buffer audio dari mikrofon menurun dari 800 md menjadi 100 md untuk meningkatkan latensi.
Android: Memperbaiki masalah emulator Android x86 di Android Studio.
JavaScript: Menambahkan dukungan untuk Wilayah di Tiongkok dengan API fromSubscription. Lihat detailnya di sini.
JavaScript: Tambahkan informasi kesalahan lebih detail untuk kegagalan koneksi dari NodeJS.

Contoh

Unity: Pengenalan maksud sampel publik diperbaiki karena impor LUIS JSON gagal. Lihat detailnya di sini.
Python: Sampel ditambahkan untuk Language ID. Lihat detailnya di sini.

Pengujian covid19 yang dipersingkat: Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi perangkat secara manual sebanyak yang biasanya kami lakukan. Misalnya, kami tidak dapat menguji input mikrofon dan output speaker di Linux, iOS, dan macOS. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun di platform ini, dan tes otomatis kami semuanya lulus. Jika terjadi hal yang tidak terduga kami melewatkan sesuatu, beri tahu kami di GitHub.
Terima kasih atas dukungan tanpa henti Anda. Seperti biasa, posting pertanyaan atau umpan balik tentang GitHub atau Stack Overflow.
Tetap sehat!

Speech SDK 1.10.0: Rilis Februari 2020

Fitur baru

Menambahkan paket Python untuk mendukung rilis Python 3.8 baru.
Dukungan Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Catatan

Pelanggan harus mengonfigurasi OpenSSL sesuai dengan instruksi ini.
Dukungan Linux ARM32 untuk Debian dan Ubuntu.
DialogServiceConnector sekarang mendukung parameter "bot ID" opsional di BotFrameworkConfig. Parameter ini memungkinkan penggunaan beberapa bot Direct Line Speech dengan satu sumber daya Ucapan. Tanpa parameter yang ditentukan, bot default (sebagaimana ditentukan oleh halaman konfigurasi saluran Direct Line Speech) akan digunakan.
DialogServiceConnector sekarang memiliki properti SpeechActivityTemplate. Konten string JSON ini akan digunakan oleh Direct Line Speech untuk mengisi terlebih dahulu berbagai bidang yang didukung di semua aktivitas yang diterima oleh bot Direct Line Speech, termasuk aktivitas yang dihasilkan secara otomatis sebagai tanggapan terhadap acara seperti pengenalan suara.
TTS sekarang menggunakan kunci langganan untuk autentikasi, mengurangi latensi byte pertama dari hasil sintesis pertama setelah membuat synthesizer.
Model pengenalan ucapan yang diperbarui untuk 19 lokal untuk pengurangan tingkat kesalahan kata rata-rata 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Model baru ini menghadirkan peningkatan signifikan di beberapa domain termasuk dikte, Transkripsi Pusat Panggilan, dan skenario Pengindeksan Video.

Perbaikan bug

Memperbaiki bug di mana Conversation Transcriber tidak menunggu dengan benar di API Java.
Tambahkan metode properti yang hilang (Dapatkan|Atur) ke AudioConfig.
Perbaiki bug TTS di mana audioDataStream tidak dapat dihentikan saat koneksi gagal.
Menggunakan titik akhir tanpa daerah akan menyebabkan kegagalan layanan USP pada translator percakapan.
Pembuatan ID di Universal Windows Applications sekarang menggunakan algoritma GUID yang sesuai unik; sebelumnya secara tidak sengaja beralih ke implementasi sebatas yang sering menghasilkan duplikasi pada serangkaian interaksi yang luas.

Contoh

Sampel Unity untuk menggunakan Speech SDK dengan mikrofon Unity dan streaming mode push

Perubahan lain

Dokumentasi konfigurasi OpenSSL diperbarui untuk Linux

Speech SDK 1.9.0: Rilis Januari 2020

Fitur baru

Percakapan multi-perangkat: sambungkan beberapa perangkat ke ucapan atau percakapan berbasis teks yang sama, dan secara opsional menerjemahkan pesan yang dikirim di antara perangkat tersebut. Pelajari selengkapnya di artikel ini.
Dukungan pengenalan kata kunci ditambahkan untuk paket .aar Android dan menambahkan dukungan untuk ragam x86 dan x64.
Objective-C: Metode SendMessage dan SetMessageProperty yang ditambahkan ke objek Connection. Lihat dokumentasi di sini.
Api TTS C++ sekarang mendukung std::wstring sebagai input teks sintesis, menghapus kebutuhan untuk mengonversi wstring ke string sebelum meneruskannya ke SDK. Lihat detailnya di sini.
C#: ID Bahasa dan konfigurasi bahasa sumber sekarang tersedia.
JavaScript: Menambahkan fitur ke objek Connection untuk menyampaikan pesan kustom dari Layanan Ucapan sebagai panggilan balik receivedServiceMessage.
JavaScript: Menambahkan dukungan untuk FromHost API memudahkan penggunaan dengan kontainer lokal dan sovereign cloud. Lihat dokumentasi di sini.
JavaScript: Kami sekarang menghormati NODE_TLS_REJECT_UNAUTHORIZED berkat kontribusi dari orgads. Lihat detailnya di sini.

Perubahan mencolok

OpenSSL telah diperbarui ke versi 1.1.1b dan secara statis ditautkan ke pustaka inti Speech SDK untuk Linux. Hal ini dapat menyebabkan gangguan jika kotak masuk Anda belum diinstal dalam direktori di sistem. Periksa dokumentasi kami di bawah dokumen Speech SDK untuk mengatasi masalah ini.
Kami telah mengubah tipe data yang dikembalikan untuk C# WordLevelTimingResult.Offset dari int menjadi long untuk memungkinkan akses ke WordLevelTimingResults saat data ucapan lebih dari 2 menit.
PushAudioInputStream dan PullAudioInputStream sekarang mengirim informasi header wav ke Layanan Ucapan berdasarkan AudioStreamFormat, secara opsional ditentukan kapan pembuatannya. Pelanggan sekarang harus menggunakan format input audio yang didukung. Format lain akan mendapatkan hasil pengenalan suboptimal atau dapat menyebabkan masalah lain.

Perbaikan bug

Lihat pembaruan OpenSSL di bagian Perubahan besar di atas. Kami memperbaiki crash yang terjadi secara sporadis dan masalah performa (persaingan kunci di bawah beban tinggi) pada Linux dan Java.
Java: Melakukan perbaikan pada penutupan objek dalam skenario konkurensi tinggi.
Merestrukturisasi paket NuGet kami. Kami menghapus tiga salinan Microsoft.CognitiveServices.Speech.core.dll dan Microsoft.CognitiveServices.Speech.extension.kws.dll di bawah folder lib, membuat paket NuGet lebih kecil dan lebih cepat diunduh, dan kami menambahkan header yang diperlukan untuk mengompilasi beberapa aplikasi asli C++.
Memperbaiki contoh memulai cepat di sini. Program-program ini berhenti tanpa menampilkan pengecualian "mikrofon tidak ditemukan" di Linux, macOS, dan Windows.
Mengatasi crash pada SDK akibat hasil pengenalan ucapan yang panjang pada jalur kode tertentu seperti sampel ini.
Memperbaiki kesalahan penyebaran SDK di lingkungan Azure Web App untuk mengatasi masalah pelanggan ini.
Memperbaiki kesalahan TTS saat menggunakan multi <voice> tag atau <audio> tag untuk mengatasi masalah pelangganini.
Memperbaiki kesalahan TTS 401 saat SDK dipulihkan setelah keluar dari mode ditangguhkan.
JavaScript: Memperbaiki impor data audio sirkuler berkat kontribusi dari euirim.
JavaScript: menambahkan dukungan untuk mengatur properti layanan, seperti yang ditambahkan dalam 1.7.
JavaScript: memperbaiki masalah ketika kesalahan koneksi dapat mengakibatkan percobaan koneksi ulang websocket yang terus-menerus dan tidak berhasil.

Contoh

Menambahkan sampel pengenalan kata kunci untuk Android di sini.
Menambahkan sampel TTS untuk skenario server di sini.
Menambahkan panduan memulai cepat percakapan multi-perangkat untuk C# dan C++ di sini.

Perubahan lain

Ukuran pustaka inti SDK yang dioptimalkan di Android.
SDK versi 1.9.0 dan seterusnya mendukung jenis int dan string dalam kolom versi tanda tangan suara untuk Conversation Transcriber.

Speech SDK 1.8.0: Rilis November 2019

Fitur baru

FromHost() Menambahkan API, untuk memudahkan penggunaan dengan kontainer lokal dan sovereign cloud.
Menambahkan Identifikasi Bahasa Sumber untuk Pengenalan Ucapan (dalam Java dan C++)
Menambahkan objek SourceLanguageConfig untuk Pengenalan Suara, digunakan untuk menentukan bahasa sumber yang diharapkan (dalam Java dan C++)
Menambahkan dukungan KeywordRecognizer pada Windows (UWP), Android, dan iOS melalui paket NuGet dan Unity
Menambahkan Remote Conversation Java API untuk melakukan Transkripsi Percakapan dalam batch asinkron.

Perubahan mencolok

Fungsi Conversation Transcriber dipindahkan di bawah namespace Microsoft.CognitiveServices.Speech.Transcription.
Bagian dari metode Conversation Transcriber dipindahkan ke kelas Conversation baru.
Menghapus dukungan untuk iOS 32-bit (ARMv7 dan x86)

Perbaikan bug

Memperbaiki kegagalan jika KeywordRecognizer lokal digunakan tanpa kunci langganan layanan Pengenalan Ucapan yang valid

Contoh

Sampel Xamarin untuk KeywordRecognizer
Sampel Unity untuk KeywordRecognizer
Sampel C++ dan Java untuk Identifikasi Bahasa Sumber Otomatis.

Speech SDK 1.7.0: Rilis September 2019

Fitur baru

Menambahkan dukungan beta untuk Xamarin di Universal Windows Platform (UWP), Android, dan iOS
Menambahkan dukungan iOS untuk Unity
Menambahkan Compressed dukungan input terhadap ALaw, Mulaw, dan FLAC di Android, iOS, dan Linux
Ditambahkan SendMessageAsync di kelas Connection untuk mengirim pesan ke layanan
Ditambahkan SetMessageProperty di kelas Connection untuk mengatur properti pesan
TTS menambahkan pengikatan untuk Java (JRE dan Android), Python, Swift, dan Objective-C
TTS menambahkan dukungan pemutaran untuk macOS, iOS, dan Android.
Menambahkan informasi mengenai "batas kata" untuk TTS.

Perbaikan bug

Memperbaiki masalah build IL2CPP di Unity 2019 untuk Android
Memperbaiki masalah header yang salah bentuk dalam input file wav yang diproses dengan tidak benar
Memperbaiki masalah UUID yang tidak unik di beberapa properti sambungan
Memperbaiki beberapa peringatan tentang penentu nullabilitas dalam pengikatan Swift (mungkin memerlukan perubahan kode kecil)
Memperbaiki bug yang menyebabkan koneksi websocket ditutup dengan tidak semestinya saat beban jaringan tinggi.
Memperbaiki masalah di Android yang terkadang menyebabkan terjadinya ID tayangan duplikat yang digunakan oleh DialogServiceConnector
Peningkatan stabilitas koneksi pada interaksi multi-turn dan pelaporan kegagalan (melalui kejadian Canceled) ketika terjadi pada DialogServiceConnector
Sesi DialogServiceConnector yang dimulai sekarang akan menyediakan kejadian dengan benar, termasuk saat memanggil ListenOnceAsync() selama StartKeywordRecognitionAsync() aktif.
Mengatasi crash yang terkait saat menerima aktivitas DialogServiceConnector

Contoh

Panduan Cepat untuk Xamarin
Panduan Cepat C++ yang Diperbarui dengan Informasi Linux Arm64
Memperbarui panduan cepat Unity dengan informasi iOS

Speech SDK 1.6.0: Rilis Juni 2019

Contoh

Contoh mulai cepat untuk Teks ke Ucapan di UWP dan Unity
Contoh Mulai Cepat untuk Swift di iOS
Sampel Unity untuk Pengenalan Ucapan dan Niat serta Terjemahannya
Memperbarui contoh mulai cepat untuk DialogServiceConnector

Peningkatan/Perubahan

Dialog namespace
- SpeechBotConnector telah diubah namanya menjadi DialogServiceConnector
- BotConfig telah diubah namanya menjadi DialogServiceConfig
- BotConfig::FromChannelSecret() telah dipetakan ulang ke DialogServiceConfig::FromBotSecret()
- Semua klien Direct Line Speech yang ada terus didukung setelah perubahan nama
Memperbarui adaptor TTS REST untuk mendukung proksi, koneksi persisten
Meningkatkan pesan kesalahan saat wilayah yang tidak valid dilewati
Swift/Objective-C:
- Meningkatkan pelaporan kesalahan: Metode yang dapat mengakibatkan kesalahan sekarang ada dalam dua versi: Satu metode yang mengekspos objek NSError untuk penanganan kesalahan, dan metode yang menimbulkan pengecualian. Yang sebelumnya terekspos ke Swift. Perubahan ini memerlukan adaptasi ke kode Swift yang ada.
- Meningkatkan penanganan peristiwa

Perbaikan bug

Perbaikan untuk TTS: SpeakTextAsync di mana proses masa depan dikembalikan tanpa menunggu hingga audio selesai diproses
Perbaikan untuk marshaling string di C# guna mengaktifkan dukungan bahasa sepenuhnya
Perbaikan untuk masalah aplikasi .NET core dalam memuat pustaka inti dengan kerangka target net461 pada contoh-contoh.
Perbaikan untuk masalah yang terjadi sesekali memasang pustaka bawaan ke folder keluaran dalam contoh.
Perbaikan untuk penutupan soket web secara andal
Perbaikan untuk kemungkinan crash saat membuka koneksi di bawah beban berat di Linux
Perbaikan untuk metadata yang hilang dalam bundel kerangka kerja untuk macOS
Perbaikan untuk masalah dengan pip install --user di Windows

Speech SDK 1.5.1

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Perbaikan bug

Perbaiki FromSubscription saat digunakan dengan Transkripsi Percakapan.
Memperbaiki bug dalam pencarian kata kunci untuk Asisten Voice.

Speech SDK 1.5.0: Rilis Mei 2019

Fitur baru

Pencarian kata kunci (KWS) sekarang tersedia untuk Windows dan Linux. Fungsionalitas KWS mungkin berfungsi dengan jenis mikrofon apa pun, dukungan resmi KWS, namun, saat ini terbatas pada array mikrofon yang ditemukan di perangkat keras Azure Kinect DK atau Speech Devices SDK.
Fitur petunjuk frasa tersedia melalui SDK. Untuk informasi selengkapnya, lihat di sini.
Fungsionalitas transkripsi percakapan tersedia melalui SDK.
Tambahkan dukungan untuk Asisten Voice menggunakan saluran Direct Line Speech.

Contoh

Menambahkan sampel untuk fitur baru atau layanan baru yang didukung oleh SDK.

Peningkatan/Perubahan

Menambahkan berbagai properti pengenal untuk menyesuaikan perilaku layanan atau hasil layanan (seperti menyembunyikan kata kasar dan lainnya).
Anda sekarang dapat mengonfigurasi recognizer melalui properti konfigurasi standar, bahkan jika Anda membuat recognizer FromEndpoint.
Objective-C: Properti OutputFormat ditambahkan ke SPXSpeechConfiguration.
SDK sekarang mendukung Debian 9 sebagai distribusi Linux.

Perbaikan bug

Memperbaiki masalah di mana sumber daya pembicara suara dihapus terlalu dini dalam konversi teks ke suara.

Speech SDK 1.4.2

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Speech SDK 1.4.1

Ini adalah rilis khusus JavaScript. Tidak ada fitur yang ditambahkan. Perbaikan berikut dibuat:

Mencegah paket web memuat https-proxy-agent.

Speech SDK 1.4.0: Rilis April 2019

Fitur baru

SDK sekarang mendukung layanan Teks ke ucapan sebagai versi beta. Ini didukung pada Windows dan Linux Desktop dari C++ dan C#. Untuk informasi selengkapnya, periksa Ikhtisar Teks ke Ucapan.
SDK sekarang mendukung file audio MP3 dan Opus/OGG sebagai file input aliran. Fitur ini hanya tersedia di Linux dari C++ dan C# serta saat ini dalam versi beta (detail selengkapnya di sini).
Speech SDK untuk Java, .NET core, C++, dan Objective-C sudah mendapatkan dukungan macOS. Dukungan Objective-C untuk macOS saat ini dalam versi beta.
iOS: SDK Pidato untuk iOS (Objective-C) sekarang juga diterbitkan sebagai CocoaPod.
JavaScript: Dukungan untuk mikrofon non-default sebagai perangkat input.
JavaScript: Dukungan proksi untuk Node.js.

Contoh

Sampel untuk menggunakan Speech SDK dengan C++ dan dengan Objective-C di macOS telah ditambahkan.
Sampel yang menunjukkan penggunaan layanan Teks ke ucapan telah ditambahkan.

Peningkatan/Perubahan

Python: Properti tambahan hasil pengenalan sekarang diekspos melalui properti properties.
Untuk pengembangan tambahan dan dukungan debug, Anda dapat mengalihkan informasi pengelogan dan diagnostik SDK ke dalam file log (detail selengkapnya di sini).
JavaScript: Meningkatkan performa pemrosesan audio.

Perbaikan bug

Mac/iOS: Bug yang menyebabkan waktu tunggu lama ketika koneksi ke layanan Ucapan tidak dapat dibuat telah diperbaiki.
Python: meningkatkan penanganan kesalahan untuk argumen di panggilan balik Python.
JavaScript: Memperbaiki kesalahan pelaporan status untuk pembicaraan yang berakhir pada RequestSession.

Speech SDK 1.3.1: Diperbarui Februari 2019

Ini adalah rilis perbaikan bug dan hanya berdampak pada SDK asli/dikelola. Ini tidak memengaruhi SDK versi JavaScript.

Perbaikan bug

Memperbaiki kebocoran memori saat menggunakan input mikrofon. Input berbasis stream atau file tidak terpengaruh.

Speech SDK 1.3.0: Rilis Februari 2019

Fitur baru

Speech SDK mendukung pemilihan mikrofon input melalui kelas AudioConfig. Ini memungkinkan Anda melakukan streaming data audio ke layanan Ucapan dari mikrofon non-default. Untuk informasi selengkapnya, lihat dokumentasi yang menjelaskan pemilihan perangkat input audio. Fitur ini belum tersedia dari JavaScript.
Speech SDK sekarang mendukung Unity dalam versi beta. Berikan umpan balik melalui bagian masalah di repositori sampel GitHub. Rilis ini mendukung Unity pada Windows x86 dan x64 (aplikasi desktop atau Universal Windows Platform), dan Android (ARM32/64, x86). Informasi lebih lanjut tersedia di Panduan Kilat Unity kami.
File Microsoft.CognitiveServices.Speech.csharp.bindings.dll (dikirim dalam rilis sebelumnya) tidak diperlukan lagi. Fungsionalitasnya sekarang terintegrasi dalam SDK inti.

Contoh

Konten baru berikut tersedia di repositori sampel kami:

Sampel tambahan untuk AudioConfig.FromMicrophoneInput.
Sampel Python tambahan untuk pengenalan dan terjemahan niat.
Sampel tambahan untuk menggunakan objek Connection di iOS.
Sampel Java tambahan untuk terjemahan dengan output audio.
Sampel baru untuk penggunaan Batch Transcription REST API.

Peningkatan/Perubahan

Piton
- Meningkatkan verifikasi parameter dan pesan kesalahan dalam SpeechConfig.
- Menambahkan dukungan untuk objek Connection.
- Dukungan untuk Python 32-bit (x86) di Windows.
- SDK Pidato untuk Python telah keluar dari tahap beta.
Ios
- SDK tersebut sekarang dibangun pada iOS SDK versi 12.1.
- SDK sekarang mendukung iOS versi 9.2 dan yang lebih baru.
- Meningkatkan dokumentasi referensi dan memperbaiki beberapa nama properti.
JavaScript
- Menambahkan dukungan untuk objek Connection.
- Menambahkan file definisi jenis untuk JavaScript yang dibundel
- Dukungan awal dan implementasi untuk petunjuk istilah.
- Mengembalikan koleksi properti dengan layanan JSON untuk pengenalan
DLL pada Windows sekarang berisi sumber daya versi.
Jika Anda membuat recognizer FromEndpoint, Anda dapat menambahkan parameter langsung ke titik akhir URL. Dengan menggunakan FromEndpoint, Anda tidak dapat mengonfigurasi recognizer melalui properti konfigurasi standar.

Perbaikan bug

Nama pengguna proksi kosong dan kata sandi proksi tidak ditangani dengan benar. Dengan rilis ini, jika Anda mengatur nama pengguna proksi dan kata sandi proksi ke string kosong, mereka tidak akan dikirimkan saat menyambungkan ke proksi.
SessionId yang dibuat oleh SDK tidak selalu benar-benar acak untuk beberapa bahasa/lingkungan. Menambahkan inisialisasi generator acak untuk memperbaiki masalah ini.
Meningkatkan penanganan token otorisasi. Jika Anda ingin menggunakan token otorisasi, tentukan di SpeechConfig dan biarkan kunci API kosong. Kemudian buat recognizer seperti biasa.
Dalam beberapa kasus, objek Connection tidak dirilis dengan benar. Masalah ini telah diperbaiki.
Sampel JavaScript juga diperbaiki untuk mendukung output audio untuk sintesis terjemahan di Safari.

Speech SDK 1.2.1

Ini adalah rilis khusus JavaScript. Tidak ada fitur yang ditambahkan. Perbaikan berikut dibuat:

Mengaktifkan akhir aliran di turn.end, bukan di speech.end.
Memperbaiki bug di pompa audio yang tidak menjadwalkan pengiriman berikutnya jika pengiriman saat ini gagal.
Memperbaiki pengenalan berkelanjutan dengan token auth.
Perbaikan bug untuk pengenal dan titik akhir yang berbeda.
Peningkatan dokumentasi.

Speech SDK 1.2.0: Rilis Desember 2018

Fitur baru

Piton
- Versi Beta dukungan Python (3.5 ke atas) tersedia pada rilis ini. Untuk informasi selengkapnya, lihat di sini](../../quickstart-python.md).
JavaScript
- Speech SDK untuk JavaScript sudah bersumber terbuka. Kode sumber tersedia di GitHub.
- Kami sekarang mendukung Node.js, info selengkapnya dapat ditemukan di sini.
- Batasan panjang untuk sesi audio telah dihapus, koneksi ulang akan terjadi secara otomatis di bawah penutup.
Connection benda
- Dari Recognizer, Anda dapat mengakses objek Connection. Objek ini memungkinkan Anda secara eksplisit memulai koneksi layanan dan berlangganan ke acara koneksi dan pemutusan. (Fitur ini belum tersedia dari JavaScript dan Python.)
Dukungan untuk Ubuntu 18.04.
Android
- Mengaktifkan dukungan ProGuard selama pembuatan APK.

Perbaikan

Peningkatan penggunaan benang internal, mengurangi jumlah benang, kunci, dan mutex.
Peningkatan pelaporan dan informasi kesalahan. Dalam beberapa kasus, pesan kesalahan tidak sepenuhnya disebarkan.
Memperbarui dependensi pengembangan di JavaScript untuk menggunakan modul terbaru.

Perbaikan bug

Memperbaiki kebocoran memori akibat ketidakcocokan tipe di RecognizeAsync.
Dalam beberapa kasus, pengecualian sedang bocor.
Memperbaiki kebocoran memori dalam argumen peristiwa terjemahan.
Memperbaiki masalah penguncian saat menyambung kembali dalam sesi yang berjalan lama.
Memperbaiki masalah yang dapat menyebabkan hasil akhir hilang untuk terjemahan yang gagal.
C#: Jika operasi async tidak ditunggu di thread utama, ada kemungkinan recognizer bisa saja dihapus sebelum tugas asinkron selesai.
Java: Memperbaiki masalah yang mengakibatkan crash Java VM.
Objective-C: Pemetaan enum tetap; RecognizedIntent dikembalikan bukan RecognizingIntent.
JavaScript: Atur format output default ke 'simple' di SpeechConfig.
JavaScript: Menghapus ketidakkonsistenan antara properti pada objek konfigurasi dalam JavaScript dan bahasa lainnya.

Contoh

Memperbarui dan memperbaiki beberapa sampel (misalnya suara output untuk terjemahan, dll.).
Menambahkan sampel Node.js dalam repositori sampel.

Speech SDK 1.1.0

Fitur baru

Dukungan untuk Android x86/x64.
Dukungan Proksi: Dalam objek SpeechConfig, Anda sekarang dapat menjalankan fungsi untuk mengatur informasi proksi (hostname, port, nama pengguna, dan kata sandi). Fitur ini belum tersedia di iOS.
Kode kesalahan dan pesan yang disempurnakan. Jika pengenalan mengembalikan kesalahan, ini sudah menetapkan Reason (dalam peristiwa yang dibatalkan) atau CancellationDetails (dalam hasil pengenalan) ke Error. Acara yang dibatalkan sekarang berisi dua anggota tambahan, ErrorCode dan ErrorDetails. Jika server mengembalikan informasi kesalahan tambahan dengan kesalahan yang dilaporkan, sekarang informasi tersebut akan tersedia dalam anggota baru.

Perbaikan

Menambahkan verifikasi tambahan dalam konfigurasi recognizer, dan menambahkan pesan kesalahan tambahan.
Peningkatan penanganan keheningan lama di tengah file audio.
Paket NuGet: untuk proyek .NET Framework, mencegah pembangunan dengan konfigurasi AnyCPU.

Perbaikan bug

Memperbaiki beberapa pengecualian yang ditemukan dalam recognizer. Selain itu, pengecualian ditangkap dan dikonversi menjadi Canceled event.
Memperbaiki kebocoran memori dalam manajemen properti.
Memperbaiki bug yang dapat menyebabkan kerusakan pada recognizer oleh file input audio.
Memperbaiki bug sehingga kejadian dapat diterima setelah kejadian penghentian sesi.
Memperbaiki beberapa kondisi persaingan dalam threading.
Memperbaiki masalah kompatibilitas iOS yang dapat mengakibatkan crash.
Peningkatan stabilitas untuk dukungan mikrofon Android.
Memperbaiki bug ketika recognizer di JavaScript akan mengabaikan bahasa pengenalan.
Memperbaiki bug yang mencegah pengaturan EndpointId (dalam beberapa kasus) di JavaScript.
Mengubah urutan parameter di AddIntent di JavaScript, dan menambahkan tanda tangan JavaScript AddIntent yang hilang.

Contoh

Menambahkan sampel C++ dan C# untuk penggunaan aliran pull dan push dalam repositori sampel.

Speech SDK 1.0.1

Peningkatan keandalan dan perbaikan bug:

Memperbaiki potensi kesalahan fatal akibat kondisi perlombaan saat membuang pengenal
Memperbaiki potensi kesalahan fatal ketika terdapat properti yang tidak diatur.
Menambahkan pemeriksaan kesalahan dan parameter yang lebih menyeluruh.
Objective-C: Memperbaiki kemungkinan terjadinya kesalahan fatal yang disebabkan oleh penimpaan nama di NSString.
Objective-C: Visibilitas API yang disesuaikan
JavaScript: Perbaikan terkait event dan pada payload-nya.
Peningkatan dokumentasi.

Dalam repositori sampel kami, sampel baru untuk JavaScript ditambahkan.

Azure AI Speech SDK 1.0.0: Rilis September 2018

Fitur baru

Dukungan untuk Objective-C di iOS. Lihat panduan cepat Objective-C untuk iOS kami.
Dukungan untuk JavaScript di browser. Silakan lihat panduan cepat JavaScript kami.

Perubahan mencolok

Dengan rilis ini, sejumlah perubahan besar diperkenalkan. Periksa halaman ini untuk detailnya.

Azure AI Speech SDK 0.6.0: Rilis Agustus 2018

Fitur baru

Aplikasi UWP yang dibangun dengan Speech SDK sekarang dapat lulus Windows App Certification Kit (WACK). Periksa Quickstart UWP.
Dukungan untuk .NET Standard 2.0 di Linux (Ubuntu 16.04 x64).
Eksperimental: Mendukung Java 8 di Windows (64-bit) dan Linux (Ubuntu 16.04 x64). Lihat Panduan Memulai Cepat Java Runtime Environment.

Perubahan fungsional

Memberikan informasi lebih lanjut tentang detail kesalahan pada kesalahan koneksi.

Perubahan mencolok

Pada Java (Android), fungsi SpeechFactory.configureNativePlatformBindingWithDefaultCertificate ini tidak lagi memerlukan parameter jalur. Sekarang jalur secara otomatis terdeteksi pada semua platform yang didukung.
Pengakses 'get' properti EndpointUrl dalam Java dan C# telah dihapus.

Perbaikan bug

Di Java, hasil sintesis audio pada recognizer terjemahan diimplementasikan sekarang.
Memperbaiki bug yang dapat menyebabkan alur tidak aktif dan peningkatan jumlah soket terbuka dan tidak digunakan.
Memperbaiki masalah, di mana proses pengenalan yang berlangsung lama dapat mengalami penghentian di tengah proses transmisi.
Memperbaiki kondisi balapan dalam penonaktifan pengenal.

Azure AI Speech SDK 0.5.0: Rilis Juli 2018

Fitur baru

Mendukung platform Android (API 23: Android 6.0 Marshmallow atau yang lebih tinggi). Lihat panduan cepat Android.
Mendukung .NET Standard 2.0 pada Windows. Lihat panduan memulai cepat .NET Core.
Eksperimental: Mendukung UWP di Windows (versi 1709 atau yang lebih baru).
- Periksa Quickstart UWP.
- Perhatikan bahwa aplikasi UWP yang dibangun dengan Speech SDK belum lulus Windows App Certification Kit (WACK).
Mendukung pengenalan jangka panjang dengan koneksi ulang otomatis.

Perubahan Fungsional

StartContinuousRecognitionAsync() mendukung pengenalan jangka panjang.
Hasil pengenalan berisi lebih banyak bidang. Offset tersebut merujuk pada awal audio dan durasi (keduanya dalam tick) dari teks yang dikenali dan nilai tambahan yang mewakili status pengenalan, misalnya, InitialSilenceTimeout dan InitialBabbleTimeout.
Mendukung AuthorizationToken untuk membuat instance pabrik.

Perubahan mencolok

Peristiwa pengenalan: Jenis peristiwa NoMatch digabungkan ke dalam peristiwa Error.
SpeechOutputFormat di C# diubah namanya ke OutputFormat agar tetap selaras dengan C++.
Jenis pengembalian beberapa metode AudioInputStream antarmuka sedikit berubah:
- Di Java, metode read sekarang mengembalikan long bukan int.
- Di C#, metode Read sekarang mengembalikan uint bukan int.
- Di C++, metode Read dan GetFormat sekarang mengembalikan size_t bukan int.
C++: Instans aliran input audio sekarang hanya dapat diteruskan sebagai shared_ptr.

Perbaikan bug

Memperbaiki nilai pengembalian yang salah dalam hasil ketika RecognizeAsync() mengalami batas waktu habis.
Dependensi pada pustaka pondasi media pada Windows telah dihapus. SDK sekarang menggunakan API Core Audio.
Perbaikan dokumentasi: Menambahkan halaman wilayah untuk menjelaskan wilayah yang didukung.

Masalah yang diketahui

Speech SDK untuk Android tidak melaporkan hasil sintesis ucapan untuk penerjemahan. Masalah ini akan diperbaiki di rilis mendatang.

Azure AI Speech SDK 0.4.0: Rilis Juni 2018

Perubahan Fungsional

Aliran Masukan Audio

Sekarang, pengenal dapat menggunakan aliran sebagai sumber audio. Untuk informasi selengkapnya, lihat panduan cara.
Format keluaran terperinci

Saat membuat SpeechRecognizer, Anda dapat meminta format output Detailed atau Simple. DetailedSpeechRecognitionResult berisi skor keyakinan, teks yang dikenali, bentuk leksikal mentah, bentuk normalisasi, dan bentuk normalisasi dengan kata-kata kotor yang disamarkan.

Perubahan yang tidak kompatibel mundur

Diubah ke SpeechRecognitionResult.Textdari SpeechRecognitionResult.RecognizedText di C#.

Perbaikan bug

Memperbaiki kemungkinan masalah panggil balik di lapisan USP selama penonaktifan.
Jika pengenal mengkonsumsi file input audio, ini menahan handel file lebih lama daripada yang dibutuhkan.
Menghapus beberapa kebuntuan antara pemroses pesan dan pengenal.
Aktifkan hasil NoMatch ketika respons dari layanan kehabisan waktu.
Pustaka media foundation pada Windows dimuat secara tertunda. Pustaka ini diperlukan hanya untuk masukan mikrofon.
Kecepatan pengunggahan untuk data audio dibatasi sekitar dua kali kecepatan audio asli.
Pada Windows, rakitan C# .NET sekarang diberi nama yang kuat.
Perbaikan dokumentasi: Region adalah informasi yang diperlukan untuk membuat alat pengenal.

Lebih banyak sampel sudah ditambahkan dan terus diperbarui. Untuk sampel terbaru, lihat repositori sampel Speech SDK di GitHub.

Azure AI Speech SDK 0.2.12733: Rilis Mei 2018

Rilis ini adalah rilis pratinjau publik pertama dari Azure AI Speech SDK.

Speech CLI 1.43: Rilis Maret 2025

Fitur baru

Memperbarui SPX untuk menggunakan .NET 8.

Perbaikan bug

Memperbaiki kontainer SPX Docker yang tidak berfungsi dalam skenario batch on-prem.

Speech CLI 1.40.0: Rilis Agustus 2024

Diperbarui untuk menggunakan Speech SDK 1.40.0

Fitur baru

tidak ada

Perbaikan bug

tidak ada

Speech CLI 1.38.0: Rilis Juni 2024

Diperbarui untuk menggunakan Speech SDK 1.38.0

Fitur baru

tidak ada

Perbaikan bug

tidak ada

Versi Speech CLI 1.37.0: Peluncuran April 2024

Diperbarui untuk menggunakan Speech SDK 1.37.0

Fitur baru

tidak ada

Perbaikan bug

tidak ada

Speech CLI 1.36.0: Rilis Maret 2024

Diperbarui untuk menggunakan Speech SDK 1.36.0

Fitur baru

tidak ada

Perbaikan bug

tidak ada

Speech CLI 1.35.0: Rilis Februari 2024

Diperbarui untuk menggunakan Speech SDK 1.35.0

Fitur baru

tidak ada

Perbaikan bug

Memperbarui dependensi JMESPath ke terbaru

Rilis November 2023 untuk Speech CLI 1.34.0

Diperbarui untuk menggunakan Speech SDK 1.34.0

Speech CLI 1.33.0: Rilis Oktober 2023

Diperbarui untuk menggunakan Speech SDK 1.33.0

Speech CLI 1.31.0: Rilis Agustus 2023

Diperbarui untuk menggunakan Speech SDK 1.31.0

Speech CLI 1.30.0: Rilis Juli 2023

Diperbarui untuk menggunakan Speech SDK 1.30.0

Speech CLI 1.29.0: Rilis Juni 2023

Diperbarui untuk menggunakan Speech SDK 1.29.0

Speech CLI 1.28.0: Rilis Mei 2023

Diperbarui untuk menggunakan Speech SDK 1.28.0

Speech CLI 1.27.0: Rilis April 2023

Pembaruan

Diperbarui untuk menggunakan Speech SDK 1.27.0
Perbarui titik akhir default untuk menggunakan REST API v3.1 untuk Pengenalan ucapan kustom dan Pengenalan Ucapan Batch.

Perbaikan bug

Perbaikan yang terkait dengan cara parameter kueri diurai/dikonfigurasi.

Speech CLI 1.26.0: Rilis Maret 2023

Diperbarui untuk menggunakan Speech SDK 1.26.0.

Speech CLI 1.25.0: Rilis Januari 2023

Diperbarui untuk menggunakan Speech SDK 1.25.0.

Speech CLI 1.24.0: Rilis Oktober 2022

Menggunakan Speech SDK 1.24.0.

Fitur baru

Diperluas "pemeriksaan spx" untuk mendukung kueri JMESPath terhadap semua kejadian spx

Perbaikan bug

Berbagai peningkatan kemampuan dalam menangani evaluasi kueri JMESPath
Perbaikan untuk pemangkasan dalam penulisan file yang mungkin terjadi pada komputer dengan sumber daya terbatas

Speech CLI 1.23.0: Rilis Juni 2022

Menggunakan Speech SDK 1.23.0.

Fitur baru

Keterangan yang lebih baik (--output vtt dan --output srt) pemisahan hasil yang besar (maks. 37 karakter, 3 baris)
Opsi terdokumen spx synthesize--format (lihat spx help synthesize format)
Sebagian besar perintah/opsi spx csr telah didokumentasikan (lihat spx help csr)
Menambahkan perintah spx csr model copy (lihat spx help csr model copy)
Menambahkan opsi --check result menggunakan kueri JMES (lihat spx help check result)
Pesan kesalahan yang ditingkatkan saat menentukan opsi perintah yang tidak valid
Pindah dari .NET Core 3.1 ke .NET 6.0. Untuk menjalankan Speech CLI, Anda perlu menginstal Runtime .NET 6.0 (atau lebih tinggi).

Perbaikan bug

Memperbarui semua URL untuk menghapus bahasa (misalnya, "en-US")
Memperbaiki informasi versi agar selalu ditampilkan dengan benar dalam semua kasus (sebelumnya terkadang muncul kosong)

Speech CLI 1.22.0: Rilis Juni 2022

Menggunakan Speech SDK 1.22.0.

Fitur baru

Menambahkan perintah spx init untuk memandu pengguna melalui pembuatan kunci sumber daya Ucapan tanpa masuk ke Portal Web Azure.
Kontainer Docker untuk pengenalan suara sekarang sudah menyertakan Azure CLI, sehingga perintah spx init dapat langsung berfungsi tanpa konfigurasi tambahan.
Menambahkan tanda waktu sebagai opsi output peristiwa, untuk membuat SPX lebih berguna saat menghitung latensi.

Speech CLI 1.21.0: Rilis April 2022

Menggunakan Speech SDK 1.21.0.

Fitur baru

Pembuatan Keterangan WEBVTT
- Menambahkan dukungan --output vtt ke spx translate
- Mendukung --output vtt file FILENAME untuk menggantikan VTT FILENAME default
- Mendukung --output vtt file - untuk menuliskan pada output standar
- File VTT individual dibuat untuk setiap bahasa target (misalnya --target en;de;fr)
Pembuatan Teks SRT
- Menambahkan dukungan --output srt ke spx recognize, spx intent, dan spx translate
- Mendukung --output srt file FILENAME untuk mengganti SRT FILENAME default
- Mendukung --output srt file - untuk menuliskan pada output standar
- Untuk spx translate, file SRT individual dibuat untuk setiap bahasa target (misalnya --target en;de;fr)

Perbaikan bug

Mengoreksi output rentang waktu WEBVTT untuk menggunakan format hh:mm:ss.fff dengan benar

Speech CLI 1.20.0: Rilis Januari 2022

Fitur baru

Pengenalan pembicara
- spx profile enroll dan spx speaker [identify/verify] sekarang mendukung input mikrofon
Pengenalan niat (spx intent)
- --keyword FILE.table
- --pattern dan --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (terus menerus sekarang default)
- --output all/each connection EVENT
- --output all/each connection message (misalnya, text, path)
Pemeriksaan/pembuatan harapan output konsol CLI:
- dukungan --expect PATTERN dan --not expect PATTERN pada semua perintah
- --auto expect untuk membantu penulisan pola yang diharapkan
Pemeriksaan dan penyusunan harapan keluaran pencatatan SDK
- dukungan --log expect PATTERN dan --not log expect PATTERN pada semua perintah
- --log auto expect [FILTER] mendukung semua perintah
- Dukungan --log FILE pada spx profile dan spx speaker
File audio input
- --format ANY mendukung semua perintah
- Mendukung --file - (membaca dari input standar, memungkinkan skenario pipa)
Hasil file audio
- --audio output - Menulis ke output standar, memungkinkan skenario pipa
Output file
- --output all/each file - Tulis ke output standar
- --output batch file - Tulis ke output standar
- --output vtt file - Tulis ke output standar
- --output json file - Tulis ke output standar, untuk perintah spx csr dan spx batch
Sifat keluaran
- --output […] result XXX property (PropertyId atau String)
- --output […] connection message received XXX property (PropertyId atau String)
- --output […] recognizer XXX property (PropertyId atau String)
Integrasi Azure WebJob
- spx webjob sekarang mengikuti pola sub-komando
- Bantuan WebJob yang telah diperbarui untuk mencerminkan pola sub-perintah (lihat spx help webjob)

Perbaikan bug

Memperbaiki bug saat keduanya --output vtt FILE dan --output batch FILE digunakan pada saat yang sama
spx [...] --zip ZIPFILENAME sekarang mencakup semua file biner yang dibutuhkan untuk skenario apa pun (jika ada)
Perintah spx profile dan spx speaker sekarang mengembalikan informasi kesalahan secara terperinci terkait pembatalan

Rilis Mei 2021

Fitur baru

Menambahkan dukungan untuk Profil, Pembicara, dan verifikasi ID Pembicara - Coba spx profile dan spx speaker dari baris perintah.
Kami juga menambahkan dukungan Dialog - Coba spx dialog dari baris perintah.
Bantuan spx ditingkatkan. Beri kami umpan balik tentang bagaimana ini bekerja untuk Anda dengan membuka tiket GitHub.
Kami mengurangi ukuran penginstalan alat .NET.

Tes ringkas COVID-19

Karena pandemi yang sedang berlangsung terus mengharuskan insinyur kami untuk bekerja dari rumah, penggunaan skrip verifikasi manual yang digunakan sebelum pandemi dikurangi dan diuji pada lebih sedikit perangkat dengan konfigurasi yang lebih sedikit, sehingga kemungkinan terjadinya bug yang spesifik pada lingkungan tersebut meningkat. Kami masih memvalidasi secara ketat dengan seperangkat otomatisasi yang besar. Jika kebetulan kami melewatkan sesuatu, beri tahu kami di GitHub.
Tetap sehat!

Rilis Maret 2021

Fitur baru

Menambahkan perintah spx intent untuk pengenalan niat, mengganti spx recognize intent.
Recognize dan intent sekarang dapat menggunakan fungsi Azure untuk menghitung tingkat kesalahan kata menggunakan spx recognize --wer url <URL>.
Recognize sekarang dapat menghasilkan hasil sebagai file VTT menggunakan spx recognize --output vtt file <FILENAME>.
Informasi kunci yang sensitif sekarang dikaburkan pada output debug/verbose.
Menambahkan pemeriksaan URL dan pesan kesalahan untuk bidang konten dalam pembuatan transkripsi batch.

Tes ringkas COVID-19

Rilis Januari-2021

Fitur baru

Speech CLI sekarang tersedia sebagai paket NuGet dan dapat dipasang melalui .NET CLI sebagai alat global .NET yang dapat Anda panggil dari shell/baris perintah.
Repo Templat DevOps untuk ucapan kustom telah diperbarui untuk menggunakan Speech CLI dalam alur kerja ucapan kustom.

Tes ringkas COVID-19

Rilis Oktober-2020

SPX adalah antarmuka baris perintah untuk menggunakan layanan Ucapan tanpa menulis kode. Unduh versi terbaru di sini.

Fitur baru

spx csr dataset upload --kind audio|language|acoustic – membuat himpunan data dari data lokal, bukan hanya dari URL.
spx csr evaluation create|status|list|update|delete – membandingkan model baru dengan baseline truth/model lainnya.
spx * list – mendukung pengalaman tanpa halaman (tanpa memerlukan --top X --skip X).
spx * --http header A=B – mendukung header kustom (ditambahkan untuk Office untuk autentikasi kustom).
spx help – teks yang telah disempurnakan dan warna teks ‘back-tick’ yang telah dikodekan menjadi biru.

Rilis Juni-2020

Menambahkan fitur pencarian bantuan dalam CLI:
- spx help find --text TEXT
- spx help find --topic NAME
Diperbarui untuk bekerja dengan Batch v3.0 yang baru saja diterapkan dan API ucapan yang dapat disesuaikan.
- spx help batch examples
- spx help csr examples

Tes ringkas COVID-19

Karena bekerja dari jarak jauh selama beberapa minggu terakhir, kami tidak dapat melakukan pengujian verifikasi manual sebanyak biasanya. Kami belum membuat perubahan yang kami pikir bisa merusak apa pun, dan tes otomatis kami semuanya lulus. Jika kebetulan kami melewatkan sesuatu, beri tahu kami di GitHub.
Tetap sehat!

Speech CLI (juga dikenal sebagai SPX): Rilis Mei-2020

SPX adalah alat baris perintah baru yang memungkinkan Anda melakukan pengenalan, sintesis, terjemahan, transkripsi batch, dan manajemen ucapan kustom dari baris perintah. Gunakan untuk menguji layanan Ucapan atau untuk membuat skrip tugas layanan Ucapan yang perlu Anda lakukan. Unduh alat dan baca dokumentasinya di sini.

Rilis April 2025

Pratinjau publik suara HD baru

Suara HD berikut sekarang tersedia untuk pratinjau:

Local (BCP-47)	Nama suara
`en-US`	`en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural` (Netral)
`en-US`	`en-US-Bree:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-AshTurboMultilingualNeural` (Laki-laki)

Rilis Maret 2025

Ketersediaan umum beberapa suara berkualitas tinggi

Suara HD berikut sekarang tersedia secara umum:

Local (BCP-47)	Nama suara
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (Laki-laki)
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Emma:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (Laki-laki)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (Laki-laki)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (Perempuan)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (Laki-laki)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (Perempuan)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (Laki-laki)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (Perempuan)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (Perempuan)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (Laki-laki)

Suara banyak pembicara untuk skenario podcast (Pratinjau)

Local (BCP-47)	Nama suara
`en-US`	`en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural` (Netral)

Suara Baru HD (Pratinjau)

Local (BCP-47)	Nama suara
`en-US`	`en-US-Ava3:DragonHDLatestNeural` (Perempuan) - dioptimalkan untuk Podcast
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` (Pria) - dioptimalkan untuk Podcast

Model Dragon HD Flash (Pratinjau)

Local (BCP-47)	Nama suara
`zh-CN`	`zh-CN-Xiaochen:DragonHDFlashLatestNeural` (Perempuan)
`zh-CN`	`zh-CN-Xiaoxiao:DragonHDFlashLatestNeural` (Perempuan)
`zh-CN`	`zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural` (Perempuan, Dioptimalkan untuk percakapan bebas)
`zh-CN`	`zh-CN-Yunxiao:DragonHDFlashLatestNeural` (Laki-laki)
`zh-CN`	`zh-CN-Yunyi:DragonHDFlashLatestNeural` (Laki-laki)

Rilis Februari 2025

Suara HD yang diperbarui (Pratinjau)

13 suara HD saat ini telah diperbarui untuk mendukung suara multibahasa.

Local (BCP-47)	Nama suara
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (Pria) - dioptimalkan untuk berbicara bebas
`en-US`	`en-US-Emma:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (Perempuan) - dioptimalkan untuk berbicara bebas
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Aria:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Jenny:DragonHDLatestNeural` (Perempuan)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (Laki-laki)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (Perempuan)

Suara Baru HD (Pratinjau)

Menambahkan 14 suara HD lainnya

Local (BCP-47)	Nama suara
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Serena:DragonHDLatestNeural` (Perempuan)
`en-US`	`en-US-Alloy:DragonHDLatestNeural` (Laki-laki)
`en-US`	`en-US-Nova:DragonHDLatestNeural` (Perempuan)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (Perempuan)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (Laki-laki)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (Perempuan)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (Laki-laki)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (Perempuan)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (Laki-laki)

Memperkenalkan suara Multibahasa baru (Pratinjau)

Menambahkan 4 suara multibahasa lainnya di en-US dengan dukungan emosi.

Local (BCP-47)	Nama suara	Gaya
`en-US`	`DerekMultilingualNeural` (Laki-laki)	`empathetic`,`excited`,`relieved`,`shy`
`en-US`	`PhoebeMultilingualNeural` (Perempuan)	`empathetic`, `sad`, `serious`
`en-US`	`DavisMultilingualNeural` (Laki-laki)	`empathetic`, `funny`, `relieved`
`en-US`	`NancyMultilingualNeural` (Perempuan)	`excited`, `friendlyfunny`, `relieved`,`shy`

Azure OpenAI di Azure AI Foundry Models turbo voices (Umumnya Tersedia)

6 suara turbo ini sekarang tersedia secara umum:

Local (BCP-47)	Nama suara
`en-US`	`en-US-AlloyTurboMultilingualNeural` (Laki-laki)
`en-US`	`en-US-EchoTurboMultilingualNeural` (Laki-laki)
`en-US`	`en-US-FableTurboMultilingualNeural` (Netral)
`en-US`	`en-US-NovaTurboMultilingualNeural` (Perempuan)
`en-US`	`en-US-OnyxTurboMultilingualNeural` (Laki-laki)
`en-US`	`en-US-ShimmerTurboMultilingualNeural` (Perempuan)

Peningkatan kualitas suara (Umumnya Tersedia)

Meningkatkan kualitas 16 suara.

Local (BCP-47)	Nama suara
`ar-EG`	`ar-EG-ShakirNeural` (Laki-laki)
`ca-ES`	`ca-ES-EnricNeural` (Laki-laki)
`en-IE`	`en-IE-EmilyNeural` (Perempuan)
`fi-FI`	`fi-FI-HarriNeural` (Laki-laki)
`fi-FI`	`fi-FI-SelmaNeural` (Perempuan)
`fr-CH`	`fr-CH-FabriceNeural` (Perempuan)
`hr-HR`	`hr-HR-GabrijelaNeural` (Perempuan)
`nl-NL`	`nl-NL-MaartenNeural` (Laki-laki)
`pt-PT`	`pt-PT-RaquelNeural` (Perempuan)
`ro-RO`	`ro-RO-AlinaNeural` (Perempuan)
`sv-SE`	`sv-SE-MattiasNeural` (Laki-laki)
`sv-SE`	`sv-SE-SofieNeural` (Perempuan)
`vi-VN`	`vi-VN-HoaiMyNeural` (Perempuan)
`vi-VN`	`vi-VN-NamMinhNeural` (Laki-laki)
`zh-HK`	`zh-HK-HiuMaanNeural` (Perempuan)
`zh-HK`	`zh-HK-WanLungNeural` (Laki-laki)

Jenny tertanam dengan berbagai gaya (Umumnya Tersedia)

Menambahkan dukungan gaya untuk en-US-JennyNeural di ucapan yang disematkan. Gaya yang sama didukung seperti di layanan cloud. Gaya berikut didukung: angry, , assistant, chat, cheerful, customerserviceexcited, friendly, , hopeful, newscast, sad, shouting, terrified, , unfriendlydan whispering.

Rilis Januari 2025

Pelatihan avatar khusus

Anda sekarang dapat melatih avatar kustom di Speech Studio. Sebelumnya, Anda harus menunggu Microsoft melatih avatar kustom Anda.

Untuk detail selengkapnya tentang cara membuat avatar kustom, lihat membuat avatar teks ke ucapan kustom.

Rilis Oktober 2024

Suara standar

Memperkenalkan 4 versi turbo suara Azure OpenAI di pratinjau publik: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeural, dan en-US-ShimmerTurboMultilingualNeural. Versi Turbo suara Azure OpenAI memiliki persona suara yang sama dengan suara Azure OpenAI tetapi mendukung fitur tambahan. Suara Turbo mendukung serangkaian lengkap elemen SSML dan lebih banyak fitur seperti batas kata, sama seperti suara Azure AI Speech lainnya. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara-suara ini sekarang tersedia secara umum:

Local (BCP-47)	Nama suara
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

Suara definisi tinggi standar (HD)

Suara ucapan definisi tinggi Azure AI (HD) tersedia dalam pratinjau publik. Suara HD dapat memahami konten, secara otomatis mendeteksi emosi dalam teks input, dan menyesuaikan nada bicara secara real time agar sesuai dengan sentimen. Suara HD mempertahankan persona suara yang konsisten dari varian neural (dan non HD), dan memberikan nilai lebih melalui fitur yang ditingkatkan. Untuk informasi selengkapnya, lihat Apa itu suara definisi tinggi Azure AI Speech (HD)?.

Suara neural khusus

Sebelumnya, beberapa lokasi hanya didukung dengan V3 untuk panduan pelatihan. Lokal ini sekarang juga mendukung V9, memungkinkan peningkatan kualitas pelatihan dan fitur yang diperluas. Untuk lokal ini, lihat tabel berikut:

Local (BCP-47)	Bahasa
`ar-EG`	Bahasa Arab (Mesir)
`ar-SA`	Bahasa Arab (Arab Saudi)
`ca-ES`	Katalan
`cs-CZ`	Ceko (Republik Ceko)
`da-DK`	Bahasa Denmark (Denmark)
`de-AT`	Jerman (Austria)
`de-CH`	Jerman (Swiss)
`el-GR`	Yunani (Yunani)
`en-IN`	Inggris (India)
`fi-FI`	Bahasa Finlandia (Finlandia)
`fr-CH`	Bahasa Prancis (Swiss)
`he-IL`	Ibrani (Israel)
`hi-IN`	Hindi (India)
`hu-HU`	Bahasa Hungaria (Hungaria)
`ms-MY`	Melayu (Malaysia)
`nb-NO`	Bahasa Norwegia Bokmål (Norwegia)
`nl-NL`	Bahasa Belanda (Belanda)
`pl-PL`	Bahasa Polandia (Poland)
`pt-PT`	Portugis (Portugal)
`ro-RO`	Bahasa Rumania (Rumania)
`ru-RU`	Rusia (Rusia)
`sk-SK`	Slowakia (Slowakia)
`sv-SE`	Bahasa Swedia (Swedia)
`th-TH`	Bahasa Thai (Thailand)
`r-TR`	Turki
`vi-VN`	Bahasa Vietnam (Vietnam)
`zh-HK`	Bahasa Kanton (Tradisional)
`zh-TW`	Bahasa Cina (Mandarin Taiwan, Tradisional)

Suara neural kustom Pro sekarang mendukung lokal baru berikut:
- en-NZ: Inggris (Selandia Baru)
- es-CL: Spanyol (Chili)
- es-US: Spanyol (Amerika Serikat)
- ta-MY: Bahasa Tamil (Malaysia)
Lihat daftar bahasa untuk Custom neural voice untuk daftar lengkap lokasi yang didukung.

Fitur lintas bahasa sekarang mendukung lokal baru berikut sebagai lokal sumber:

Local (BCP-47)	Bahasa
`da-DK`	Bahasa Denmark (Denmark)
`de-AT`	Jerman (Austria)
`de-CH`	Jerman (Swiss)
`de-DE`	Bahasa Jerman (Jerman)
`en-CA`	Inggris (Kanada)
`fi-FI`	Bahasa Finlandia (Finlandia)
`fr-CH`	Bahasa Prancis (Swiss)
`hu-HU`	Bahasa Hungaria (Hungaria)
`ms-MY`	Melayu (Malaysia)
`nb-NO`	Bahasa Norwegia Bokmål (Norwegia)
`pt-PT`	Portugis (Portugal)
`sv-SE`	Bahasa Swedia (Swedia)
`tr-TR`	Turki
`ta-IN`	Tamil (India)
`zh-HK`	Bahasa Kanton (Tradisional)

Lihat daftar bahasa untuk Custom neural voice untuk daftar lengkap lokasi yang didukung.

Fitur suara multi-gaya sekarang mendukung lokal baru berikut:

Local (BCP-47)	Bahasa
`ar-EG`	Bahasa Arab (Mesir)
`ar-SA`	Bahasa Arab (Arab Saudi)
`ca-ES`	Katalan
`cs-CZ`	Ceko (Republik Ceko)
`da-DK`	Bahasa Denmark (Denmark)
`de-AT`	Jerman (Austria)
`de-CH`	Jerman (Swiss)
`de-DE`	Bahasa Jerman (Jerman)
`el-GR`	Yunani (Yunani)
`en-AU`	Inggris (Australia)
`en-CA`	Inggris (Kanada)
`en-GB`	Inggris (Kerajaan Inggris Bersatu)
`en-IN`	Inggris (India)
`es-ES`	Spanyol (Spanyol)
`es-MX`	Spanyol (Meksiko)
`fi-FI`	Bahasa Finlandia (Finlandia)
`fr-CA`	Prancis (Kanada)
`fr-CH`	Bahasa Prancis (Swiss)
`fr-FR`	Bahasa Prancis (Prancis)
`he-IL`	Ibrani (Israel)
`hi-IN`	Hindi (India)
`hu-HU`	Bahasa Hungaria (Hungaria)
`it-IT`	Italia (Italia)
`ko-KR`	Bahasa Korea (Korea)
`ms-MY`	Melayu (Malaysia)
`nb-NO`	Bahasa Norwegia Bokmål (Norwegia)
`nl-BE`	Belanda (Belgia)
`nl-NL`	Bahasa Belanda (Belanda)
`pl-PL`	Bahasa Polandia (Poland)
`pt-BR`	Portugis (Brasil)
`pt-PT`	Portugis (Portugal)
`ro-RO`	Bahasa Rumania (Rumania)
`ru-RU`	Rusia (Rusia)
`sk-SK`	Slowakia (Slowakia)
`sv-SE`	Bahasa Swedia (Swedia)
`th-TH`	Bahasa Thai (Thailand)
`tr-TR`	Turki
`vi-VN`	Bahasa Vietnam (Vietnam)
`zh-HK`	Bahasa Kanton (Tradisional)
`zh-TW`	Bahasa Cina (Mandarin Taiwan, Tradisional)

Lihat daftar bahasa untuk Custom neural voice untuk daftar lengkap lokasi yang didukung.

Rilis September 2024

Suara standar

Menambahkan dukungan dan ketersediaan umum untuk suara baru di lokal berikut:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`as-IN`	Bahasa Assam (India)	`as-IN-YashicaNeural` (Perempuan) `as-IN-PriyomNeural` (Laki-laki)
`or-IN`	Odia (India)	`or-IN-SubhasiniNeural` (Perempuan) `or-IN-SukantNeural` (Laki-laki)
`pa-IN`	Punjabi (India)	`pa-IN-OjasNeural` (Laki-laki) `pa-IN-VaaniNeural` (Perempuan)

Hanya ada satu suara dalam tabel ini yang umumnya dapat diakses dan hanya mendukung lokal bahasa 'en-IN'.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-IN`	Inggris (India)	`en-IN-AashiNeural` (Perempuan)

Lima suara dalam tabel ini umumnya tersedia dan mendukung format lokal "en-IN" dan "hi-IN".

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-IN`	Inggris (India)	`en-IN-AaravNeural` (Laki-laki) `en-IN-AnanyaNeural` (Perempuan) `en-IN-KavyaNeural` (Perempuan) `en-IN-KunalNeural` (Laki-laki) `en-IN-RehaanNeural` (Laki-laki)
`hi-IN`	Hindi (India)	`hi-IN-AaravNeural` (Laki-laki) `hi-IN-AnanyaNeural` (Perempuan) `hi-IN-KavyaNeural` (Perempuan) `hi-IN-KunalNeural` (Laki-laki) `hi-IN-RehaanNeural` (Laki-laki)

Gaya dan peran Suara

Menambahkan dukungan gaya newscast, cheerful, dan empathetic untuk suara en-IN-NeerjaNeural dan hi-IN-SwaraNeural.

Menambahkan gaya baru untuk suara berikut:

es-MX-DaliaNeural: whispering, sad, cheerful
fr-FR-DeniseNeural: whispering, sad, excited
it-IT-IsabellaNeural: whispering, sad, excited, cheerful
pt-PT-RaquelNeural: whispering, sad
de-DE-ConradNeural: sad, cheerful
en-GB-RyanNeural: whispering, sad
es-MX-JorgeNeural: whispering, sad, excited, cheerful
fr-FR-HenriNeural: whispering, sad, excited
it-IT-DiegoNeural: sad, excited, cheerful
es-ES-AlvaroNeural: cheerful, sad
ko-KR-InjoonNeural: sad

Lihat Gaya dan peran Suara untuk informasi selengkapnya.

Rilis Agustus 2024

Suara standar

Perkenalkan suara multibahasa baru di pratinjau umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara multibahasa baru

Lokasi	Bahasa	Jenis kelamin	Nama suara
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-AdamMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Perempuan	en-US-AmandaMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-DerekMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-LewisMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Perempuan	en-US-LolaMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Perempuan	en-US-PhoebeMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-SamuelMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Perempuan	en-US-SerenaMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-DustinMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Perempuan	en-US-EvelynMultilingualNeural
es-ES	Spanyol (Spanyol)	Laki-laki	es-ES-TristanMultilingualNeural
fr-FR	Bahasa Prancis (Prancis)	Laki-laki	fr-FR-LucienMultilingualNeural
pt-BR	Portugis (Brasil)	Laki-laki	pt-BR-MacerioMultilingualNeural
zh-CN	Bahasa Tionghoa (Mandarin, Sederhana)	Laki-laki	zh-CN-YunfanMultilingualNeural
zh-CN	Bahasa Tionghoa (Mandarin, Sederhana)	Laki-laki	zh-CN-YunxiaoMultilingualNeural
zh-CN	Bahasa Tionghoa (Mandarin, Sederhana)	Laki-laki	zh-CN-YunyiMultilingualNeural

Model monolingual diperbarui ke suara multibahasa dengan peningkatan keaslian

Lokasi	Bahasa	Jenis kelamin	Nama suara
id-ID	Inggris (Amerika Serikat)	Perempuan	en-US-NancyMultibahasaNeural
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-BrandonMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-ChristopherMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Perempuan	en-US-CoraMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-DavisMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-SteffanMultilingualNeural
es-ES	Spanyol (Spanyol)	Perempuan	es-ES-XimenaMultilingualNeural
it-IT	Italia (Italia)	Laki-laki	IT-GiuseppeMultilingualNeural
ko-KR	Bahasa Korea (Korea)	Laki-laki	ko-KR-HyunsuMultilingualNeural

Tingkatkan suara multibahasa saat ini berikut dengan kualitas yang lebih baik.

Lokasi Bahasa Jenis kelamin Nama suara

id-ID Inggris (Amerika Serikat) Laki-laki en-US-AndrewMultilingualNeural

id-ID Inggris (Amerika Serikat) Perempuan en-US-AvaMultilingualNeural
Sekarang, tiga suara multibahasa mendukung gaya. Lihat Gaya dan peran Suara untuk informasi selengkapnya.
- en-US-SerenaMultilingualNeural: empathetic, excited, friendly, shy, serious, relieved, dan sad.
- en-US-AndrewMultilingualNeural: empathetic dan relieved.
- zh-CN-XiaoxiaoMultilingualNeural: affectionate, cheerful, empathetic, excited, poetry-reading, sorry, dan story.

Lokasi	Bahasa	Jenis kelamin	Nama suara
id-ID	Inggris (Amerika Serikat)	Laki-laki	en-US-AndrewMultilingualNeural
id-ID	Inggris (Amerika Serikat)	Perempuan	en-US-AvaMultilingualNeural

Rilis Juli 2024

Avatar penubah teks menjadi ucapan (GA)

Avatar teks ke ucapan sekarang tersedia secara umum. Untuk informasi selengkapnya, lihat avatar teks ke suara.

Suara standar

Memperkenalkan 2 versi turbo dari suara Azure OpenAI di pratinjau publik: en-US-AlloyTurboMultilingualNeural dan en-US-NovaTurboMultilingualNeural. Versi Turbo suara Azure OpenAI memiliki persona suara yang sama dengan suara Azure OpenAI tetapi mendukung fitur tambahan. Suara Turbo mendukung serangkaian lengkap elemen SSML dan lebih banyak fitur seperti batas kata, sama seperti suara Azure AI Speech lainnya. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.
Perkenalkan 2 suara multibahasa baru di pratinjau publik: zh-CN-YunfanMultilingualNeural dan zh-CN-YunxiaoMultilingualNeural. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara saraf tertanam

en-US-JennyMultilingual fitur suara dirilis dalam produksi, mendukung hingga 24 lokasi untuk pengalaman di perangkat. Untuk lokal yang didukung, lihat tabel di bawah ini.

Lokasi	Bahasa
`da-DK`	Bahasa Denmark (Denmark)
`de-DE`	Bahasa Jerman (Jerman)
`en-AU`	Inggris (Australia)
`en-GB`	Inggris (Kerajaan Inggris Bersatu)
`en-IN`	Inggris (India)
`en-US`	Inggris (Amerika Serikat)
`es-ES`	Spanyol (Spanyol)
`es-MX`	Spanyol (Meksiko)
`fr-CA`	Prancis (Kanada)
`fr-FR`	Bahasa Prancis (Prancis)
`he-IL`	Ibrani (Israel)
`it-IT`	Italia (Italia)
`ja-JP`	Bahasa Jepang (Jepang)
`ko-KR`	Bahasa Korea (Korea)
`nb-NO`	Bahasa Norwegia Bokmål (Norwegia)
`nl-NL`	Bahasa Belanda (Belanda)
`pl-PL`	Bahasa Polandia (Poland)
`pt-PT`	Portugis (Portugal)
`sv-SE`	Bahasa Swedia (Swedia)
`th-TH`	Bahasa Thai (Thailand)
`tr-TR`	Turki
`zh-CN`	Bahasa Tionghoa (Mandarin, Sederhana)
`zh-HK`	Bahasa Kanton (Tradisional)
`zh-TW`	Bahasa Cina (Mandarin Taiwan, Tradisional)

Rilis Juni 2024

Suara standar

Memperkenalkan 6 suara baru dalam pratinjau publik yang tersedia di wilayah tertentu: Asia Timur, Asia Tenggara, US Timur, US Barat, dan India Tengah.

Lokasi	Bahasa	Suara teks ke ucapan
`or-IN`	Odia (India)	`or-IN-SubhasiniNeural` (Perempuan)
`or-IN`	Odia (India)	`or-IN-SukantNeural` (Laki-laki)
`pa-IN`	Punjabi (India)	`pa-IN-VaaniNeural` (Perempuan)
`pa-IN`	Punjabi (India)	`pa-IN-OjasNeural` (Laki-laki)
`as-IN`	Bahasa Assam (India)	`as-IN-YashicaNeural` (Perempuan)
`as-IN`	Bahasa Assam (India)	`as-IN-PriyomNeural` (Laki-laki)

Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Avatar teks ke ucapan

Avatar teks ke ucapan sekarang mendukung wilayah berikut: Asia Tenggara, Eropa Utara, Eropa Barat, Swedia Tengah, US Tengah Selatan, dan AS Barat 2. Untuk informasi selengkapnya, lihat Wilayah layanan suara.

Rilis Mei 2024

Suara pribadi (GA)

Suara pribadi sekarang tersedia secara umum. Dengan suara pribadi, Anda bisa mendapatkan replikasi suara yang dihasilkan AI (atau pengguna aplikasi Anda) dalam beberapa detik. Anda menyediakan sampel ucapan satu menit sebagai perintah audio, lalu menggunakannya untuk menghasilkan ucapan dalam salah satu dari lebih dari 90 bahasa yang didukung di lebih dari 100 lokal. Untuk informasi selengkapnya, lihat gambaran umum suara personal.

Suara standar

Perkenalkan 8 suara multibahasa baru dalam pratinjau publik: en-GB-AdaMultilingualNeural, , en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeuralit-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeural, , dan pt-BR-ThalitaMultilingualNeural. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.
Perkenalkan 2 suara baru en-US yang dioptimalkan untuk skenario Pusat Panggilan dalam pratinjau publik: en-US-LunaNeural dan en-US-KaiNeural. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Rilis bulan April 2024

Avatar teks ke ucapan

Anda sekarang dapat mengatur gambar latar belakang statis untuk avatar Anda. Untuk menggunakan fitur ini, cukup gunakan avatarConfig.backgroundImage properti dan tentukan URL yang menunjuk ke gambar yang diinginkan. Untuk detailnya, lihat Cara mengedit latar belakang.

Rilis Maret 2024

Suara standar

9 suara multibahasa umumnya tersedia di semua wilayah: en-US-AvaMultilingualNeural, , en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeuralde-DE-SeraphinaMultilingualNeural, , fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural, dan zh-CN-XiaoxiaoMultilingualNeural. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.
Memperkenalkan suara multibahasa baru untuk pratinjau publik: ja-JP-MasaruMultilingualNeural. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.
Pembaruan tambahan:
- en-US-RyanMultilingualNeural umumnya tersedia di semua wilayah.
- en-US-JennyMultilingualV2Neural umumnya tersedia di semua wilayah, digabungkan dengan en-US-JennyMultilingualNeural.
- Tinjauan tersedia untuk pembaruan en-IN-NeerjaNeural dan hi-IN-SwaraNeural yang memiliki 3 gaya baru di Amerika Serikat bagian Timur, Eropa bagian Barat, dan Asia Tenggara.
- Pratinjau tersedia untuk suara wanita baru di India Tengah: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural, dan hi-IN-AnanyaNeural.

Avatar teks ke ucapan

Menghilangkan ketergantungan pada Azure Communication Services (ACS) TURN untuk avatar waktu nyata. Kode sampel telah diperbarui sesuai untuk mencerminkan perubahan ini.
Harga yang diumumkan untuk avatar teks ke ucapan. Untuk detail selengkapnya, lihat halaman harga. Perhatikan bahwa harga avatar hanya akan terlihat untuk wilayah layanan tempat fitur tersedia.

Rilis Februari 2024

Suara OpenAI

Layanan Azure AI Speech mendukung suara teks ke ucapan OpenAI di wilayah berikut: Pusat Utara AS dan Pusat Swedia. Seperti suara Azure AI Speech, suara teks ke ucapan OpenAI memberikan sintesis ucapan berkualitas tinggi untuk mengonversi teks tertulis menjadi audio lisan yang terdengar alami. Ini membuka berbagai kemungkinan untuk pengalaman pengguna yang imersif dan interaktif. Untuk informasi selengkapnya, lihat Apa itu suara teks ke ucapan dari OpenAI?.

Catatan

Teks OpenAI ke suara ucapan juga tersedia di Azure OpenAI.
Dengan pembaruan ini, kami telah menyesuaikan harga suara standar dengan Azure AI Speech. Periksa harga yang diperbarui di sini.

Suara pribadi

Fitur suara pribadi sekarang mendukung DragonLatestNeural dan PhoenixLatestNeural model. Model baru ini meningkatkan kealamian suara yang disintesis, lebih menyerupai karakteristik ucapan dari perintah suara. Untuk detail selengkapnya, lihat Mengintegrasikan suara pribadi di aplikasi Anda.

Rilis Desember 2023

API suara kustom

API suara kustom tersedia untuk membuat dan mengelola model suara neural kustom profesional dan pribadi .

Suara neural khusus

Model suara yang baru saja dilatih sekarang mendukung frekuensi sampel 48 kHz, terlepas dari versi model. Untuk model suara yang dilatih sebelumnya, perlu untuk memperbarui versi mesin ke setidaknya versi 2023.11.13.0 untuk meningkatkan laju sampel menjadi 48 kHz.

Suara standar

Memperkenalkan suara multibahasa baru untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`de-DE`	Bahasa Jerman (Jerman)	`de-DE-FlorianMultilingualNeural` (Laki-laki)
`de-DE`	Bahasa Jerman (Jerman)	`de-DE-SeraphinaMultilingualNeural` (Perempuan)
`en-US`	Inggris (Amerika Serikat)	`en-US-AvaMultilingualNeural` (Perempuan)
`en-US`	Inggris (Amerika Serikat)	`en-US-EmmaMultilingualNeural` (Perempuan)
`fr-FR`	Bahasa Prancis (Prancis)	`fr-FR-RemyMultilingualNeural` (Laki-laki)
`en-US`	Inggris (Amerika Serikat)	`en-US-BrianMultilingualNeural` (Laki-laki)
`en-US`	Inggris (Amerika Serikat)	`en-US-AndrewMultilingualNeural` (Laki-laki)
`fr-FR`	Bahasa Prancis (Prancis)	`fr-FR-VivienneMultilingualNeural` (Perempuan)
`zh-CN`	Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN-XiaoxiaoMultilingualNeural` (Perempuan)
`zh-CN`	Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN-XiaochenMultilingualNeural` (Perempuan)
`zh-CN`	Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN-YunyiMultilingualNeural` (Laki-laki)

Memperkenalkan suara baru zh-CN-XiaoxiaoDialectsNeural untuk pratinjau publik yang mendukung beberapa dialek dan aksen Tionghoa:

Nama suara	Bahasa sekunder	Dialek/Aksen
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Tionghoa (Mandarin Zhongyuan Shaanxi, Sederhana)
	`zh-CN-sichuan`	Tiongkok (Mandarin Barat Daya, Sederhana)
	`zh-CN-shanxi`	Mandarin (Aksen Shanxi Mandarin, Sederhana)
	`nan-CN`	Mandarin (Min Selatan, Disederhanakan)
	`zh-CN-anhui`	Tionghoa (Mandarin Jianghuai Anhui, Aksara Sederhana)
	`zh-CN-hunan`	Tionghoa (Mandarin dengan Aksen Hunan, Sederhana)
	`zh-CN-gansu`	Bahasa Tionghoa (Mandarin Lanyin Gansu, Sederhana)
	`zh-CN-shandong`	Bahasa Cina (Jilu Mandarin, Sederhana)
	`zh-CN-henan`	Bahasa Tionghoa (Mandarin Zhongyuan Henan, Sederhana)
	`zh-CN-liaoning`	Bahasa Tiongkok (Bahasa Mandarin Timur Laut, karakter sederhana)
	`zh-TW`	Bahasa Cina (Mandarin Taiwan, Tradisional)

Rilis November 2023

Suara pribadi

Suara pribadi tersedia dalam pratinjau di wilayah berikut: Eropa Barat, Amerika Serikat bagian Timur, dan Asia Tenggara. Dengan suara pribadi (pratinjau), Anda bisa mendapatkan replikasi suara Anda yang dihasilkan oleh AI (atau suara pengguna aplikasi Anda) dalam beberapa detik. Anda menyediakan sampel ucapan satu menit sebagai perintah audio, lalu menggunakannya untuk menghasilkan ucapan dalam salah satu dari lebih dari 90 bahasa yang didukung di lebih dari 100 lokal.

Untuk informasi selengkapnya, lihat suara pribadi.

Avatar teks ke ucapan

Avatar teks ke suara tersedia dalam versi pratinjau di wilayah berikut: Barat Amerika Serikat 2, Eropa Barat, dan Asia Tenggara.

Avatar teks ke ucapan mengonversi teks menjadi video digital manusia fotorealistik (baik avatar standar atau avatar teks ke ucapan kustom) yang berbicara dengan suara yang terdengar alami. Video avatar teks ke ucapan dapat disintesis secara asinkron atau secara real time. Pengembang dapat membangun aplikasi yang terintegrasi dengan avatar teks ke ucapan melalui API, atau menggunakan alat pembuatan konten di Speech Studio untuk membuat konten video tanpa pengkodian.

Untuk informasi selengkapnya, lihat teks ke ucapan avatar, catatan tentang transparansi, dan pengungkapan untuk bakat suara dan avatar.

Suara neural khusus

Menambahkan dukungan untuk 24 lokalisasi baru untuk suara lintas bahasa. Lihat daftar bahasa lengkap untuk informasi selengkapnya.

Suara standar

Memperkenalkan suara baru untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`de-DE`	Bahasa Jerman (Jerman)	`SeraphinaNeural` (Perempuan)
`es-ES`	Spanyol (Spanyol)	`XimenaNeural` (Perempuan)
`fr-CA`	Prancis (Kanada)	`ThierryNeural` (Laki-laki)
`fr-FR`	Bahasa Prancis (Prancis)	`VivienneNeural` (Perempuan)
`it-IT`	Italia (Italia)	`GiuseppeNeural` (Laki-laki)
`ko-KR`	Bahasa Korea (Korea)	`HyunsuNeural` (Laki-laki)
`pt-BR`	Portugis (Brasil)	`ThalitaNeural` (Perempuan)

Model diperbarui dengan bug telah diperbaiki dan peningkatan kualitas.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`es-ES`	Spanyol (Spanyol)	`AlvaroNeural` (Laki-laki)
`en-GB`	Inggris (Kerajaan Inggris Bersatu)	`RyanNeural` (Laki-laki)
`ko-KR`	Bahasa Korea (Korea)	`InjoonNeural` (Laki-laki)

Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Rilis Oktober 2023

Suara neural khusus

Ditambahkan dukungan untuk 12 lokasi baru dengan suara neural kustom versi Pro. Lihat daftar bahasa lengkap untuk informasi selengkapnya.

Rilis September 2023

Suara standar

Memperkenalkan suara baru untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-US`	Inggris (Amerika Serikat)	`en-US-EmmaNeural` (Perempuan)
`en-US`	Inggris (Amerika Serikat)	`en-US-AndrewNeural` (Laki-laki)
`en-US`	Inggris (Amerika Serikat)	`en-US-BrianNeural` (Laki-laki)

Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara saraf tertanam

Semua 147 lokal di sini (kecuali fa-IR, Persia (Iran)) tersedia langsung dengan 1 suara perempuan terpilih dan/atau 1 suara laki-laki terpilih.

Rilis Agustus 2023

Suara neural khusus

Versi resep pelatihan CNV Lite terbaru telah dirilis sekarang. Rilis ini menghadirkan beberapa penyempurnaan pada kualitas model bahasa Anda. Cobalah Speech Studio.

Rilis Juli 2023

Suara neural khusus

Variasi gaya suara umumnya tersedia.
Menambahkan dua lokalisasi baru dalam pratinjau publik untuk suara multi-gaya: ja-JP dan zh-CN. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya. Lihat daftar gaya prasetel untuk berbagai bahasa.
Suara lintas bahasa umumnya tersedia.
Menambahkan dua lokal baru untuk suara lintas bahasa: id-ID dan nl-NL. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara standar

Memperkenalkan suara netral gender baru en-US untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-US`	Inggris (Amerika Serikat)	`en-US-BlueNeural` (Netral)

Memperkenalkan suara multibahasa baru untuk pratinjau publik:

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-US`	Inggris (Amerika Serikat)	`en-US-JennyMultilingualV2Neural` (Perempuan)
`en-US`	Inggris (Amerika Serikat)	`en-US-RyanMultilingualNeural` (Laki-laki)

Suara en-US-JennyMultilingualV2Neural multibahasa dan en-US-RyanMultilingualNeural mendeteksi bahasa teks input secara otomatis. Namun, Anda masih dapat menggunakan <lang> elemen untuk menyesuaikan bahasa berbicara untuk suara ini.

Suara multibahasa baru ini dapat berbicara dalam 41 bahasa dan aksen: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

Suara multibahasa ini tidak sepenuhnya mendukung elemen SSML tertentu, seperti break, penekanan, keheningan, dan sub.

Penting

Suara en-US-JennyMultilingualV2Neural disediakan sementara dalam pratinjau publik semata-mata untuk tujuan evaluasi. Ini akan dihapus di masa mendatang.

Untuk berbicara dalam bahasa selain bahasa Inggris, implementasi suara en-US-JennyMultilingualNeural saat ini mengharuskan Anda menyetel elemen <lang xml:lang>. Kami mengantisipasi bahwa selama kuartal ke-4 tahun 2023, en-US-JennyMultilingualNeural suara akan diperbarui untuk berbicara dalam bahasa teks input tanpa elemen <lang xml:lang>. Ini akan sejalan dengan suara en-US-JennyMultilingualV2Neural.

Memperkenalkan fitur baru dalam pratinjau publik untuk suara di bawah ini:

Menambahkan input Latin untuk suara Serbia (Serbia): sr-RSsr-latn-RS-SophieNeural dan sr-latn-RS-NicholasNeural.
Dukungan pengucapan bahasa Inggris telah ditambahkan untuk suara Albania (Albania): sq-AL, sq-AL-AnilaNeural, dan sq-AL-IlirNeural.

Rilis Mei 2023

Pembuatan Konten Audio

Semua suara standar dengan gaya berbicara dan suara kustom multi-gaya mendukung penyesuaian derajat gaya.
Sekarang Anda dapat memperbaiki pengucapan kata dengan mengucapkan kata dan merekamnya. Fonem dapat dikenali secara otomatis dari rekaman Anda. Fitur Kenali dengan berbicara sekarang dalam pratinjau publik.

Rilis April 2023

Suara standar

Fitur berikut dari suara ini dipindahkan dari pratinjau publik ke GA:

Gaya	Suara teks ke ucapan
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural`, dan `it-IT-IsabellaNeural`
style="ceria"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural`, dan `it-IT-IsabellaNeural`
gaya="sedih"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural`, dan `fr-FR-HenriNeural`

Tingkatkan pelafalan bahasa Inggris untuk hi-IN, ta-IN, dan te-IN suara, sekarang tersedia di area pratinjau publik

Untuk informasi selengkapnya, lihat daftar bahasa dan suara.

Rilis Maret 2023

Fitur baru

Speech Synthesis Markup Language (SSML) diperbarui untuk mendukung elemen prosesor efek audio yang mengoptimalkan kualitas output ucapan yang disintesis untuk skenario tertentu pada perangkat. Pelajari lebih lanjut di markup sintesis ucapan.

Suara neural khusus

Menambahkan dukungan untuk nl-BE lokalisasi dengan Suara Neural Kustom Pro. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Suara standar

Suara berikut kini telah tersedia secara umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-AU`	Inggris (Australia)	`en-AU-AnnetteNeural` (Perempuan) `en-AU-CarlyNeural` (Perempuan) `en-AU-DarrenNeural` (Laki-laki) `en-AU-DuncanNeural` (Laki-laki) `en-AU-ElsieNeural` (Perempuan) `en-AU-FreyaNeural` (Perempuan) `en-AU-JoanneNeural` (Perempuan) `en-AU-KenNeural` (Laki-laki) `en-AU-KimNeural` (Perempuan) `en-AU-NeilNeural` (Laki-laki) `en-AU-TimNeural` (Laki-laki) `en-AU-TinaNeural` (Perempuan) `en-AU-WilliamNeural` (Laki-laki)
`en-GB`	Inggris (Kerajaan Inggris Bersatu)	`en-GB-RyanNeural` (Laki-laki) `en-GB-SoniaNeural` (Perempuan)
`es-ES`	Spanyol (Spanyol)	`es-ES-AbrilNeural` (Perempuan) `es-ES-ArnauNeural` (Laki-laki) `es-ES-DarioNeural` (Laki-laki) `es-ES-EliasNeural` (Laki-laki) `es-ES-EstrellaNeural` (Perempuan) `es-ES-IreneNeural` (Perempuan) `es-ES-LaiaNeural` (Perempuan) `es-ES-LiaNeural` (Perempuan) `es-ES-NilNeural` (Laki-laki) `es-ES-SaulNeural` (Laki-laki) `es-ES-TeoNeural` (Laki-laki) `es-ES-TrianaNeural` (Perempuan) `es-ES-VeraNeural` (Perempuan)
`es-MX`	Spanyol (Meksiko)	`es-MX-JorgeNeural` (Laki-laki)
`fr-FR`	Bahasa Prancis (Prancis)	`fr-FR-HenriNeural` (Laki-laki)
`it-IT`	Italia (Italia)	`it-IT-IsabellaNeural` (Perempuan)
`ja-JP`	Bahasa Jepang (Jepang)	`ja-JP-AoiNeural` (Perempuan) `ja-JP-DaichiNeural` (Laki-laki) `ja-JP-MayuNeural` (Perempuan) `ja-JP-NaokiNeural` (Laki-laki) `ja-JP-ShioriNeural` (Perempuan)

Menambahkan dukungan untuk gaya cheerful dengan suara de-DE-ConradNeural.

Rilis Februari 2023

Suara standar

Suara berikut kini telah tersedia secara umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`zh-CN`	Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN-XiaomengNeural` (Perempuan) `zh-CN-XiaoyiNeural` (Perempuan) `zh-CN-XiaozhenNeural` (Perempuan) `zh-CN-YunfengNeural` (Laki-laki) `zh-CN-YunhaoNeural` (Laki-laki) `zh-CN-YunjianNeural` (Laki-laki) `zh-CN-YunxiaNeural` (Laki-laki) `zh-CN-YunzeNeural` (Laki-laki)
`zh-CN-henan`	Bahasa Tionghoa (Mandarin Zhongyuan Henan, Sederhana)	`zh-CN-henan-YundengNeural` (Laki-laki)

Rilis Desember 2022

REST API untuk batch sintesis (Pratinjau)

API sintesis Batch saat ini dalam pratinjau publik. Setelah API Audio Panjang tersedia secara umum, API tersebut tidak akan digunakan lagi. Untuk informasi selengkapnya, lihat Migrasikan ke API sintesis batch.

Rilis November 2022

Suara standar (GA)

Suara berikut kini telah tersedia secara umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`es-MX`	Spanyol (Meksiko)	`es-MX-BeatrizNeural` (Perempuan) `es-MX-CandelaNeural` (Perempuan) `es-MX-CarlotaNeural` (Perempuan) `es-MX-CecilioNeural` (Laki-laki) `es-MX-GerardoNeural` (Laki-laki) `es-MX-LarissaNeural` (Perempuan) `es-MX-LibertoNeural` (Laki-laki) `es-MX-LucianoNeural` (Laki-laki) `es-MX-MarinaNeural` (Perempuan) `es-MX-NuriaNeural` (Perempuan) `es-MX-PelayoNeural` (Laki-laki) `es-MX-RenataNeural` (Perempuan) `es-MX-YagoNeural` (Laki-laki)
`it-IT`	Italia (Italia)	`it-IT-BenignoNeural` (Laki-laki) `it-IT-CalimeroNeural` (Laki-laki) `it-IT-CataldoNeural` (Laki-laki) `it-IT-FabiolaNeural` (Perempuan) `it-IT-FiammaNeural` (Perempuan) `it-IT-GianniNeural` (Laki-laki) `it-IT-ImeldaNeural` (Perempuan) `it-IT-IrmaNeural` (Perempuan) `it-IT-LisandroNeural` (Laki-laki) `it-IT-PalmiraNeural` (Perempuan) `it-IT-PierinaNeural` (Perempuan) `it-IT-RinaldoNeural` (Laki-laki)
`pt-BR`	Portugis (Brasil)	`pt-BR-BrendaNeural` (Perempuan) `pt-BR-DonatoNeural` (Laki-laki) `pt-BR-ElzaNeural` (Perempuan) `pt-BR-FabioNeural` (Laki-laki) `pt-BR-GiovannaNeural` (Perempuan) `pt-BR-HumbertoNeural` (Laki-laki) `pt-BR-JulioNeural` (Laki-laki) `pt-BR-LeilaNeural` (Perempuan) `pt-BR-LeticiaNeural` (Perempuan) `pt-BR-ManuelaNeural` (Perempuan) `pt-BR-NicolauNeural` (Laki-laki) `pt-BR-ValerioNeural` (Laki-laki) `pt-BR-YaraNeural` (Perempuan)

Suara neural khusus

Dukungan lokalitas berikut ditambahkan untuk Custom neural voice. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Menambahkan dukungan untuk lokalisasi fr-BE dengan suara neural kustom Pro.
Menambahkan dukungan untuk lokal es-ES dengan fitur suara neural lite khusus.

Rilis Oktober 2022

Suara standar (GA)

Suara berikut kini telah tersedia secara umum. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`eu-ES`	Bahasa Basque	`eu-ES-AinhoaNeural` (Perempuan) `eu-ES-AnderNeural` (Laki-laki)
`hy-AM`	Bahasa Armenia (Armenia)	`hy-AM-AnahitNeural` (Perempuan) `hy-AM-HaykNeural` (Laki-laki)

Suara standar (Pratinjau)

Suara-suara berikut ini sekarang tersedia untuk pratinjau publik. Lihat daftar bahasa dan suara lengkap untuk informasi selengkapnya.

Lokal (BCP-47)	Bahasa	Suara teks ke ucapan
`en-AU`	Inggris (Australia)	`en-AU-AnnetteNeural`(Perempuan) `en-AU-CarlyNeural`(Perempuan) `en-AU-DarrenNeural`(Laki-laki) `en-AU-DuncanNeural`(Laki-laki) `en-AU-ElsieNeural`(Perempuan) `en-AU-FreyaNeural`(Perempuan) `en-AU-JoanneNeural`(Perempuan) `en-AU-KenNeural`(Laki-laki) `en-AU-KimNeural`(Perempuan) `en-AU-NeilNeural`(Laki-laki) `en-AU-TimNeural`(Laki-laki) `en-AU-TinaNeural`(Perempuan)
`es-ES`	Spanyol (Spanyol)	`es-ES-AbrilNeural`(Perempuan) `es-ES-AlvaroNeural`(Laki-laki) `es-ES-ArnauNeural`(Laki-laki) `es-ES-DarioNeural`(Laki-laki) `es-ES-EliasNeural`(Laki-laki) `es-ES-EstrellaNeural`(Perempuan) `es-ES-IreneNeural`(Perempuan) `es-ES-LaiaNeural`(Perempuan) `es-ES-LiaNeural`(Perempuan) `es-ES-NilNeural`(Laki-laki) `es-ES-SaulNeural`(Laki-laki) `es-ES-TeoNeural`(Laki-laki) `es-ES-TrianaNeural`(Perempuan) `es-ES-VeraNeural`(Perempuan)
`ja-JP`	Bahasa Jepang (Jepang)	`ja-JP-AoiNeural`(Perempuan) `ja-JP-DaichiNeural`(Laki-laki) `ja-JP-MayuNeural`(Perempuan) `ja-JP-NaokiNeural`(Laki-laki) `ja-JP-ShioriNeural`(Perempuan)
`ko-KR`	Bahasa Korea (Korea)	`ko-KR-BongJinNeural`(Laki-laki) `ko-KR-GookMinNeural`(Laki-laki) `ko-KR-JiMinNeural`(Perempuan) `ko-KR-SeoHyeonNeural`(Perempuan) `ko-KR-SoonBokNeural`(Perempuan) `ko-KR-YuJinNeural`(Perempuan)
`wuu-CN`	Bahasa Tionghoa (Wu, Aksara Sederhana)	`wuu-CN-XiaotongNeural` (Perempuan) `wuu-CN-YunzheNeural` (Laki-laki)
`yue-CN`	Bahasa Kanton (Tionghoa, Aksara Sederhana)	`yue-CN-XiaoMinNeural` (Perempuan) `yue-CN-YunSongNeural` (Laki-laki)

Pembaruan umum suara TTS

Peningkatan kualitas untuk fil-PH-AngeloNeural dan fil-PH-BlessicaNeural suara.
Aturan Normalisasi Teks diperbarui untuk suara dalam lokasi es-CL Spanyol (Chili) dan uz-UZ Uzbek (Uzbekistan).
Ditambahkan ejaan huruf bahasa Inggris untuk suara dengan lokal sq-AL Albania (Albania) dan az-AZ Azerbaijan (Azerbaijan).
Pengucapan bahasa Inggris yang ditingkatkan untuk suara zh-HK-WanLungNeural.
Nada pertanyaan yang ditingkatkan untuk suara nl-NL-MaartenNeural dan pt-BR-AntonioNeural.
Menambahkan dukungan untuk tag <lang ="en-US"> untuk pengucapan bahasa Inggris yang lebih baik dengan suara-suara berikut: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural, dan it-IT-IsabellaNeural.
Menambahkan dukungan untuk tag style="chat" dengan suara berikut: en-GB-RyanNeural, es-MX-JorgeNeural, dan it-IT-IsabellaNeural.
Menambahkan dukungan untuk tag style="cheerful" dengan suara berikut: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, dan it-IT-IsabellaNeural.
Menambahkan dukungan untuk style="sad" tag dengan suara berikut: en-GB-SoniaNeural, fr-FR-DeniseNeural dan fr-FR-HenriNeural.

Rilis September 2022

Suara standar

Semua suara standar telah ditingkatkan ke suara dengan keakuratan tinggi dengan laju sampel 48kHz.

Rilis Agustus 2022

Suara standar

Suara baru dirilis dalam pratinjau publik.

Suara untuk bahasa Inggris (Amerika Serikat): en-US-AIGenerate1Neural dan en-US-AIGenerate2Neural.
Suara untuk bahasa regional Cina: zh-CN-henan-YundengNeural, , zh-CN-shaanxi-XiaoniNeuraldan zh-CN-shandong-YunxiangNeural.

Untuk informasi selengkapnya, lihat daftar bahasa dan suara.

Rilis Juli 2022

Suara standar

Telah ditambahkan 5 suara baru zh-CN Bahasa Tionghoa (Mandarin, Simplified) dan satu suara baru en-US Inggris (Amerika Serikat) di Pratinjau Publik. Lihat daftar bahasa dan suara lengkap.

Bahasa	Lokasi	Jenis kelamin	Nama suara	Dukungan untuk gaya
Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN`	Perempuan	`zh-CN-XiaomengNeural` ^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN`	Perempuan	`zh-CN-XiaoyiNeural` ^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN`	Perempuan	`zh-CN-XiaozhenNeural` ^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN`	Laki-laki	`zh-CN-YunxiaNeural` ^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN`	Laki-laki	`zh-CN-YunzeNeural` ^Baru	Umum, beberapa gaya tersedia menggunakan SSML
Inggris (Amerika Serikat)	`en-US`	Laki-laki	`en-US-RogerNeural` ^Baru	Umum

Gaya dan peran yang didukung untuk suara saraf yang ditambahkan.

Voice	Gaya	Tingkat gaya	Peranan
zh-CN-XiaomengNeural ^{Pratinjau publik}	`chat`	Didukung
zh-CN-XiaoyiNeural ^{Pratinjau Publik}	`affectionate`, `angrycheerful`, `disgruntled`, `embarrassed`, `fearful`, `gentle`, `sad`, `serious`	Didukung
zh-CN-XiaozhenNeural ^{Pratinjau Publik}	`angry`, `cheerful`, `disgruntled`, `fearful`, `sad`, `serious`	Didukung
zh-CN-YunxiaNeural ^{Pratinjau umum}	`angry`, `calmcheerful`, `fearful`,`sad`	Didukung
zh-CN-YunzeNeural ^{Pratinjau umum}	`angry`, `calmcheerful`, `depressed`, `disgruntled`, `documentary-narration`, `fearful`, `sad`, `serious`	Didukung	Didukung

Mendapatkan posisi wajah melalui analisis viseme

Telah ditambahkan dukungan untuk blend shapes guna menggerakkan gerakan wajah karakter 3D yang Anda rancang. Pelajari lebih lanjut di cara mendapatkan posisi wajah dengan viseme.
SSML diperbarui untuk mendukung elemen viseme. Lihat markup sintesis ucapan.

Rilis Juni 2022

Suara standar

Menambahkan 9 bahasa dan varian baru untuk teks neural ke dalam ucapan.

Bahasa	Lokasi	Jenis kelamin	Nama suara	Dukungan untuk gaya
Bahasa Arab (Lebanon)	`ar-LB`	Perempuan	`ar-LB-LaylaNeural` ^Baru	Umum
Bahasa Arab (Lebanon)	`ar-LB`	Laki-laki	`ar-LB-RamiNeural` ^Baru	Umum
Bahasa Arab (Oman)	`ar-OM`	Perempuan	`ar-OM-AyshaNeural` ^Baru	Umum
Bahasa Arab (Oman)	`ar-OM`	Laki-laki	`ar-OM-AbdullahNeural` ^Baru	Umum
Bahasa Azerbaijan (Azerbaijan)	`az-AZ`	Perempuan	`az-AZ-BabekNeural` ^Baru	Umum
Bahasa Azerbaijan (Azerbaijan)	`az-AZ`	Laki-laki	`az-AZ-BanuNeural` ^Baru	Umum
Bosnia (Bosnia dan Herzegovina)	`bs-BA`	Perempuan	`bs-BA-VesnaNeural` ^Baru	Umum
Bosnia (Bosnia dan Herzegovina)	`bs-BA`	Laki-laki	`bs-BA-GoranNeural` ^Baru	Umum
Bahasa Georgia (Georgia)	`ka-GE`	Perempuan	`ka-GE-EkaNeural` ^Baru	Umum
Bahasa Georgia (Georgia)	`ka-GE`	Laki-laki	`ka-GE-GiorgiNeural` ^Baru	Umum
Bahasa Mongol (Mongolia)	`mn-MN`	Perempuan	`mn-MN-YesuiNeural` ^Baru	Umum
Bahasa Mongol (Mongolia)	`mn-MN`	Laki-laki	`mn-MN-BataaNeural` ^Baru	Umum
Bahasa Nepal (Nepal)	`ne-NP`	Perempuan	`ne-NP-HemkalaNeural` ^Baru	Umum
Bahasa Nepal (Nepal)	`ne-NP`	Laki-laki	`ne-NP-SagarNeural` ^Baru	Umum
Bahasa Albania (Albania)	`sq-AL`	Perempuan	`sq-AL-AnilaNeural` ^Baru	Umum
Bahasa Albania (Albania)	`sq-AL`	Laki-laki	`sq-AL-IlirNeural` ^Baru	Umum
Tamil (Malaysia)	`ta-MY`	Perempuan	`ta-MY-KaniNeural` ^Baru	Umum
Tamil (Malaysia)	`ta-MY`	Laki-laki	`ta-MY-SuryaNeural` ^Baru	Umum

Suara GA 36 dari Pratinjau Umum untuk Bahasa Inggris (Inggris) en-GB, Prancis (Prancis) fr-FR dan Jerman (Jerman) de-DE:

Bahasa	Lokasi	Jenis kelamin	Nama suara	Dukungan untuk gaya
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-AbbiNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-BellaNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-HollieNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-MaisieNeural`	Umum, suara anak
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-OliviaNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-SoniaNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-AlfieNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-ElliotNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-EthanNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-NoahNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-OliverNeural`	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-ThomasNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-BrigitteNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-CelesteNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-CoralieNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-EloiseNeural`	Umum, suara anak
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-JacquelineNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-JosephineNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-YvetteNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-AlainNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-ClaudeNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-JeromeNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-MauriceNeural`	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-YvesNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-AmalaNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-ElkeNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-GiselaNeural`	Umum, suara anak
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-KlarissaNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-LouisaNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-MajaNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-TanjaNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-BerndNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-ChristophNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KasperNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KillianNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KlausNeural`	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-RalfNeural`	Umum

Menambahkan 40 suara baru untuk es-MX Spanyol (Meksiko), it-IT Italia (Italia), pt-BR Portugis (Brasil) dan 2 aksen untuk zh-CN Tionghoa (Mandarin, Sederhana) di Pratinjau Umum:

Bahasa	Lokasi	Jenis kelamin	Nama suara	Dukungan untuk gaya
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-BeatrizNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-CarlotaNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-NuriaNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-RenataNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-LarissaNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-CandelaNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Perempuan	`es-MX-MarinaNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-FiammaNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-IrmaNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-FabiolaNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-PalmiraNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-ImeldaNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Perempuan	`it-IT-PierinaNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-ElzaNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-ManuelaNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-BrendaNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-LeilaNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-YaraNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-GiovannaNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Perempuan	`pt-BR-LeticiaNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-CecilioNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-LibertoNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-LucianoNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-PelayoNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-YagoNeural` ^Baru	Umum
Spanyol (Meksiko)	`es-MX`	Laki-laki	`es-MX-GerardoNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-BenignoNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-CataldoNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-LisandroNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-CalimeroNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-RinaldoNeural` ^Baru	Umum
Italia (Italia)	`it-IT`	Laki-laki	`it-IT-GianniNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-DonatoNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-HumbertoNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-FabioNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-JulioNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-ValerioNeural` ^Baru	Umum
Portugis (Brasil)	`pt-BR`	Laki-laki	`pt-BR-NicolauNeural` ^Baru	Umum
Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN-sichuan`	Laki-laki	`zh-CN-sichuan-YunxiSichuanNeural` ^Baru	Umum, aksen Sichuan
Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN-liaoning`	Perempuan	`zh-CN-liaoning-XiaobeiNeural` ^Baru	Jenderal, aksen Liaoning

Peningkatan kualitas untuk en-SG-LunaNeural dan en-SG-WayneNeural
Dukungan output 48kHz untuk Pratinjau Umum dengan menggunakan en-US-JennyNeural, en-US-AriaNeural, dan zh-CN-XiaoxiaoNeural.

Suara neural khusus

Diaktifkan untuk memperbaiki masalah data secara online. Pelajari selengkapnya tentang cara mengatasi masalah data di Speech Studio.
Versi resep pelatihan telah ditambahkan. Pelajari selengkapnya tentang memilih versi resep pelatihan untuk model suara Anda.

Alat Pembuatan Konten Audio

Paginasi yang didukung.
Diaktifkan untuk mengurutkan secara global menurut nama, jenis file, dan waktu pembaruan pada halaman file kerja.

Rilis Mei 2022

Suara standar

Merilis 5 suara baru dalam pratinjau publik dengan berbagai gaya untuk memperkaya variasi dalam bahasa Inggris Amerika. Lihat daftar bahasa dan suara lengkap.
Dukung gaya baru berikut Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified dan Whispering dalam pratinjau publik untuk en-US-AriaNeural.
Dukung gaya baru ini Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified dan Whispering dalam pratinjau publik untuk en-US-GuyNeural, en-US-JennyNeural.
Dukung gaya baru ini Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified dan Whispering dalam pratinjau publik untuk en-US-SaraNeural. Lihat gaya dan peran suara.
Pelepasan suara baru zh-CN-YunjianNeural, zh-CN-YunhaoNeural, dan zh-CN-YunfengNeural dalam pratinjau publik. Lihat daftar bahasa dan suara lengkap.
Mendukung 2 gaya baru sports-commentary, sports-commentary-excited dalam pratinjau publik untuk zh-CN-YunjianNeural. Lihat gaya dan peran suara.
Dukung satu gaya baru advertisement-upbeat dalam pratinjau publik untuk zh-CN-YunhaoNeural. Lihat gaya dan peran suara.
Gaya cheerful dan sad untuk fr-FR-DeniseNeural umumnya tersedia di semua wilayah.
SSML diperbarui untuk mendukung elemen MathML untuk suara en-US dan en-AU. Pelajari lebih lanjut di markup sintesis ucapan.

Suara neural khusus

Memungkinkan pembatalan pelatihan selama pelatihan model suara. Pelajari selengkapnya tentang cara membatalkan pelatihan.
Diaktifkan untuk mengkloning model (mengganti nama model suara). Pelajari selengkapnya tentang cara mengganti nama model suara Anda.
Diaktifkan untuk menguji model suara Anda dengan menambahkan skrip pengujian Anda sendiri. Pelajari selengkapnya tentang cara mengunggah skrip pengujian Anda.
Memungkinkan pembaruan versi mesin untuk model suara Anda. Pelajari selengkapnya tentang cara memperbarui versi mesin model.
Mendukung lebih banyak wilayah pelatihan. Lihat dukungan wilayah.
Didukung 10 locales untuk suara neural kustom ringan (pratinjau). Lihat Dukungan bahasa komputer.

Alat Pembuatan Konten Audio

Diaktifkan untuk mencoba alat Pembuatan Konten Audio tanpa masuk.
Tata letak yang disempurnakan untuk menyesuaikan fonem.
Performa yang ditingkatkan: Menentukan jumlah maksimum (200) file yang akan diunggah pada satu waktu.
Performa yang ditingkatkan: Menentukan tingkat kedalaman direktori maksimum (5 tingkat).

Rilis Maret 2022

Suara standar

Dukungan ditambahkan dalam versi pratinjau publik untuk gaya Cheerful dan Sad dengan fr-FR-DeniseNeural. Lihat gaya dan peran suara.
Merilis suara standar untuk kontainer tidak terhubung dalam pratinjau publik. Lihat penggunaan kontainer Docker di lingkungan yang terputus.

Suara neural khusus

Mendukung kontrol akses berbasis peran. Pelajari lebih lanjut tentang kontrol akses berbasis peran Azure di Speech Studio
Titik akhir privat dan titik akhir layanan jaringan virtual yang didukung. Cari tahu lebih lanjut tentang cara menggunakan titik akhir privat dengan layanan ucapan.

Alat Pembuatan Konten Audio

Memperbarui ukuran file dan batas konkurensi untuk sumber daya tingkat bebas (F0) untuk membuat pengalaman konsisten dengan Speech SDK dan API. Lihat Kuota dan batas layanan ucapan.

Rilis Februari 2022

Suara neural khusus

Telah dirilis versi ringan suara neural kustom dalam pratinjau publik. Pelajari lebih lanjut tentang apa itu custom neural voice lite suara saraf.
Dukungan bahasa diperluas ke 49 lokal. Lihat Dukungan bahasa komputer.
Mendukung lebih banyak wilayah/pusat data. Lihat dukungan wilayah.

Alat Pembuatan Konten Audio

Menghapus batas panjang output untuk mengunduh audio.

Rilis Januari 2022

Bahasa dan suara baru

Menambahkan 10 bahasa dan varian baru untuk teks Neural ke ucapan:

Bahasa	Lokasi	Jenis kelamin	Nama suara	Dukungan untuk gaya
Bengali (India)	`bn-IN`	Perempuan	`bn-IN-TanishaaNeural` ^Baru	Umum
Bengali (India)	`bn-IN`	Laki-laki	`bn-IN-BashkarNeural` ^Baru	Umum
Islandia (Islandia)	`is-IS`	Perempuan	`is-IS-GudrunNeural` ^Baru	Umum
Islandia (Islandia)	`is-IS`	Laki-laki	`is-IS-GunnarNeural` ^Baru	Umum
Kannada (India)	`kn-IN`	Perempuan	`kn-IN-SapnaNeural` ^Baru	Umum
Kannada (India)	`kn-IN`	Laki-laki	`kn-IN-GaganNeural` ^Baru	Umum
Bahasa Kazak (Kazakhstan)	`kk-KZ`	Perempuan	`kk-KZ-AigulNeural` ^Baru	Umum
Bahasa Kazak (Kazakhstan)	`kk-KZ`	Laki-laki	`kk-KZ-DauletNeural` ^Baru	Umum
Lao (Laos)	`lo-LA`	Perempuan	`lo-LA-KeomanyNeural` ^Baru	Umum
Lao (Laos)	`lo-LA`	Laki-laki	`lo-LA-ChanthavongNeural` ^Baru	Umum
Makedonia (Republik Makedonia Utara)	`mk-MK`	Perempuan	`mk-MK-MarijaNeural` ^Baru	Umum
Makedonia (Republik Makedonia Utara)	`mk-MK`	Laki-laki	`mk-MK-AleksandarNeural` ^Baru	Umum
Malayalam (India)	`ml-IN`	Perempuan	`ml-IN-SobhanaNeural` ^Baru	Umum
Malayalam (India)	`ml-IN`	Laki-laki	`ml-IN-MidhunNeural` ^Baru	Umum
Pashto (Afganistan)	`ps-AF`	Perempuan	`ps-AF-LatifaNeural` ^Baru	Umum
Pashto (Afganistan)	`ps-AF`	Laki-laki	`ps-AF-GulNawazNeural` ^Baru	Umum
Bahasa Serbia (Serbia, Kiril)	`sr-RS`	Perempuan	`sr-RS-SophieNeural` ^Baru	Umum
Bahasa Serbia (Serbia, Kiril)	`sr-RS`	Laki-laki	`sr-RS-NicholasNeural` ^Baru	Umum
Bahasa Sinhala (Sri Lanka)	`si-LK`	Perempuan	`si-LK-ThiliniNeural` ^Baru	Umum
Bahasa Sinhala (Sri Lanka)	`si-LK`	Laki-laki	`si-LK-SameeraNeural` ^Baru	Umum

Untuk daftar lengkap suara yang tersedia, lihat Dukungan bahasa.

Suara baru dalam pratinjau

Menambahkan suara baru untuk en-GB, fr-FR dan de-DE dalam versi pratinjau.

Bahasa	Lokasi	Jenis kelamin	Nama suara	Dukungan untuk gaya
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-AbbiNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-BellaNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-HollieNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Perempuan	`en-GB-OliviaNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Gadis	`en-GB-MaisieNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-AlfieNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-ElliotNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-EthanNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-NoahNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-OliverNeural` ^Baru	Umum
Inggris (Kerajaan Inggris Bersatu)	`en-GB`	Laki-laki	`en-GB-ThomasNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-BrigitteNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-CelesteNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-CoralieNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-JacquelineNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-JosephineNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Perempuan	`fr-FR-YvetteNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Gadis	`fr-FR-EloiseNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-AlainNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-ClaudeNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-JeromeNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-MauriceNeural` ^Baru	Umum
Bahasa Prancis (Prancis)	`fr-FR`	Laki-laki	`fr-FR-YvesNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-AmalaNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-ElkeNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-KlarissaNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-LouisaNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-MajaNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Perempuan	`de-DE-TanjaNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Gadis	`de-DE-GiselaNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-BerndNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-ChristophNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KasperNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KillianNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-KlausNeural` ^Baru	Umum
Bahasa Jerman (Jerman)	`de-DE`	Laki-laki	`de-DE-RalfNeural` ^Baru	Umum

Untuk daftar lengkap suara yang tersedia, lihat Dukungan bahasa.

Akurasi pengucapan

Peningkatan pengucapan kata-kata bahasa Inggris untuk semua suara he-IL.
Meningkatkan akurasi pengucapan pada tingkat kata untuk cs-CZ dan da-DK.
Perbaikan diakritik bahasa Arab dan penanganan Nikud Ibrani yang lebih baik.
Peningkatan pemahaman entitas untuk ja-JP

Studio Ucapan

Suara neural kustom: memungkinkan pengujian model tambahan menggunakan API batch (API untuk audio panjang)
Pembuatan Konten Audio: mengaktifkan lebih banyak format output

Rilis Oktober 2021

Bahasa dan suara baru

Menambahkan 49 bahasa baru dan 98 suara untuk teks Neural ke ucapan:

Adri di af-ZA Afrikaans (Afrika Selatan), Willem di af-ZA Afrikaans (Afrika Selatan), Mekdes dalam am-ET Amharic (Ethiopia), Ameha dalam am-ET Amharic (Ethiopia), Fatima dalam ar-AE bahasa Arab (Uni Emirat Arab), Hamdan dalam ar-AE bahasa Arab (Uni Emirat Arab), Laila dalam ar-BH bahasa Arab (Bahrain), Ali dalam ar-BH bahasa Arab (Bahrain), Amina dalam ar-DZ bahasa Arab (Aljazair), Ismael dalam ar-DZ bahasa Arab (Aljazair), Rana dalam ar-IQ bahasa Arab (Irak), Bassel dalam ar-IQ bahasa Arab (Irak), Sana dalam ar-JO bahasa Arab (Yordania), Taim dalam ar-JO bahasa Arab (Yordania), Noura dalam ar-KW bahasa Arab (Kuwait), Fahed dalam ar-KW bahasa Arab (Kuwait), Iman dalam ar-LY bahasa Arab (Libya), Omar dalam ar-LY bahasa Arab (Libya), Mouna dalam ar-MA bahasa Arab (Maroko), Jamal dalam ar-MA bahasa Arab (Maroko), Amal dalam ar-QA bahasa Arab (Qatar), Moaz dalam ar-QA bahasa Arab (Qatar), Amany dalam ar-SY bahasa Arab (Suriah), Laith dalam ar-SY bahasa Arab (Suriah), Reem dalam ar-TN bahasa Arab (Tunisia), Hedi dalam ar-TN bahasa Arab (Tunisia), Maryam dalam ar-YE bahasa Arab (Yaman), Saleh dalam ar-YE bahasa Arab (Yaman), Nabanita di bn-BD Bangla (Bangladesh), Pradeep di bn-BD Bangla (Bangladesh), Asilia dalam en-KE bahasa Inggris (Kenya), Chilemba dalam en-KE bahasa Inggris (Kenya), Ezinne dalam en-NG bahasa Inggris (Nigeria), Abeo dalam en-NG bahasa Inggris (Nigeria), Imani dalam en-TZ bahasa Inggris (Tanzania), Elimu dalam en-TZ bahasa Inggris (Tanzania), Sofia dalam es-BO bahasa Spanyol (Bolivia), Marcelo dalam es-BO bahasa Spanyol (Bolivia), Catalina dalam es-CL bahasa Spanyol (Chili), Lorenzo dalam es-CL bahasa Spanyol (Chili), Maria dalam es-CR bahasa Spanyol (Kosta Rika), Juan dalam es-CR bahasa Spanyol (Kosta Rika), Belkys dalam es-CU bahasa Spanyol (Kuba), Manuel dalam es-CU bahasa Spanyol (Kuba), Ramona dalam es-DO bahasa Spanyol (Republik Dominika), Emilio dalam es-DO bahasa Spanyol (Republik Dominika), Andrea dalam es-EC bahasa Spanyol (Ekuador), Luis dalam es-EC bahasa Spanyol (Ekuador), Teresa dalam es-GQ bahasa Spanyol (Guinea Khatulistiwa), Javier dalam es-GQ bahasa Spanyol (Guinea Khatulistiwa), Marta dalam es-GT bahasa Spanyol (Guatemala), Andres dalam es-GT bahasa Spanyol (Guatemala), Karla dalam es-HN bahasa Spanyol (Honduras), Carlos dalam es-HN bahasa Spanyol (Honduras), Yolanda dalam es-NI bahasa Spanyol (Nikaragua), Federico dalam es-NI bahasa Spanyol (Nikaragua), Margarita dalam es-PA bahasa Spanyol (Panama), Roberto dalam es-PA bahasa Spanyol (Panama), Camila dalam es-PE bahasa Spanyol (Peru), Alex dalam es-PE bahasa Spanyol (Peru), Karina dalam es-PR bahasa Spanyol (Puerto Riko), Victor dalam es-PR bahasa Spanyol (Puerto Riko), Tania dalam es-PY bahasa Spanyol (Paraguay), Mario dalam es-PY bahasa Spanyol (Paraguay), Lorena dalam es-SV bahasa Spanyol (El Salvador), Rodrigo dalam es-SV bahasa Spanyol (El Salvador), Valentina dalam es-UY bahasa Spanyol (Uruguay), Mateo dalam es-UY bahasa Spanyol (Uruguay), Paola dalam es-VE bahasa Spanyol (Venezuela), Sebastian dalam es-VE bahasa Spanyol (Venezuela), Dilara dalam fa-IR bahasa Persia (Iran), Farid dalam fa-IR bahasa Persia (Iran), Blessica dalam fil-PH bahasa Filipina (Filipina), Angelo dalam fil-PH bahasa Filipina (Filipina), Sabela di gl-ES bahasa Galicia, Roi di gl-ES bahasa Galicia, Siti dalam jv-ID bahasa Jawa (Indonesia), Dimas dalam jv-ID bahasa Jawa (Indonesia), Sreymom dalam km-KH bahasa Khmer (Kamboja), Piseth dalam km-KH bahasa Khmer (Kamboja), Nilar dalam my-MM bahasa Burma (Myanmar), Thiha dalam my-MM bahasa Burma (Myanmar), Ubax dalam so-SO bahasa Somali (Somalia), Muuse dalam so-SO bahasa Somali (Somalia), Tuti dalam su-ID bahasa Sunda (Indonesia), Jajang dalam su-ID bahasa Sunda (Indonesia), Rehema dalam sw-TZ bahasa Swahili (Tanzania), Daudi dalam sw-TZ bahasa Swahili (Tanzania), Saranya dalam ta-LK bahasa Tamil (Sri Lanka), Kumar dalam ta-LK bahasa Tamil (Sri Lanka), Venba dalam ta-SG bahasa Tamil (Singapura), Anbu dalam ta-SG bahasa Tamil (Singapura), Gul dalam ur-IN bahasa Urdu (India), Salman dalam ur-IN bahasa Urdu (India), Madina dalam uz-UZ bahasa Uzbek (Uzbekistan), Sardor dalam uz-UZ bahasa Uzbek (Uzbekistan), Thando dalam zu-ZA bahasa Zulu (Afrika Selatan), Themba dalam zu-ZA bahasa Zulu (Afrika Selatan).

Rilis September 2021

Suara chatbot baru dalam en-US bahasa Inggris (AS): Sara mewakili seorang remaja putri yang berbicara lebih santai dan cocok untuk skenario chatbot.
Gaya baru ditambahkan untuk ja-JP Suara Jepang Nanami: Tiga gaya baru sekarang tersedia dengan Nanami: obrolan, layanan pelanggan, dan ceria.
Peningkatan pengucapan secara keseluruhan: Ardi di id-ID, Premwadee di th-TH, Christel di da-DK, HoaiMy, dan NamMinh di vi-VN.
Dua suara baru dalam zh-CN Bahasa Mandarin (Tiongkok) dalam tahap pratinjau: Xiaochen & Xiaoyan, dioptimalkan untuk pengucapan spontan dalam skenario layanan pelanggan.

Rilis Juli 2021

Pembaruan Teks ke Ucapan Berbasis Neural

Mengurangi kesalahan pengucapan dalam bahasa Ibrani sebesar 20%.

Pembaruan Speech Studio

Suara neural kustom: Memperbarui alur pelatihan ke UniTTSv3 untuk meningkatkan kualitas model sambil mengurangi waktu pelatihan hingga 50% untuk model akustik.
Pembuatan Konten Audio: Memperbaiki masalah performa "Ekspor" dan bug dalam pemilihan suara neural kustom.

Rilis Juni (2021)

Pembaruan Studio Pengolahan Ucapan

Suara neural kustom: Pelatihan suara neural kustom diperpanjang untuk mendukung Asia Tenggara. Fitur baru dirilis untuk mendukung pemeriksaan status pengunggahan data.
Pembuatan Konten Audio: Merilis fitur baru untuk mendukung leksikon kustom. Dengan fitur ini, pengguna dapat membuat file leksikon mereka dengan mudah dan menentukan pengucapan yang disesuaikan untuk output audio mereka.

Rilis Mei 2021

Bahasa dan suara baru yang ditambahkan untuk TTS neural

Sepuluh bahasa baru yang diperkenalkan - 20 suara baru dalam 10 lokal baru ditambahkan ke dalam daftar bahasa TTS neural: Yan dalam en-HK bahasa Inggris (Hongkong), Sam dalam en-HK bahasa Inggris (Hongkong), Molly dalam en-NZ bahasa Inggris (Selandia Baru), Mitchell dalam en-NZ bahasa Inggris (Selandia Baru), Luna dalam en-SG bahasa Inggris (Singapura), Wayne dalam en-SG bahasa Inggris (Singapura), Leah dalam en-ZA bahasa Inggris (Afrika Selatan), Luke dalam en-ZA bahasa Inggris (Afrika Selatan), Dhwani dalam gu-IN bahasa Gujarat (India), Niranjan dalam gu-IN bahasa Gujarat (India), Aarohi dalam mr-IN bahasa Marathi (India), Manohar dalam mr-IN bahasa Marathi (India), Elena dalam es-AR bahasa Spanyol (Argentina), Tomas dalam es-AR bahasa Spanyol (Argentina), Salome dalam es-CO bahasa Spanyol (Kolombia), Gonzalo dalam es-CO bahasa Spanyol (Kolombia), Paloma dalam es-US bahasa Spanyol (Amerika Serikat), Alonso dalam es-US bahasa Spanyol (Amerika Serikat), Zuri dalam sw-KE bahasa Swahili (Kenya), Rafiki dalam sw-KE bahasa Swahili (Kenya).
Sebelas suara en-US baru dalam pratinjau - 11 suara en-US baru dalam pratinjau ditambahkan ke bahasa Inggris Amerika, suara tersebut adalah Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Lima zh-CN suara bahasa Mandarin (Tiongkok, Sederhana) sekarang tersedia secara umum - 5 suara bahasa Mandarin (Tiongkok, Sederhana) telah diubah dari pratinjau menjadi tersedia secara umum. Yaitu Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Sekarang, suara-suara ini tersedia di semua wilayah. Yunxi ditambahkan dengan gaya 'asisten' baru, yang cocok untuk bot obrolan dan agen suara. Gaya suara Xiaomo disempurnakan agar lebih alami dan menonjol.

Rilis April (2021)

Fitur teks ke ucapan berbasis neural tersedia di 21 region

Dua belas wilayah baru ditambahkan - Teks neural ke ucapan sekarang tersedia di 12 wilayah baru ini: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. Periksa di sini untuk daftar lengkap 21 wilayah yang didukung.

Rilis Maret 2021

Bahasa dan suara baru yang ditambahkan untuk TTS neural

Enam bahasa baru yang diperkenalkan - 12 suara baru di 6 lokal baru ditambahkan ke daftar bahasa TTS neural: Nia dalam cy-GB bahasa Wales (Inggris), Aled dalam cy-GB bahasa Wales (Inggris), Rosa dalam en-PH bahasa Inggris (Filipina), James dalam en-PH bahasa Inggris (Filipina), Charline dalam fr-BE bahasa Prancis (Belgia), Gerard dalam fr-BE bahasa Prancis (Belgia), Dena dalam nl-BE bahasa Belanda (Belgia), Arnaud dalam nl-BE bahasa Belanda (Belgia), Polina dalam uk-UA bahasa Ukraina (Ukraina), Ostap dalam uk-UA bahasa Ukraina (Ukraina), Uzma dalam ur-PK bahasa Urdu (Pakistan), Asad dalam ur-PK bahasa Urdu (Pakistan).
Lima bahasa dari pratinjau ke GA - 10 suara dalam 5 lokal yang diperkenalkan pada november sekarang adalah GA: Kert di et-EE Estonia (Estonia), Colm di ga-IE Irlandia (Irlandia), Nils di lv-LV Latvia (Latvia), Leonas di lt-LT Lithuania (Lithuania), Joseph di mt-MT Malta (Malta).
Suara laki-laki baru ditambahkan untuk bahasa Prancis (Kanada) - Suara baru Antoine tersedia untuk fr-CA bahasa Prancis (Kanada).
Peningkatan kualitas - Pengurangan tingkat kesalahan pengucapan pada hu-HU bahasa Hungaria - 48,17%, nb-NO Norwegia - 52,76%, nl-NL Belanda (Belanda) - 22,11%.

Dengan peluncuran ini, kami sekarang mendukung total 142 suara neural dalam 60 bahasa/wilayah. Selain itu, lebih dari 70 suara standar tersedia dalam 49 bahasa/lokal. Kunjungi Dukungan bahasa untuk daftar lengkap.

Dapatkan peristiwa pose wajah untuk menganimasikan karakter

Teks Neural ke ucapan sekarang menyertakan kejadian viseme. Acara Viseme memungkinkan pengguna mendapatkan serangkaian pose wajah bersama dengan ucapan yang disintesis. Visemes dapat digunakan untuk mengontrol pergerakan model avatar 2D dan 3D, mencocokkan gerakan mulut dengan ucapan yang disintesis. Event Viseme hanya tersedia untuk suara en-US-AriaNeural saat ini.

Tambahkan elemen penanda dalam Bahasa Markup untuk Sintesis Ucapan (SSML)

Elemen penanda khusus memungkinkan Anda menyisipkan penanda khusus di SSML untuk mendapatkan posisi setiap penanda dalam stream audio. Penanda dapat digunakan untuk menunjuk lokasi tertentu dalam teks atau urutan tag.

Rilis Februari 2021

Suara neural kustom GA

Suara neural kustom akan tersedia secara umum (GA) pada bulan Februari dalam 13 bahasa: Mandarin (Sederhana), Bahasa Inggris (Australia), Bahasa Inggris (India), Bahasa Inggris (Inggris), Bahasa Inggris (Amerika Serikat), Bahasa Prancis (Kanada), Bahasa Prancis (Prancis), Bahasa Jerman (Jerman), Bahasa Italia (Italia), Bahasa Jepang (Jepang), Bahasa Korea (Korea), Bahasa Portugis (Brasil), Bahasa Spanyol (Meksiko), dan Bahasa Spanyol (Spanyol). Pelajari selengkapnya tentang apa itu suara saraf kustom dan cara menggunakannya secara bertanggung jawab. Fitur suara neural kustom memerlukan pendaftaran dan Microsoft dapat membatasi akses berdasarkan kriteria kelayakan Microsoft. Pelajari selengkapnya tentang akses terbatas.

Rilis Desember 2020

Suara saraf baru di GA dan pratinjau

Telah merilis 51 suara baru untuk total 129 suara neural di 54 bahasa/wilayah.

46 suara baru di lokal GA: Shakir dalam ar-EG bahasa Arab (Mesir), Hamed dalam ar-SA bahasa Arab (Arab Saudi), Borislav dalam bg-BG bahasa Bulgaria (Bulgaria), Joana dalam ca-ES bahasa Katalan, Antonin dalam cs-CZ bahasa Ceko (Republik Ceko), Jeppe dalam da-DK bahasa Denmark (Denmark), Jonas dalam de-AT bahasa Jerman (Austria), Jan dalam de-CH bahasa Jerman (Swiss), Nestoras dalam el-GR bahasa Yunani (Yunani), Liam dalam en-CA bahasa Inggris (Kanada), Connor dalam en-IE bahasa Inggris (Irlandia), Madhur dalam en-IN bahasa Hindi (India), Mohan dalam en-IN bahasa Telugu (India), Prabhat dalam en-IN bahasa Inggris (India), Valluvar dalam en-IN bahasa Tamil (India), Enric dalam es-ES bahasa Katalan, Kert dalam et-EE bahasa Estonia (Estonia), Harri dalam fi-FI bahasa Finlandia (Finlandia), Selma dalam fi-FI bahasa Finlandia (Finlandia), Fabrice dalam fr-CH bahasa Prancis (Swiss), Colm dalam ga-IE bahasa Irlandia (Irlandia), Avri dalam he-IL bahasa Ibrani (Israel), Srecko dalam hr-HR bahasa Kroasia (Kroasia), Tamas dalam hu-HU bahasa Hongaria (Hungaria), Gadis dalam id-ID bahasa Indonesia (Indonesia), Leonas dalam lt-LT bahasa Lithuania (Lithuania), Nils dalam lv-LV bahasa Latvia (Latvia), Osman dalam ms-MY bahasa Melayu (Malaysia), Joseph dalam mt-MT bahasa Malta (Malta), Finn dalam nb-NO bahasa Norwegia, Bokmål (Norwegia), Pernille dalam nb-NO bahasa Norwegia, Bokmål (Norwegia), Fenna dalam nl-NL bahasa Belanda (Belanda), Maarten dalam nl-NL bahasa Belanda (Belanda), Agnieszka dalam pl-PL bahasa Polandia (Polandia), Marek dalam pl-PL bahasa Polandia (Polandia), Duarte dalam pt-BR bahasa Portugis (Brasil), Raquel dalam pt-PT bahasa Portugis (Portugal), Emil dalam ro-RO bahasa Rumania (Rumania), Dmitry dalam ru-RU bahasa Rusia (Rusia), Svetlana dalam ru-RU bahasa Rusia (Rusia), Lukas dalam sk-SK bahasa Slowakia (Slowakia), Rok dalam sl-SI bahasa Slovenia (Slovenia), Mattias dalam sv-SE bahasa Swedia (Swedia), Sofie dalam sv-SE bahasa Swedia (Swedia), Niwat dalam th-TH bahasa Thailand (Thailand), Ahmet dalam tr-TR bahasa Turki (Türkiye), NamMinh dalam vi-VN bahasa Vietnam (Vietnam), HsiaoChen dalam zh-TW bahasa Mandarin Taiwan (Taiwan), YunJhe dalam zh-TW bahasa Mandarin Taiwan (Taiwan), HiuMaan dalam zh-HK bahasa Kanton Cina (Wilayah Administratif Khusus Hong Kong), WanLung dalam zh-HK bahasa Kanton Cina (Wilayah Administratif Khusus Hong Kong).
5 suara baru dalam lokal pratinjau: Kert dalam et-EE bahasa Estonia (Estonia), Colm dalam ga-IE bahasa Irlandia (Irlandia), Nils dalam lv-LV bahasa Latvia (Latvia), Leonas dalam lt-LT bahasa Lithuania (Lithuania), Joseph dalam mt-MT bahasa Malta (Malta).

Dengan rilis ini, kami sekarang mendukung total 129 suara neural dalam 54 bahasa/lokalitas. Selain itu, lebih dari 70 suara standar tersedia dalam 49 bahasa/lokal. Kunjungi Dukungan bahasa untuk daftar lengkap.

Pembaruan untuk Pembuatan Konten Audio

Antarmuka pengguna pemilihan suara yang disempurnakan dengan kategori suara dan deskripsi suara terperinci.
Mengaktifkan penyetelan intonasi untuk semua suara neural dalam berbagai bahasa.
Mengotomatiskan lokalisasi antarmuka pengguna berdasarkan bahasa browser.
Mengaktifkan kontrol StyleDegree untuk semua suara zh-CN Neural. Kunjungi alat Pembuatan Konten Audio untuk melihat fitur baru.

Pembaruan untuk pengisi suara zh-CN

Telah memperbarui semua zh-CN suara neural agar mendukung penggunaan bahasa Inggris.
Mengaktifkan semua zh-CN suara neural untuk mendukung penyesuaian intonasi. Alat SSML atau Pembuatan Konten Audio dapat digunakan untuk menyesuaikan intonasi terbaik.
Memperbarui semua zh-CN suara neural berbagai gaya untuk mendukung kontrol StyleDegree. Intensitas emosi (lembut atau kuat) dapat disesuaikan.
Diperbarui zh-CN-YunyeNeural untuk mendukung beberapa gaya yang dapat mengungkapkan emosi yang berbeda.

Rilis November 2020

Bahasa dan suara baru sedang dalam pratinjau

Lima suara dan bahasa baru diperkenalkan ke dalam portofolio teks neural ke ucapan. Mereka adalah: Grace dalam bahasa Malta (Malta), Ona dalam bahasa Lithuania (Lithuania), Anu dalam bahasa Estonia (Estonia), Orla dalam bahasa Irlandia (Irlandia) dan Everita dalam bahasa Latvia (Latvia).
Lima suara baruzh-CN dengan dukungan beberapa gaya dan peran: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan, dan Yunxi.

Suara-suara ini tersedia dalam pratinjau publik di tiga wilayah Azure: EastUS, SouthEastAsia, dan WestEurope.

Teks neural menjadi ucapan Container GA

Dengan Neural Text-to-Speech Container, pengembang dapat menjalankan sintesis ucapan menggunakan suara digital yang paling alami di lingkungan mereka sendiri untuk kebutuhan keamanan dan tata kelola data tertentu. Periksa cara menginstal Kontainer Pidato.

Fitur baru

Suara kustom: memungkinkan pengguna menyalin model suara dari satu wilayah ke wilayah lain; mendukung penangguhan dan melanjutkan fungsionalitas titik akhir. Buka portal Azure di sini.
Dukungan untuk tag keheningan SSML.
Peningkatan kualitas suara TTS secara umum: Meningkatkan akurasi pengucapan setiap kata dalam nb-NO. Mengurangi 53% kesalahan pengucapan.

Baca selengkapnya di blog teknologi ini.

Rilis Oktober 2020

Fitur baru

Jenny mendukung gaya newscast baru. Lihat cara menggunakan gaya berbicara di SSML.
Suara neural ditingkatkan ke vocoder HiFiNet, dengan keakuratan audio yang lebih tinggi dan kecepatan sintesis yang lebih cepat. Ini menguntungkan pelanggan yang skenarionya bergantung pada audio hi-fi atau interaksi panjang, termasuk terjemahan video, buku audio, atau materi pendidikan online. Baca lebih selengkapnya cerita dan dengarkan sampel suara di blog komunitas teknologi kami
Suara kustom & Audio Content Creation Studio dilokalkan ke 17 lokal. Pengguna dapat dengan mudah mengalihkan antarmuka pengguna ke bahasa lokal untuk pengalaman yang lebih bersahabat.
Pembuatan Konten Audio: Menambahkan kontrol tingkatan gaya untuk XiaoxiaoNeural; Menyempurnakan fitur jeda yang disesuaikan untuk menyertakan peningkatan jeda 50ms.

Peningkatan kualitas suara TTS umum

Peningkatan akurasi pengucapan tingkat kata di pl-PL (pengurangan tingkat kesalahan: 51%) dan fi-FI (pengurangan tingkat kesalahan: 58%)
Peningkatan pembacaan kata tunggal dalam skenario kamus. Mengurangi 80% kesalahan pengucapan.
zh-CN-XiaoxiaoNeural: Meningkatkan sentimen/Layanan Pelanggan/Siaran Berita/Kualitas suara gaya Ceria/Marah.
zh-CN: Meningkatkan pengucapan Erhua dan nada ringan serta memperhalus prosodi ruang, yang sangat meningkatkan keterbacaan.

Rilis September 2020

Fitur baru

Teks ke ucapan berbasis neural
- Diperluas untuk mendukung 18 bahasa/lokal baru. Mereka adalah Bulgaria, Ceko, Jerman (Austria), Jerman (Swiss), Yunani, Inggris (Irlandia), Prancis (Swiss), Ibrani, Kroasia, Hungaria, Indonesia, Melayu, Rumania, Slovakia, Slovenia, Tamil, Telugu, dan Vietnam.
- Merilis 14 suara baru untuk memperkaya variasi dalam bahasa yang ada. Lihat daftar bahasa dan suara lengkap.
- Gaya berbicara baru untuk suaraen-US dan zh-CN. Jenny, suara baru dalam bahasa Inggris (AS), mendukung chatbot, layanan pelanggan, dan gaya asisten. 10 gaya bicara baru tersedia dengan suara zh-CN kami, XiaoXiao. Selain itu, teknologi suara neural XiaoXiao mendukung penyetelan StyleDegree. Lihat cara menggunakan gaya berbicara di SSML.
Kontainer: Kontainer Neural Text to Speech dirilis dalam pratinjau publik yang menyediakan 16 suara dalam 14 bahasa. Pelajari selengkapnya tentang cara menggunakan Speech Container untuk neural text-to-speech

Baca pengumuman lengkap pembaruan TTS untuk Ignite 2020

Rilis Agustus 2020

Fitur baru

en-US. AriaNeural bisa terdengar seperti pembaca berita saat membaca berita. Gaya 'newscast-formal' terdengar lebih serius, sementara gaya 'newscast-casual' lebih santai dan informal. Lihat cara menggunakan gaya berbicara di SSML.
Suara kustom: fitur baru dirilis untuk memeriksa kualitas data pelatihan secara otomatis. Saat Anda mengunggah data, sistem akan memeriksa berbagai aspek data audio dan transkrip Anda, serta secara otomatis memperbaiki atau memfilter masalah untuk meningkatkan kualitas model suara. Ini mencakup volume audio Anda, tingkat kebisingan, akurasi pengucapan ucapan, penyelarasan ucapan dengan teks yang dinormalkan, keheningan dalam audio, selain format audio dan skrip.
Pembuatan Konten Audio: serangkaian fitur baru untuk mengaktifkan kemampuan penyetelan suara dan manajemen audio yang lebih kuat.
- Pengucapan: fitur penyetelan pengucapan diperbarui ke set fonem terbaru. Anda dapat memilih elemen fonem yang tepat dari pustaka dan memperbaiki pengucapan kata-kata yang telah Anda pilih.
- Unduh: Fitur "Unduh"/"Ekspor" audio ditingkatkan untuk mendukung pembuatan audio menurut paragraf. Anda dapat mengedit konten dalam file/ SSML yang sama, sambil menghasilkan beberapa output audio. Struktur file "Unduh" juga disempurnakan. Sekarang, Anda dapat dengan mudah mendapatkan semua file audio dalam satu folder.
- Status tugas: Pengalaman pengekspor beberapa berkas ditingkatkan. Ketika Anda mengekspor beberapa file sebelumnya, jika salah satu file gagal, seluruh tugas akan gagal. Namun sekarang, semua file lain akan berhasil diekspor. Laporan tugas diperkaya dengan informasi yang lebih mendetail dan terstruktur. Anda dapat memeriksa log untuk semua file dan kalimat yang gagal dengan laporan sekarang.
- Dokumentasi SSML: ditautkan ke dokumen SSML untuk membantu Anda memeriksa aturan tentang cara menggunakan semua fitur penyetelan.
API Voice List diperbarui untuk menyertakan nama tampilan yang mudah digunakan dan gaya berbicara yang didukung untuk suara saraf.

Peningkatan kualitas suara TTS umum

Mengurangi kesalahan pengucapan tingkat kata % untuk ru-RU (kesalahan berkurang 56%) dan sv-SE (kesalahan berkurang 49%)
Peningkatan kemampuan membaca polifoni pada suara neural sebesar 40%. Contoh kata-kata dengan pelafalan ganda termasuk "baca", "hidup", "konten", "rekam", "objek", dll.
Meningkatkan nada pertanyaan agar lebih alami dalam fr-FR. Peningkatan MOS (Skor Opini Rata-Rata): +0.28
Memperbarui vocoder untuk suara berikut, dengan peningkatan keakuratan dan kecepatan performa keseluruhan sebesar 40%.

Lokasi Voice

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Lokasi	Voice
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Perbaikan bug

Memperbaiki sejumlah bug dengan alat Pembuatan Konten Audio
- Mengatasi masalah dengan pembaruan otomatis.
- Memperbaiki masalah terkait gaya suara di zh-CN di wilayah Asia Tenggara.
- Memperbaiki masalah stabilitas, termasuk kesalahan ekspor yang disebabkan oleh tag 'break', serta kesalahan dalam tanda baca.

Rilis Juni 2025

Model penilaian pengucapan yang ditingkatkan

Kami telah meluncurkan peningkatan signifikan ke model penilaian pengucapan untuk ta-IN dan ms-MY. Anda akan melihat lompatan nyata dalam Pearson Correlation Coefficients (PCC), yang berarti evaluasi yang lebih tepat dan dapat diandalkan.

Model yang diperbarui ini siap digunakan melalui API dan taman bermain Azure AI Foundry, seperti sebelumnya.

Model ucapan ke teks yang disempurnakan

Akurasi model ucapan ke teks dalam transkripsi cepat untuk de-DE, en-US, en-GB, es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, dan zh-CN ditingkatkan masing-masing 10%-25% persen, terutama dengan peningkatan readability dan pengenalan pada entitas.

Rilis Mei 2025

Model ucapan ke teks yang disempurnakan

Akurasi model ucapan ke teks untuk ta-IN, te-IN, en-IN, dan hu-HU lokal masing-masing ditingkatkan sebesar 5-10 persen. Kami juga memperkirakan bahwa ada pengurangan sebanyak 20 kali dalam kata-kata hantu untuk model ta-IN dan te-IN.

API transkripsi cepat - Transkripsi ucapan multibahasa

Untuk mentranskripsikan konten multibahasa secara terus menerus dan akurat dalam file audio, sekarang Anda dapat menggunakan model multibahasa terbaru tanpa menentukan kode lokal melalui API transkripsi cepat. Untuk informasi selengkapnya, lihat transkripsi multibahasa dalam transkripsi cepat.

Lokal baru yang didukung dalam Transkripsi Cepat

Transkripsi cepat sekarang mendukung wilayah tambahan termasuk fi-FI, he-IL, id-ID, pl-PL, pt-PT, sv-SE, dll. Untuk informasi selengkapnya, lihat bahasa yang didukung untuk ucapan ke teks.

Rilis April 2025

Penilaian pengucapan

Kami sangat senang mengumumkan peningkatan substansial pada model penilaian pengucapan kami untuk lokal ini: de-DE, , es-MXit-IT, ja-JP, , ko-KRdan pt-BR. Peningkatan ini membawa kemajuan signifikan dalam Koefisien Korelasi Pearson (PCC), memastikan penilaian yang lebih akurat dan andal.

Seperti sebelumnya, model dapat diakses melalui playground API dan Azure AI Foundry.

Rilis Maret 2025

Transkripsi percakapan dengan pemisahan saluran ganda (telah dihentikan)

Mulai 28 Maret 2025, diarisasi multisaluran transkripsi percakapan akan dihapuskan.

Untuk terus menggunakan ucapan ke teks dengan diarisasi, gunakan fitur berikut sebagai gantinya:

Fitur ucapan ke teks ini hanya mendukung diarisasi untuk audio saluran tunggal. Audio multisaluran yang digunakan dengan transkripsi percakapan dan diarisasi multisaluran tidak didukung.

Rilis Januari 2025

Fitur Baru - Segmentasi Semantik

Mengumumkan rilis fitur baru: Segmentasi Semantik. Fitur ini mengintegrasikan modul tanda baca di dalam dekoder yang menyegmentasikan audio berdasarkan informasi semantik, menghasilkan batas segmentasi yang lebih logis dan tepat. Keuntungan Utama:

Akurasi Segmentasi yang Ditingkatkan: Dengan menggunakan informasi semantik, fitur ini secara signifikan mengurangi instans segmen panjang yang disebabkan oleh tidak adanya jeda dalam audio input.
Mengurangi latensi yang disebabkan oleh kurang segmentasi: Latensi keseluruhan untuk pengenalan ucapan berkurang, dengan pengurangan 40%-60% dalam panjang 5% segmen terpanjang.
Mitigasi Segmentasi Berlebihan: Fitur ini juga membantu mencegah segmentasi berlebih dengan menunda segmentasi ketika kalimat yang lebih baik dapat terbentuk.

Lokal yang Didukung:

Bahasa Inggris (en-US, en-GB)
Cina (zh-CN, zh-HK)
Bahasa Jepang (ja-JP)
Bahasa Korea (ko-KR)
Bahasa Jerman (de-DE)
Bahasa Prancis (fr-FR)
Bahasa Italia (it-IT)
Spanyol (es-ES, es-MX)
Bahasa Hindi (hi-IN)
Bahasa Portugis (pt-BR, pt-PT)
Turki (tr-TR)
Rusia (ru-RU)
Thai (th-TH)
Indonesia (id-ID)

Untuk detail implementasi, lihat dokumentasi: Cara Mengenali Ucapan di bagian "Segmentasi Semantik".

Pengubahan ucapan menjadi teks secara langsung - Peluncuran model bahasa Inggris yang baru

Mengumumkan rilis model ucapan bahasa Inggris terbaru (en-US, en-CA), yang membawa peningkatan substansial di berbagai metrik performa. Di bawah ini adalah sorotan utama dari rilis ini:

Peningkatan Aksesibilitas: Mencapai pengurangan 36% dalam Word Error Rate (WER) pada set pengujian aksesibilitas internal Microsoft, membuat pengenalan ucapan lebih akurat dan andal untuk mengenali ucapan dari individu dengan disabilitas ucapan.
Pengurangan Kata Hantu: Pengurangan 90% secara luar biasa terhadap kata-kata hantu pada set pengembangan kata hantu, dan pengurangan berkisar dari 63% hingga 100% di seluruh himpunan data kata hantu lainnya, secara signifikan meningkatkan kejelasan dan akurasi transkripsi.

Model baru juga meningkatkan performa keseluruhan, termasuk pengenalan entitas dan pengenalan huruf ejaan yang lebih baik.

Kemajuan ini diharapkan dapat memberikan pengalaman yang lebih akurat, efisien, dan memuaskan bagi semua pengguna. Model baru tersedia melalui API dan playground Azure AI Foundry. Umpan balik didorong untuk lebih menyempurnakan kemampuannya.

Rilis November 2024

REST API pengubah ucapan ke teks versi 2024-11-15

API REST pengenalan ucapan menjadi teks versi 2024-11-15 dirilis untuk tersedia secara umum. Untuk informasi selengkapnya, lihat dokumen referensi REST API ucapan ke teks dan panduan REST API ucapan ke teks.

Catatan

REST API pengubah ucapan ke teks versi 2024-05-15-preview tidak didukung lagi.

Transkripsi cepat (GA)

Transkripsi instan sekarang umumnya tersedia melalui REST API ucapan ke teks versi 2024-11-15. Transkripsi cepat memungkinkan Anda mentranskripsikan file audio ke teks secara akurat dan sinkron, dengan faktor kecepatan tinggi. Ini dapat mentranskripsikan audio lebih cepat daripada durasi audio yang sebenarnya. Untuk informasi selengkapnya, lihat panduan API transkripsi cepat.

Rilis Oktober 2024

Konversi ucapan bilingual waktu nyata ke teks

Peningkatan signifikan telah dilakukan kualitas pengenalan istilah Spanyol pendek melalui es-US model dua bahasa. Model ini dua bahasa dan juga mendukung bahasa Inggris. Kualitas pengenalan bahasa Inggris juga ditingkatkan.

Terjemahan video (Pratinjau)

API terjemahan video tersedia sekarang dalam pratinjau publik. Untuk informasi selengkapnya, lihat Cara menggunakan terjemahan video.

Rilis September 2024

Ucapan waktu nyata ke teks

Ucapan ke teks secara real-time telah merilis model baru, dengan kualitas yang lebih baik, untuk bahasa berikut.

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

Transkripsi cepat (Versi Pratinjau)

Transkripsi cepat sekarang mendukung diarisasi untuk mengenali dan memisahkan beberapa speaker pada file audio saluran mono. Untuk informasi selengkapnya, lihat panduan API transkripsi cepat.

Rilis Agustus 2024

Pembelajaran bahasa (Pratinjau)

Pembelajaran bahasa kini tersedia untuk pratinjau publik. Pembelajaran bahasa interaktif dapat membuat pengalaman belajar Anda lebih menarik dan efektif. Untuk informasi selengkapnya, lihat Pembelajaran bahasa interaktif dengan penilaian pengucapan.

Penilaian pengucapan

Penilaian pengucapan ucapan sekarang mendukung 33 bahasa yang umum tersedia, dan setiap bahasa tersedia di semua wilayah Ucapan ke Teks. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk penilaian Pengucapan.

Bahasa	Lokal (BCP-47)
Bahasa Arab (Mesir)	`ar-EG`
Bahasa Arab (Arab Saudi)	`ar-SA`
Katalan	`ca-ES`
Bahasa Kanton (Tradisional)	`zh-HK`
Bahasa Tionghoa (Mandarin, Sederhana)	`zh-CN`
Bahasa Cina (Mandarin Taiwan, Tradisional)	`zh-TW`
Bahasa Denmark (Denmark)	`da-DK`
Bahasa Belanda (Belanda)	`nl-NL`
Inggris (Australia)	`en-AU`
Inggris (Kanada)	`en-CA`
Inggris (India)	`en-IN`
Inggris (Kerajaan Inggris Bersatu)	`en-GB`
Inggris (Amerika Serikat)	`en-US`
Bahasa Finlandia (Finlandia)	`fi-FI`
Prancis (Kanada)	`fr-CA`
Bahasa Prancis (Prancis)	`fr-FR`
Bahasa Jerman (Jerman)	`de-DE`
Hindi (India)	`hi-IN`
Italia (Italia)	`it-IT`
Bahasa Jepang (Jepang)	`ja-JP`
Bahasa Korea (Korea)	`ko-KR`
Melayu (Malaysia)	`ms-MY`
Bahasa Norwegia Bokmål (Norwegia)	`nb-NO`
Bahasa Polandia (Poland)	`pl-PL`
Portugis (Brasil)	`pt-BR`
Portugis (Portugal)	`pt-PT`
Rusia (Rusia)	`ru-RU`
Spanyol (Meksiko)	`es-MX`
Spanyol (Spanyol)	`es-ES`
Bahasa Swedia (Swedia)	`sv-SE`
Tamil (India)	`ta-IN`
Bahasa Thai (Thailand)	`th-TH`
Bahasa Vietnam (Vietnam)	`vi-VN`

Rilis Juli 2024

API Transkripsi Cepat (Pratinjau)

Transkripsi cepat sekarang tersedia dalam pratinjau terbuka. Transkripsi cepat memungkinkan Anda mentranskripsikan file audio ke teks secara akurat dan sinkron, dengan faktor kecepatan tinggi. Ini dapat mentranskripsikan audio lebih cepat daripada durasi audio yang sebenarnya. Untuk informasi selengkapnya, lihat panduan API transkripsi cepat.

Tips

Cobalah transkripsi cepat di portal Azure AI Foundry.

Rilis Juni 2024

Ketersediaan umum REST API ucapan ke teks v3.2

REST API Ucapan ke teks versi 3.2 sekarang tersedia secara umum. Untuk informasi selengkapnya tentang Speech to text REST API v3.2, lihat dokumentasi referensi Speech to text REST API v3.2 dan panduan Speech to text REST API.

Catatan

Versi pratinjau 3.2-preview.1 dan 3.2-preview.2 dihentikan sejak September 2024.

Speech to text REST API v3.1 akan dihentikan pada tanggal yang akan diumumkan kemudian. REST API ucapan ke teks v3.0 akan dihentikan pada 31 Maret 2026. Untuk informasi selengkapnya tentang peningkatan, lihat panduan migrasi Ucapan ke teks REST API v3.0 ke v3.1 dan v3.1 ke v3.2 .

Rilis Mei 2024

Terjemahan video (Pratinjau)

Terjemahan video sekarang tersedia dalam pratinjau publik. Terjemahan video adalah fitur di Azure AI Speech yang memungkinkan Anda menerjemahkan dan menghasilkan video dengan lancar dalam beberapa bahasa secara otomatis. Fitur ini dirancang untuk membantu Anda melokalisasi konten video Anda untuk melayani beragam audiens di seluruh dunia. Anda dapat secara efisien membuat video imersif dan terlokalisasi di berbagai kasus penggunaan seperti vlog, pendidikan, berita, pelatihan perusahaan, periklanan, film, acara TV, dan banyak lagi. Untuk informasi selengkapnya, lihat gambaran umum terjemahan video.

Penilaian Pengucapan

Penilaian Pengucapan Ucapan sekarang mendukung 24 bahasa yang tersedia secara umum (dengan satu bahasa baru ditambahkan), dengan 7 bahasa lagi tersedia dalam pratinjau publik. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.

Rilis bulan April 2024

Terjemahan ucapan multibahasa otomatis (Pratinjau)

Terjemahan otomatis untuk ucapan dalam berbagai bahasa tersedia dalam pratinjau publik. Fitur inovatif ini merevolusi cara mengatasi hambatan bahasa, menawarkan kemampuan yang tak tertandingi untuk komunikasi yang mulus di berbagai lanskap linguistik.

Sorotan Utama

Bahasa input yang tidak ditentukan: Terjemahan ucapan multibahasa dapat menerima audio dalam berbagai bahasa, dan tidak perlu menentukan bahasa input yang diharapkan. Ini menjadikannya fitur yang sangat berharga untuk memahami dan berkolaborasi di seluruh konteks global tanpa harus melakukan pengaturan awal.
Pengalihan bahasa: Terjemahan ucapan multibahasa memungkinkan beberapa bahasa diucapkan selama sesi yang sama, dan semuanya diterjemahkan ke dalam bahasa target yang sama. Tidak perlu memulai ulang sesi saat bahasa input berubah atau saat melakukan tindakan lain yang Anda lakukan.

Cara kerjanya

Penerjemah perjalanan: terjemahan ucapan multibahasa dapat meningkatkan pengalaman wisatawan yang mengunjungi tujuan asing dengan memberi mereka informasi dan bantuan dalam bahasa pilihan mereka. Layanan pramutamu hotel, tur berpemandu, dan pusat pengunjung dapat memanfaatkan teknologi ini untuk memenuhi kebutuhan linguistik yang beragam.
Konferensi internasional: Terjemahan ucapan multibahasa dapat memfasilitasi komunikasi di antara peserta dari berbagai wilayah yang mungkin berbicara berbagai bahasa menggunakan keterangan terjemahan langsung. Peserta dapat berbicara dalam bahasa asli mereka tanpa perlu menentukannya, memastikan pemahaman dan kolaborasi yang lancar.
Pertemuan pendidikan: Di ruang kelas multi-budaya atau lingkungan pembelajaran online, terjemahan ucapan multibahasa dapat mendukung keragaman bahasa di antara siswa dan guru. Ini memungkinkan komunikasi dan partisipasi yang lancar tanpa perlu menentukan bahasa setiap siswa atau instruktur.

Cara mengakses

Untuk pengenalan terperinci, kunjungi Gambaran Umum Terjemahan Ucapan. Selain itu, Anda dapat merujuk ke sampel kode tentang cara menerjemahkan ucapan. Fitur baru ini didukung penuh oleh semua versi SDK dari 1.37.0 dan seterusnya.

Ubah ucapan secara real-time menjadi teks dengan diarisisasi (GA)

Konversi ucapan waktu nyata ke teks dengan diarisasi sudah tersedia secara umum.

Anda dapat membuat aplikasi ucapan ke teks yang menggunakan diarisasi untuk membedakan antara berbagai pembicara yang berpartisipasi dalam percakapan. Untuk informasi selengkapnya tentang diarisasi real-time, lihat panduan cepat diarisasi real-time.

Pembaruan model ucapan ke teks

Transkripsi Ucapan ke Teks Secara Real-Time telah merilis model baru dengan kemampuan dwibahasa. Model ini en-IN sekarang mendukung skenario dua bahasa Inggris dan Hindi dan menawarkan akurasi yang ditingkatkan. Lokal Arab (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) sekarang dilengkapi dengan dukungan dua bahasa untuk bahasa Inggris, akurasi yang ditingkatkan, dan dukungan untuk pusat panggilan.

Transkripsi batch menyediakan model dengan arsitektur baru untuk daerah ini: es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, dan zh-CN. Model-model ini secara signifikan meningkatkan keterbacaan dan pengenalan entitas.

Rilis Maret 2024

Ketersediaan umum Whisper (GA)

Model Whisper speech to text dengan Azure AI Speech kini tersedia secara umum.

Lihat Apa model Whisper? untuk mempelajari selengkapnya tentang kapan menggunakan Azure AI Speech vs. Azure OpenAI di Model Azure AI Foundry.

Rilis Februari 2024

Penilaian Pengucapan

Penilaian Pengucapan Ucapan sekarang mendukung 23 bahasa yang tersedia secara umum (dengan 5 bahasa baru ditambahkan), dengan 3 bahasa lainnya tersedia dalam pratinjau publik. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.

Daftar frasa

Menambahkan dukungan daftar frasa untuk lokal berikut: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Rilis November 2023

Memperkenalkan Pemodelan Ucapan Dua Bahasa!

Kami sangat senang untuk meluncurkan tambahan terobosan untuk pemodelan ucapan real-time kami—Pemodelan Ucapan Bilingual. Peningkatan signifikan ini memungkinkan model ucapan kami untuk dengan mulus mendukung pasangan bahasa dwibahasa, seperti bahasa Inggris dan Spanyol, serta bahasa Inggris dan Prancis. Fitur ini memberdayakan pengguna untuk dengan mudah beralih antar bahasa selama interaksi real-time, menandai momen penting dalam komitmen kami untuk meningkatkan pengalaman komunikasi.

Sorotan Utama:

Dukungan Dwibahasa: Dengan rilis terbaru kami, pengguna dapat beralih dengan mulus antara bahasa Inggris dan Spanyol atau antara bahasa Inggris dan Prancis selama interaksi ucapan real-time. Fungsionalitas ini disesuaikan untuk mengakomodasi penutur dua bahasa yang sering bertransisi antara kedua bahasa ini.
Pengalaman Pengguna yang Ditingkatkan: Pembicara dua bahasa, baik di tempat kerja, rumah, atau di berbagai pengaturan komunitas, akan menemukan fitur ini sangat bermanfaat. Kemampuan model untuk memahami dan menanggapi bahasa Inggris dan Spanyol secara real time membuka kemungkinan baru untuk komunikasi yang efektif dan lancar.

Cara Menggunakan:

Pilih es-US (Spanyol dan Inggris) atau fr-CA (Prancis dan Inggris) saat Anda memanggil Speech Service API atau mencobanya di Speech Studio. Jangan ragu untuk berbicara dalam salah satu bahasa atau mencampurnya—model ini dirancang untuk beradaptasi secara dinamis, memberikan respons yang akurat dan sadar konteks dalam kedua bahasa.

Saatnya meningkatkan permainan komunikasi Anda dengan rilis fitur terbaru kami—komunikasi multibahasa yang mulus di ujung jari Anda!

Pembaruan model pengubah Ucapan menjadi Teks

Kami senang memperkenalkan pembaruan yang signifikan pada model ucapan kami, menjanjikan akurasi yang ditingkatkan, peningkatan keterbacaan, dan pengenalan entitas yang disempurnakan. Peningkatan ini dilengkapi dengan struktur baru yang kuat, didukung oleh himpunan data pelatihan yang diperluas, memastikan kemajuan yang ditandai dalam performa keseluruhan. Ini termasuk model yang baru dirilis untuk en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE, dan he-IL.

Sorotan:

Akurasi yang lebih baik dengan struktur model baru: Struktur model yang ditentukan ulang, ditambah dengan himpunan data pelatihan yang lebih kaya, meningkatkan tingkat akurasi, menjanjikan output ucapan yang lebih tepat.
Peningkatan keterbacaan: Model terbaru kami menghadirkan peningkatan besar pada keterbacaan, meningkatkan koherensi dan kejelasan konten lisan.
Pengenalan entitas lanjutan: Pengenalan entitas menerima peningkatan yang substansial, menghasilkan hasil yang lebih akurat dan lebih bernuansa.

Dampak potensial: Terlepas dari kemajuan ini, sangat penting untuk memperhatikan potensi dampak:

Fitur Batas Waktu Keheningan Kustom: Pengguna yang menggunakan batas waktu keheningan kustom, terutama dengan pengaturan rendah, mungkin mengalami segmentasi berlebihan dan potensi kelalaian frasa kata tunggal.
Model baru mungkin menunjukkan masalah kompatibilitas dengan fitur Awalan kata kunci, dan pengguna disarankan untuk menilai performanya dalam aplikasi spesifik mereka.
Pengurangan kata atau frasa tidak lancar: Pengguna mungkin melihat pengurangan kata atau frasa tidak lancar seperti "um" atau "uh" dalam output ucapan.
Ketidakakuratan dalam durasi tanda waktu kata: Beberapa kata disfluensi mungkin memperlihatkan ketidakakuratan dalam durasi tanda waktu, memerlukan perhatian dalam aplikasi yang bergantung pada ketepatan waktu.
Varian distribusi skor keyakinan: Pengguna yang mengandalkan skor keyakinan dan ambang batas terkait harus menyadari potensi variasi dalam distribusi, membutuhkan penyesuaian untuk performa optimal.
Peningkatan akurasi fitur daftar frasa mungkin dipengaruhi oleh kesalahan pengenalan frasa tertentu.

Kami mendorong Anda untuk mengeksplorasi peningkatan ini dan mempertimbangkan potensi masalah untuk transisi yang mulus, dan seperti biasa, umpan balik Anda berperan penting dalam menyempurnakan dan memajukan layanan kami.

Penilaian Pengucapan

Penilaian Pengucapan Ucapan sekarang mendukung 18 bahasa yang tersedia secara umum, dengan enam bahasa lagi tersedia dalam pratinjau publik. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.
Kami sangat senang mengumumkan bahwa Penilaian Pengucapan memperkenalkan fitur baru mulai 1 November 2023: Prosody, Tata Bahasa, Kosakata, dan Topik. Penyempurnaan ini bertujuan untuk memberikan pengalaman pembelajaran bahasa yang lebih komprehensif untuk penilaian membaca dan berbicara. Tingkatkan ke SDK versi 1.35.0 atau yang lebih baru untuk menjelajahi detail lebih lanjut dalam Cara menggunakan penilaian pengucapan dan penilaian Pengucapan di Speech Studio.

Rilis September 2023

Pratinjau publik Whisper

Azure AI Speech sekarang mendukung model Whisper OpenAI melalui API transkripsi batch. Untuk mempelajari lebih lanjut, lihat panduan Membuat Transkripsi Batch.

Catatan

Azure OpenAI juga mendukung model Whisper dari OpenAI untuk pengubahan ucapan menjadi teks dengan API REST yang bersifat sinkron. Untuk mempelajari lebih lanjut, lihat panduan memulai cepat.

Lihat Apa model Whisper? untuk mempelajari selengkapnya tentang kapan menggunakan Azure AI Speech vs. Azure OpenAI.

Pratinjau publik API REST konversi ucapan ke teks v3.2

API REST pengubahan ucapan ke teks v3.2 tersedia dalam versi pratinjau. API Ucapan ke Teks v3.1 sekarang umumnya tersedia. REST API ucapan ke teks v3.0 akan dihentikan pada 31 Maret 2026. Untuk informasi selengkapnya, lihat panduan migrasi Ucapan ke teks REST API v3.0 ke v3.1 dan v3.1 ke v3.2 .

Rilis Agustus 2023

Penambahan Lokalisasi Baru untuk Fitur Pengenalan Ucapan ke Teks.

Dukungan konversi ucapan ke teks mencakup dua lokasi baru seperti yang diperlihatkan dalam tabel berikut. Lihat daftar bahasa lengkap di sini.

Lokasi	Bahasa
`pa-IN`	Punjabi (India)
`ur-IN`	Urdu (India)

Penilaian Pengucapan

Penilaian Pengucapan sekarang mendukung 3 bahasa tambahan yang sudah tersedia dalam bahasa Inggris (Kanada), Inggris (India), dan Prancis (Kanada), dengan 3 bahasa tambahan tersedia dalam versi pratinjau. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.

Rilis Mei 2023

Penilaian Pengucapan

Penilaian Pengucapan sekarang mendukung 3 bahasa tambahan yang tersedia secara umum: Jerman (Jerman), Jepang (Jepang), dan Spanyol (Meksiko), dengan 4 bahasa tambahan yang tersedia dalam pratinjau. Untuk informasi selengkapnya, lihat daftar bahasa lengkap untuk Penilaian Pengucapan.
Anda sekarang dapat menggunakan tingkat komitmen konversi Ucapan ke Teks standar untuk penilaian pengucapan di seluruh wilayah publik. Jika Anda membeli tingkat komitmen untuk Ucapan ke teks standar, pengeluaran untuk penilaian pengucapan akan berkontribusi untuk memenuhi komitmen. Lihat penetapan harga tingkat komitmen.

Rilis Februari 2023

Penilaian Pengucapan

Penilaian Pengucapan sekarang mendukung 5 bahasa tambahan yang umumnya tersedia dalam bahasa Inggris (Inggris Raya), Inggris (Australia), Prancis (Prancis), Spanyol (Spanyol), dan bahasa Mandarin (Sederhana), dengan bahasa lain yang tersedia dalam pratinjau.
Menambahkan kode sampel yang menunjukkan cara menggunakan Penilaian Pengucapan dalam mode streaming di aplikasi Anda sendiri.
- C#: Lihat kode sampel.
- C++: Lihat kode sampel.
- java: Lihat contoh kode.
- javascript: Lihat sampel kode.
- Objective-C: Lihat sampel kode.
- Python: Lihat kode sampel.
- Swift: Lihat sampel kode.

Ucapan kustom

Dukungan untuk audio dan transkrip berlabel manusia ditambahkan untuk lokasi de-AT.

Rilis Januari 2023

Ucapan kustom

Dukungan untuk audio + transkrip berlabel manusia ditambahkan untuk lokal tambahan: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE, dan ja-JP.

Dukungan untuk adaptasi teks terstruktur ditambahkan untuk lokal de-AT.

Rilis Desember 2022

REST API pengubah suara ke teks

REST API Ucapan ke teks versi 3.1 umumnya tersedia. Versi 3.0 dari API REST Ucapan ke Teks akan dihentikan. Untuk informasi selengkapnya tentang cara bermigrasi, lihat panduan.

Rilis Oktober 2022

Locale baru untuk pengubahan ucapan ke teks

Dukungan untuk bahasa Malayalam (India) dengan lokalisasi ml-IN telah ditambahkan. Lihat daftar bahasa lengkap di sini.

Rilis Juli 2022

Penambahan Lokalisasi Baru untuk Fitur Pengenalan Ucapan ke Teks.

Menambahkan 7 lokal baru seperti yang ditunjukkan pada tabel berikut. Lihat daftar bahasa lengkap di sini.

Lokasi	Bahasa
`bs-BA`	Bosnia (Bosnia dan Herzegovina)
`yue-CN`	Bahasa Kanton (Tionghoa, Aksara Sederhana)
`zh-CN-sichuan`	Tiongkok (Mandarin Barat Daya, Sederhana)
`wuu-CN`	Bahasa Tionghoa (Wu, Aksara Sederhana)
`ps-AF`	Pashto (Afganistan)
`so-SO`	Somalia (Somalia)
`cy-GB`	Welsh (Inggris Raya)

Rilis Juni 2022

Penambahan Lokalisasi Baru untuk Fitur Pengenalan Ucapan ke Teks.

Menambahkan 10 lokal baru seperti yang diperlihatkan dalam tabel berikut. Lihat daftar bahasa lengkap di sini.

Lokasi	Bahasa
`sq-AL`	Bahasa Albania (Albania)
`hy-AM`	Bahasa Armenia (Armenia)
`az-AZ`	Bahasa Azerbaijan (Azerbaijan)
`eu-ES`	Bahasa Basque
`gl-ES`	Galisia
`ka-GE`	Bahasa Georgia (Georgia)
`it-CH`	Italia (Swiss)
`kk-KZ`	Bahasa Kazak (Kazakhstan)
`mn-MN`	Bahasa Mongol (Mongolia)
`ne-NP`	Bahasa Nepal (Nepal)

Rilis April 2022

Penambahan Lokalisasi Baru untuk Fitur Pengenalan Ucapan ke Teks.

Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokasi	Bahasa
`bn-IN`	Bengali (India)

Rilis Januari 2022

Penambahan Lokalisasi Baru untuk Fitur Pengenalan Ucapan ke Teks.

Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokasi	Bahasa
`af-ZA`	Afrikaans (Afrika Selatan)
`am-ET`	Amharis (Ethiopia)
`de-CH`	Jerman (Swiss)
`fr-BE`	Prancis (Belgia)
`is-IS`	Islandia (Islandia)
`jv-ID`	Bahasa Jawa (Indonesia)
`km-KH`	Khmer (Kamboja)
`kn-IN`	Kannada (India)
`lo-LA`	Lao (Laos)
`mk-MK`	Makedonia (Makedonia Utara)
`my-MM`	Burma (Myanmar)
`nl-BE`	Belanda (Belgia)
`si-LK`	Bahasa Sinhala (Sri Lanka)
`sr-RS`	Bahasa Serbia (Serbia)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Ukraina (Ukraina)
`uz-UZ`	Bahasa Uzbek (Uzbekistan)
`zu-ZA`	Zulu (Afrika Selatan)

Rilis Juli 2021

Penambahan Lokalisasi Baru untuk Fitur Pengenalan Ucapan ke Teks.

Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokasi	Bahasa
`ar-DZ`	Bahasa Arab (Aljazair)
`ar-LY`	Bahasa Arab (Libya)
`ar-MA`	Bahasa Arab (Maroko)
`ar-TN`	Bahasa Arab (Tunisia)
`ar-YE`	Bahasa Arab (Yaman)
`bg-BG`	Bahasa Bulgaria (Bulgaria)
`el-GR`	Yunani (Yunani)
`et-EE`	Bahasa Estonia (Estonia)
`fa-IR`	Persia (Iran)
`ga-IE`	Irlandia (Irlandia)
`hr-HR`	Bahasa Kroasia (Kroasia)
`lt-LT`	Lituania (bahasa Lituania)
`lv-LV`	Latvia (bahasa Latvia)
`mt-MT`	Bahasa Malta (Malta)
`ro-RO`	Bahasa Rumania (Rumania)
`sk-SK`	Slowakia (Slowakia)
`sl-SI`	Bahasa Slovenia (Slovenia)
`sw-KE`	Swahili (Kenya)

Rilis Januari 2021

Penambahan Lokalisasi Baru untuk Fitur Pengenalan Ucapan ke Teks.

Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokasi	Bahasa
`ar-AE`	Bahasa Arab (Uni Emirat Arab)
`ar-IL`	Arabik (Israel)
`ar-IQ`	Arab (Irak)
`ar-OM`	Bahasa Arab (Oman)
`ar-PS`	Arab (Otoritas Nasional Palestina)
`de-AT`	Jerman (Austria)
`en-GH`	Inggris (Ghana)
`en-KE`	Inggris (Kenya)
`en-NG`	Inggris (Nigeria)
`en-TZ`	Inggris (Tanzania)
`es-GQ`	Spanyol (Guinea Khatulistiwa)
`fil-PH`	Filipino (Filipina)
`fr-CH`	Bahasa Prancis (Swiss)
`he-IL`	Ibrani (Israel)
`id-ID`	Bahasa Indonesia (Indonesia)
`ms-MY`	Melayu (Malaysia)
`vi-VN`	Bahasa Vietnam (Vietnam)

Rilis Agustus 2020

Lokasi baru untuk fitur ucapan ke teks

Pengenalan ucapan ke teks merilis 26 locale baru pada bulan Agustus: 2 bahasa Eropa cs-CZ serta hu-HU, 5 locale Inggris, dan 19 locale Spanyol yang mencakup sebagian besar negara/wilayah di Amerika Selatan. Di bawah ini adalah daftar lokal baru. Lihat daftar bahasa lengkap di sini.

Lokasi	Bahasa
`cs-CZ`	Ceko (Republik Ceko)
`en-HK`	Inggris (Wilayah Administratif Khusus Hong Kong)
`en-IE`	Inggris (Irlandia)
`en-PH`	Bahasa Inggris (Filipina)
`en-SG`	Inggris (Singapura)
`en-ZA`	Inggris (Afrika Selatan)
`es-AR`	Bahasa Spanyol (Argentina)
`es-BO`	Bahasa Spanyol (Bolivia)
`es-CL`	Bahasa Spanyol (Chili)
`es-CO`	Bahasa Spanyol (Kolombia)
`es-CR`	Bahasa Spanyol (Kosta Rika)
`es-CU`	Bahasa Spanyol (Kuba)
`es-DO`	Bahasa Spanyol (Republik Dominika)
`es-EC`	Bahasa Spanyol (Ekuador)
`es-GT`	Bahasa Spanyol (Guatemala)
`es-HN`	Bahasa Spanyol (Honduras)
`es-NI`	Bahasa Spanyol (Nikaragua)
`es-PA`	Bahasa Spanyol (Panama)
`es-PE`	Bahasa Spanyol (Peru)
`es-PR`	Bahasa Spanyol (Puerto Riko)
`es-PY`	Bahasa Spanyol (Paraguay)
`es-SV`	Bahasa Spanyol (El Salvador)
`es-US`	Bahasa Spanyol (AS)
`es-UY`	Bahasa Spanyol (Uruguay)
`es-VE`	Bahasa Spanyol (Venezuela)
`hu-HU`	Bahasa Hungaria (Hungaria)

Rilis Juni 2025

Teks neural ke ucapan 3.11.0

Merilis teks neural ke ucapan versi 3.11.0.

Menambahkan dukungan untuk suara neural baru: de-DE-SeraphinaMultilingualNeural, es-ES-XimenaMultilingualNeural, fi-FI-SelmaNeural, nb-NO-FinnNeural.
Menambahkan dukungan untuk leksikon kustom multibahasa.

Rilis Mei 2025

Tambahkan dukungan untuk versi model terbaru:

Teks neural ke suara 3.10.0

Untuk teks ke suara:

Memperbarui mesin backend dan frontend teks ke suara ke versi terbaru.
Menambahkan dukungan untuk leksikon kustom multibahasa.
Meningkatkan fungsionalitas pemeriksaan kesehatan. Titik akhir pemeriksaan kesehatan kini ada di /synthesize/health. Ketika layanan sehat, titik akhir ini mengembalikan status HTTP 200; jika layanan tidak sehat, layanan mengembalikan status HTTP 503.
Memperbarui gambar dasar ke AspNet 8.0.16 untuk mengatasi kerentanan keamanan dari Pembaruan Keamanan Microsoft ASP.NET Core Maret/April 2025.

Rilis Maret 2025

Tambahkan dukungan untuk versi model terbaru:

Teks neural ke ucapan 3.9.0
Ucapan ke teks 5.0.1 (Pratinjau)
Ucapan kustom ke teks 5.0.1 (Pratinjau)

Untuk ucapan ke teks dan ucapan kustom ke teks, fitur berikut disertakan:

Dukungan untuk model konversi ucapan ke teks yang baru
Perubahan sistem operasi ke Azure Linux 3.0
Dukungan untuk lokal baru: ar-dz, as-in, es-gq or-in, pa-in dan ur-in
Pembaruan dekoder
Kemampuan untuk menggunakan model kustom yang lebih baru (2023+) dalam kontainer

Untuk konversi teks ke suara, tambahkan dukungan untuk suara neural baru: en-GB-OliviaNeural, en-US-ChristopherNeural dan nl-NL-FennaNeural.

Rilis Februari 2025

Tambahkan dukungan untuk versi model terbaru:

Identifikasi bahasa ucapan 1.18.0
Teks Neural untuk Ucapan 3.7.0
Konversi Ucapan ke Teks 4.12.0
Konversi Ucapan Kustom ke Teks 4.12.0

Berikut adalah sorotan dari rilis:

Pembaruan fitur	Ucapan menjadi teks	Pidato kustom menjadi teks	Teks ke ucapan berbasis neural	Identifikasi bahasa Ucapan
Perbaikan kerentanan	✅	✅	✅	✅
Migrasi OS dari Ubuntu 20.04 ke Ubuntu 22.04	✅	✅	✅	✅
Lokal Baru: ar-ly, fr-be, nl-be dan uz-uz	✅	✅
Paket nuget yang diperbarui, versi Go	✅	✅
Menambahkan paralelisasi unduhan model untuk mengurangi waktu pengunduhan model	✅	✅	✅

Rilis Oktober 2024

Tambahkan dukungan untuk versi model terbaru:

Identifikasi bahasa ucapan 1.16.0
Ubah teks neural menjadi ucapan 3.5.0
- Membuat en-us-ariacpuneural alias ke en-us-jessacpuneural
- Perbarui versi mesin pengolah belakang teks ke ucapan
Ucapan ke teks 4.10.0
- Memulihkan dukungan untuk lokal uk-UA
- Perbaiki pengaturan keheningan agar berfungsi dengan keheningan dalam audio dalam waktu lama
- Ganti model yang tidak digunakan lagi: cs-CZ, , da-DK, en-GB, fr-CAhu-HU, it-CH, , tr-TRzh-CN-sichuan
Pengubahan ucapan kustom menjadi teks 4.10.0

Rilis pada September 2024

Tambahkan dukungan untuk versi model terbaru:

Identifikasi bahasa ucapan 1.15.0
- Mengurangi Kerentanan
Neural teks ke ucapan 3.4.0
- Suara baru: en-us-andrewmultilingualneural, , en-us-jessaneurales-us-alonsoneural, es-us-palomaneural,it-it-isabellamultilingualneural
- Mengurangi Kerentanan
Alih Suara ke Teks 4.9.0
- Lokal Baru: ar-YE, , af-ZAam-ET, ar-MA, ar-TN, sw-KE, , sw-TZzu-ZA
- Mengurangi Kerentanan
- Memperbarui Model yang Tidak Digunakan Lagi
Konversi Ucapan ke Teks Kustom 4.9.0
- Mengurangi Kerentanan

Rilis Agustus 2024

Tambahkan dukungan untuk versi model terbaru:

Identifikasi bahasa ucapan 1.14.0
- Tingkatkan .NET 8.0
- Mengurangi Kerentanan
Neural teks ke suara 3.3.0
- Tingkatkan .NET 8.0
- Mengurangi Kerentanan
Ubah Ucapan ke Teks 4.8.0
- Tingkatkan .NET 8.0
- Mengurangi Kerentanan
- Meningkatkan Mesin Pengenalan
- Perbaiki masalah di mana PropertyId.Speech_SegmentationSilenceTimeoutMs diabaikan.
- Memperbarui Model yang Tidak Digunakan Lagi
- Hapus lokal uk-UA

Rilis Februari 2024

Tambahkan dukungan untuk versi model terbaru:

Konversi Suara Kustom ke Teks 4.6.0
Konversi Ucapan ke Teks 4.6.0
Teks neural ke ucapan 3.1.0

Tingkatkan komponen pengubah bicara menjadi teks ke yang terbaru. Tingkatkan semua model-model lokal es ke versi terbaru. Meningkatkan buffer transformasi media untuk penggunaan konversi ucapan ke teks.

Rilis November 2023

Tambahkan dukungan untuk versi model terbaru:

Konversi suara kustom ke teks 4.5.0
Ucapan ke teks 4.5.0
Teks neural ke ucapan 2.19.0

Rilis Oktober 2023

Tambahkan dukungan untuk versi model terbaru:

Ubah Ucapan Kustom Jadi Teks 4.4.0
Ucapan ke teks 4.4.0
Konversi Teks Neural ke Ucapan 2.18.0

Perbaiki banyak masalah kerentanan risiko tinggi.

Hapus log redundan dalam kontainer.

Tingkatkan komponen media internal ke yang terbaru.

Tambahkan dukungan untuk suara en-IN-NeerjaNeural.

Rilis September 2023

Tambahkan dukungan untuk versi model terbaru:

Identifikasi bahasa ucapan 1.12.0
Ucapan kustom ke teks 4.3.0
Ucapan ke teks 4.3.0
Teks neural menjadi ucapan 2.17.0

Tingkatkan konversi ucapan kustom ke teks dan ucapan ke teks ke kerangka kerja terbaru.

Memperbaiki masalah kerentanan.

Tambahkan dukungan untuk suara ar-AE-FatimaNeural.

Rilis Juli 2023

Tambahkan dukungan untuk versi model terbaru:

Konversi ucapan kustomisasi ke teks 4.1.0
Konversi suara ke teks 4.1.0
Versi 2.15.0 untuk konversi teks neural ke suara

Perbaiki masalah saat menjalankan kontainer ucapan ke teks dengan menggunakan opsi pemasangan docker dan file model kustom lokal.

Perbaiki masalah di mana dalam beberapa kasus peristiwa RECOGNIZING tidak muncul dalam respons Speech SDK.

Memperbaiki masalah kerentanan.

Rilis Juni 2023

Tambahkan dukungan untuk versi model terbaru:

Konversi suara ke teks kustomisasi 4.0.0
Konversi Suara ke Teks 4.0.0
Teks neural ke ucapan 2.14.0

Fitur konversi ucapan ke teks lokal ditingkatkan ke .NET 6.0

Tingkatkan model tampilan untuk lokal termasuk en-us, ar-eg, ar-bh, ja-jp, ko-kr, dan lainnya.

Tingkatkan komponen kontainer ucapan ke teks untuk mengatasi masalah kerentanan.

Tambahkan dukungan untuk suara lokal de-DE-AmalaNeural, de-AT-IngridNeural, de-AT-JonasNeural, dan en-US-JennyMultilingualNeural

Rilis Mei 2023

Tambahkan dukungan untuk versi model terbaru:

Ucapan Kustom ke Teks Versi 3.14.0
Ucapan menjadi teks 3.14.0
Ubah Teks Neural ke Ucapan 2.13.0

he-IL Memperbaiki masalah tanda baca

Memperbaiki masalah kerentanan

Tambahkan suara lokal baru en-US-MichelleNeural dan es-MX-CandelaNeural

Rilis April 2023

Pembaruan Keamanan

Memperbaiki masalah kerentanan

Rilis Maret 2023

Tambahkan dukungan untuk versi model terbaru:

Konversi ucapan kustom ke teks 3.12.0
Konversi Suara ke Teks 3.12.0
Identifikasi bahasa ucapan 1.11.0
Teks neural ke ucapan 2.11.0

Memperbaiki masalah kerentanan

Memperbaiki masalah kapitalisasi tr-TR

Meningkatkan model tampilan ucapan ke teks en-US

Tambahkan dukungan untuk ar-AE-HamdanNeural suara standar.

Rilis Februari 2023

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.11.0
Ubah ucapan menjadi teks 3.11.0
Ubah teks neural menjadi ucapan 2.10.0

Memperbaiki masalah kerentanan

Pembaruan secara rutin untuk model ucapan

Tambahkan lokal Arab baru:

ar-IL
ar-PS

Meningkatkan model tampilan Ibrani dan Turki

Rilis Januari 2023

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Konversi ucapan kustomisasi ke teks 3.10.0
Ubah Suara ke Teks 3.10.0
Sistem teks ke ucapan berbasis neural 2.9.0

Memperbaiki masalah pada mode Hipotesis

Memperbaiki masalah Proksi HTTP

Mode ucapan kustom ke kontainer teks terputus

Menambahkan dukungan kontainer Terputus CNV ke Frontend TTS

Tambahkan dukungan untuk suara lokal ini:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Rilis Desember 2022

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Ucapan kustom ke teks 3.9.0
Konversi Suara ke Teks 3.9.0
Teks neural ke suara 2.8.0

Memperbaiki masalah ipv4/ipv6

Memperbaiki masalah kerentanan

Rilis November 2022

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Konversi ucapan kustom ke teks 3.8.0
Ucapan ke teks 3.8.0
Teks Neural untuk Ucapan 2.7.0

Rilis Oktober 2022

Versi kontainer baru

Tambahkan dukungan untuk versi model terbaru:

Ubah ucapan ke teks secara kustom 3.7.0
Ucapan ke teks 3.7.0
Penerjemahan teks ke suara neural 2.6.0

Rilis September 2022

Pengubahan suara menjadi teks 3.6.0-amd64

Tambahkan dukungan untuk versi model terbaru.

Tambahkan dukungan untuk lokal ini:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
Biasa saja
sq-al
wuu-cn
yue-cn
zh-cn-Sichuan

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Ucapan kustom ke teks 3.6.0-amd64

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Teks Neural Menjadi Ucapan v2.5.0

Tambahkan dukungan untuk suara standar ini:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Rilis Mei 2022

Kontainer Pendeteksi Bahasa Ucapan v1.9.0-amd64-preview

Perbaikan bug untuk deteksi bahasa lisan.

Rilis Maret 2022

Konversi ucapan kustom ke teks Kontainer v3.1.0

Tambahkan dukungan untuk mendapatkan model tampilan.

Rilis Januari-2022

Pengubah Ucapan ke Teks versi 3.0.0

Tambahkan dukungan untuk menggunakan kontainer di lingkungan yang terputus.

Wadah Pengubahan Suara ke Teks v2.18.0

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Teks ke Ucapan Neural-Neural Kontainer v1.12.0

Tambahkan dukungan untuk suara standar ini: am-et-amehaneural, , am-et-mekdesneural, so-so-muuseneuraldan so-so-ubaxneural.

Pembaruan bulanan reguler termasuk peningkatan keamanan dan perbaikan kerentanan.

Bagikan melalui

Apa yang baru dalam Azure AI Speech?

Sorotan terbaru

Catatan rilis

Speech SDK 1.44.1: Rilis tambalan

Perbaikan bug

Speech SDK 1.44: Rilis Mei 2025

Fitur baru:

Perbaikan bug

Contoh

Speech SDK untuk JavaScript

Fitur baru:

Perbaikan bug

Speech CLI (SPX)

Fitur baru

Perbaikan bug

Speech SDK 1.43: Rilis Maret 2025

Fitur baru:

Perbaikan bug

Contoh

Speech SDK 1.42.0: Rilis Desember 2024

Fitur baru

Perbaikan bug

Contoh

Rilis November 2024

Ekstensi Azure AI Speech Toolkit untuk Visual Studio Code

Sampel kode avatar teks ke ucapan

Speech SDK 1.41.1: Rilis Oktober 2024

Fitur baru

Perbaikan Kesalahan

Memecahkan Perubahan

Speech SDK 1.40: Rilis Agustus 2024

Fitur baru

Perbaikan bug

Contoh

Speech SDK 1.38.0: Rilis Juni 2024

Fitur baru

Perbaikan bug

Contoh

Speech SDK 1.37.0: Dirilis April 2024

Fitur baru

Perbaikan bug

Contoh

Speech SDK 1.36.0: Rilis Maret 2024

Fitur baru

Perbaikan bug

Contoh

Speech SDK 1.35.0: Rilis Februari 2024

Fitur baru

Perbaikan bug

Contoh

Speech SDK 1.34.1: Rilis Januari 2024

Perubahan mendasar

Fitur baru

Perbaikan bug

Speech SDK 1.34.0: Rilis November 2023

Perubahan mendasar

Fitur baru

Perbaikan bug

Contoh

Rilis November 2023 untuk Speech CLI 1.34.0

Fitur baru

Perbaikan bug

Speech SDK 1.33.0: Rilis Oktober 2023

Pemberitahuan perubahan besar

Fitur baru

Perbaikan bug

Contoh

Speech CLI 1.33.0: Rilis Oktober 2023

Fitur baru

Perbaikan bug

Speech SDK 1.32.1: Rilis September 2023

Perbaikan bug

Contoh

Speech SDK 1.31.0: Rilis Agustus 2023

Fitur baru

Perubahan mendasar

Perbaikan bug

Contoh

Speech SDK 1.30.0: Rilis Juli 2023