Bagikan melalui


Apa itu diarisasi multisaluran transkripsi percakapan? (pratinjau)

Catatan

Fitur ini masih dalam pratinjau umum. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Diarisasi multisaluran transkripsi percakapan adalah solusi ucapan ke teks yang menyediakan transkripsi real time atau asinkron dari setiap rapat. Fitur ini menggabungkan pengenalan ucapan, identifikasi pembicara, dan atribusi kalimat untuk menentukan siapa yang mengatakan apa, dan kapan, dalam rapat.

Penting

Diarisasi multisaluran transkripsi percakapan (pratinjau) dihentikan pada 28 Maret 2025. Untuk informasi selengkapnya tentang migrasi ke fitur ucapan ke teks lainnya, lihat Bermigrasi jauh dari diarisasi multisaluran transkripsi percakapan.

Bermigrasi jauh dari diarisasi multisaluran transkripsi percakapan

Diarisasi multisaluran transkripsi percakapan (pratinjau) dihentikan pada 28 Maret 2025.

Untuk terus menggunakan ucapan ke teks dengan diarisasi, gunakan fitur berikut sebagai gantinya:

Fitur ucapan ke teks ini hanya mendukung diarisasi untuk audio saluran tunggal. Audio multisaluran yang Anda gunakan dengan diarisasi multisaluran transkripsi percakapan tidak didukung.

Fitur utama

Fitur transkripsi percakapan berikut mungkin bermanfaat:

  • Tanda waktu: Setiap ucapan pembicara memiliki tanda waktu, sehingga Anda dapat dengan mudah menemukan kapan sebuah frasa dikatakan.
  • Transkrip yang dapat dibaca: Transkrip memiliki pemformatan dan tanda baca yang ditambahkan secara otomatis untuk memastikan teks sangat cocok dengan apa yang dikatakan.
  • Profil pengguna: Profil pengguna dibuat dengan mengumpulkan sampel suara pengguna dan mengirimkannya ke pembuatan tanda tangan.
  • Identifikasi pembicara: Pembicara diidentifikasi menggunakan profil pengguna, dan pengidentifikasi pembicara ditetapkan untuk setiap profil pengguna.
  • Diarisasi multipembicara: Menentukan siapa yang berbicara dengan mensintesis aliran audio dengan setiap pengidentifikasi pembicara.
  • Transkripsi real time: Berikan transkrip langsung tentang siapa yang mengatakan apa, dan kapan, saat rapat terjadi.
  • Transkripsi asinkron: Memberikan transkripsi dengan akurasi yang lebih tinggi dengan menggunakan aliran audio multi-saluran.

Catatan

Meskipun transkripsi percakapan tidak membatasi jumlah pembicara di ruangan, ini dioptimalkan untuk 2-10 pembicara per sesi.

Kasus penggunaan

Untuk membuat rapat menjadi inklusif bagi semua orang, seperti peserta yang tuli dan sulit mendengar, penting untuk memiliki transkripsi secara real time. Transkripsi percakapan dalam mode real-time mengambil audio rapat dan menentukan siapa yang berbicara, memungkinkan semua peserta rapat mengikuti transkripsi dan berpartisipasi dalam rapat, tanpa penundaan.

Peserta rapat dapat fokus pada rapat dan menyerahkan pencatatan pada transkripsi percakapan. Peserta dapat secara aktif terlibat dalam rapat dan dengan cepat menindaklanjuti langkah-langkah berikutnya dengan cepat, menggunakan transkrip alih-alih mencatat dan berpotensi terlewat sesuatu selama rapat.

Cara kerjanya

Diagram berikut menyajikan gambaran umum tingkat tinggi mengenai cara kerja fitur tersebut.

Diagram yang menunjukkan hubungan antara berbagai bagian solusi transkripsi percakapan.

Input yang diharapkan

Transkripsi percakapan menggunakan dua jenis input:

  • Aliran audio multi-saluran: Untuk detail spesifikasi dan desain, lihat Rekomendasi array mikrofon.
  • Sampel suara pengguna: Transkripsi percakapan memerlukan profil pengguna sebelum percakapan untuk identifikasi pembicara. Kumpulkan rekaman audio dari setiap pengguna, lalu kirimkan rekaman tersebut ke layanan pembuatan tanda tangan untuk memvalidasi audio dan menghasilkan profil pengguna.

Sampel suara pengguna untuk tanda tangan suara diperlukan untuk identifikasi pembicara. Pembicara yang tidak memiliki sampel suara akan dikenali sebagai tidak teridentifikasi. Pembicara tidak teridentifikasi masih dapat dibedakan jika properti DifferentiateGuestSpeakers diaktifkan (lihat contoh di bawah). Output transkripsi kemudian menampilkan speaker sebagai, misalnya, Guest_0 dan Guest_1, alih-alih mengenalinya sebagai nama pembicara tertentu yang telah didaftarkan sebelumnya.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Real time atau asinkron

Bagian berikut memberikan detail lebih lanjut tentang mode transkripsi yang dapat Anda pilih.

Real time

Data audio diproses secara langsung untuk mengembalikan pengidentifikasi pembicara dan transkripsi. Pilih mode ini jika persyaratan solusi transkripsi Anda adalah memberi peserta rapat tampilan transkrip langsung rapat yang sedang berlangsung. Misalnya, membangun aplikasi untuk membuat rapat lebih mudah diakses oleh peserta tuna rungu dan sulit mendengar adalah kasus penggunaan yang ideal untuk transkripsi real-time.

Asinkron

Data audio diproses secara batch untuk mengembalikan pengidentifikasi pembicara dan transkripsi. Pilih mode ini jika persyaratan solusi transkripsi Anda untuk memberikan akurasi yang lebih tinggi, tanpa tampilan transkripsi langsung. Misalnya, jika Anda ingin membangun aplikasi untuk memungkinkan peserta rapat dengan mudah mengejar rapat yang terlewat, maka gunakan mode transkripsi asinkron untuk mendapatkan hasil transkripsi akurasi tinggi.

Real time ditambah asinkron

Data audio diproses secara langsung untuk mengembalikan pengidentifikasi pembicara dan transkripsi, dan, di samping itu, meminta transkripsi berakurasi tinggi melalui pemrosesan asinkron. Pilih mode ini jika aplikasi Anda memiliki kebutuhan akan transkripsi real time, dan juga memerlukan transkrip akurasi yang lebih tinggi untuk digunakan setelah rapat terjadi.

Dukungan bahasa dan wilayah

Saat ini, transkripsi percakapan mendukung semua bahasa ucapan ke teks di wilayah berikut: centralus, , eastasia, eastus. westeurope