Bagikan melalui


Apa itu model Whisper?

Model Whisper adalah model ucapan ke teks dari OpenAI yang dapat Anda gunakan untuk mentranskripsikan file audio. Model ini dilatih pada himpunan data besar audio dan teks bahasa Inggris. Model ini dioptimalkan untuk menerjemahkan file audio yang berisi ucapan dalam bahasa Inggris. Model ini juga dapat digunakan untuk mentranskripsikan file audio yang berisi ucapan dalam bahasa lain. Output model adalah teks bahasa Inggris.

Model bisikan tersedia melalui Layanan Azure OpenAI atau melalui Azure AI Speech. Fiturnya berbeda untuk penawaran tersebut. Dalam Azure AI Speech (transkripsi batch), Whisper hanyalah salah satu dari beberapa model yang dapat Anda gunakan untuk ucapan ke teks.

Anda mungkin bertanya:

  • Apakah Model Pembisik adalah pilihan yang baik untuk skenario saya, atau apakah model Ucapan Azure AI lebih baik? Apa saja perbandingan API antara dua jenis model?

  • Jika saya ingin menggunakan Model Pembisik, haruskah saya menggunakannya melalui Layanan Azure OpenAI atau melalui Azure AI Speech? Apa skenario yang memandu saya untuk menggunakan satu atau yang lain?

Model bisikan atau model Ucapan Azure AI

Baik model Whisper atau model Azure AI Speech sesuai tergantung pada skenario Anda. Jika Anda memutuskan untuk menggunakan Azure AI Speech, Anda dapat memilih dari beberapa model, termasuk model Whisper. Tabel berikut membandingkan opsi dengan rekomendasi tentang tempat memulai.

Skenario Model bisikan Model Azure AI Speech
Transkripsi, keterangan, dan subtitel real time untuk audio dan video. Tidak tersedia Direkomendasikan
Transkripsi, keterangan, dan subtitel untuk audio dan video yang telah direkam sebelumnya. Model Whisper melalui Azure OpenAI direkomendasikan untuk pemrosesan cepat file audio individual. Model Whisper melalui Azure AI Speech (transkripsi batch) direkomendasikan untuk pemrosesan batch file besar. Untuk informasi selengkapnya, lihat Model pembisik melalui transkripsi batch Ucapan Azure AI atau melalui Layanan Azure OpenAI? Direkomendasikan untuk pemrosesan batch file besar, diarisasi, dan tanda waktu tingkat kata.
Transkrip rekaman dan analitik panggilan telepon seperti ringkasan panggilan, sentimen, topik utama, dan wawasan kustom. Tersedia Direkomendasikan
Transkripsi dan analitik real time untuk membantu agen pusat panggilan dengan pertanyaan pelanggan. Tidak tersedia Direkomendasikan
Transkrip rekaman dan analitik rapat seperti ringkasan rapat, bab rapat, dan ekstraksi item tindakan. Tersedia Direkomendasikan
Entri teks real time dan pembuatan dokumen melalui dikte suara. Tidak tersedia Direkomendasikan
Agen suara pusat kontak: Memanggil perutean dan respons suara interaktif untuk pusat panggilan. Tersedia Direkomendasikan
Asisten suara: Asisten suara khusus aplikasi untuk kotak set-top, aplikasi seluler, dalam mobil, dan skenario lainnya. Tersedia Direkomendasikan
Penilaian pengucapan: Menilai pengucapan suara pembicara. Tidak tersedia Direkomendasikan
Terjemahkan audio langsung dari satu bahasa ke bahasa lain. Tidak tersedia Direkomendasikan melalui API terjemahan ucapan
Terjemahkan audio yang telah direkam sebelumnya dari bahasa lain ke dalam bahasa Inggris. Direkomendasikan Tersedia melalui API terjemahan ucapan
Terjemahkan audio yang telah direkam sebelumnya ke dalam bahasa selain bahasa Inggris. Tidak tersedia Direkomendasikan melalui API terjemahan ucapan

Model bisikan melalui Azure AI Speech atau melalui Azure OpenAI Service?

Jika Anda memutuskan untuk menggunakan model Whisper, Anda memiliki dua opsi. Anda dapat memilih apakah akan menggunakan Model Pembisik melalui Azure OpenAI atau melalui Azure AI Speech (transkripsi batch). Dalam kedua kasus, keterbacaan teks yang ditranskripsikan sama. Anda dapat memasukkan audio bahasa campuran dan outputnya dalam bahasa Inggris.

Model Pembisik melalui Layanan Azure OpenAI mungkin yang terbaik untuk:

  • Dengan cepat menerjemahkan file audio satu per satu
  • Menerjemahkan audio dari bahasa lain ke dalam bahasa Inggris
  • Berikan perintah ke model untuk memandu output
  • Format file yang didukung: mp3, mp4, mpweg, mpga, m4a, wav, dan webm
  • Hanya karakter ASCII yang didukung untuk nama file

Model Bisikan melalui transkripsi batch Ucapan Azure AI mungkin yang terbaik untuk:

  • Menerjemahkan file yang lebih besar dari 25MB (hingga 1GB). Batas ukuran file untuk model Azure OpenAI Whisper adalah 25 MB.
  • Menerjemahkan batch besar file audio.
  • Diarisasi untuk membedakan antara pembicara yang berbeda yang berpartisipasi dalam percakapan. Layanan Ucapan menyediakan informasi tentang pembicara mana yang berbicara bagian tertentu dari ucapan yang ditranskripsikan. Model Whisper melalui Azure OpenAI tidak mendukung diarisasi.
  • Tanda waktu tingkat kata
  • Format file yang didukung: mp3, wav, dan ogg.

Dukungan regional adalah pertimbangan lain.

  • Model Whisper melalui Layanan Azure OpenAI tersedia di wilayah berikut: US Timur 2, India Selatan, Tengah Utara, Norwegia Timur, Swedia Tengah, Swiss Utara, dan Eropa Barat.
  • Model Whisper melalui Azure AI Speech tersedia di wilayah berikut: Australia Timur, AS Timur, US Tengah Utara, AS Tengah Selatan, Asia Tenggara, Inggris Selatan, dan Eropa Barat.