Apa itu model Whisper?

Model Whisper adalah model ucapan ke teks dari OpenAI yang dapat Anda gunakan untuk mentranskripsikan file audio. Model ini dilatih pada himpunan data besar audio dan teks bahasa Inggris. Model ini dioptimalkan untuk menerjemahkan file audio yang berisi ucapan dalam bahasa Inggris. Model ini juga dapat digunakan untuk mentranskripsikan file audio yang berisi ucapan dalam bahasa lain. Output model adalah teks bahasa Inggris.

Model bisikan tersedia melalui Layanan Azure OpenAI atau melalui Azure AI Speech. Fiturnya berbeda untuk penawaran tersebut. Di Azure AI Speech, Whisper hanyalah salah satu dari beberapa model ucapan ke teks yang dapat Anda gunakan.

Anda mungkin bertanya:

  • Apakah Model Pembisik adalah pilihan yang baik untuk skenario saya, atau apakah model Ucapan Azure AI lebih baik? Apa saja perbandingan API antara dua jenis model?

  • Jika saya ingin menggunakan Model Pembisik, haruskah saya menggunakannya melalui Layanan Azure OpenAI atau melalui Azure AI Speech? Apa skenario yang memandu saya untuk menggunakan satu atau yang lain?

Model bisikan atau model Ucapan Azure AI

Baik model Whisper atau model Azure AI Speech sesuai tergantung pada skenario Anda. Jika Anda memutuskan untuk menggunakan Azure AI Speech, Anda dapat memilih dari beberapa model, termasuk model Whisper. Tabel berikut membandingkan opsi dengan rekomendasi tentang tempat memulai.

Skenario Model bisikan Model Azure AI Speech
Transkripsi, keterangan, dan subtitel real time untuk audio dan video. Tidak tersedia Disarankan
Transkripsi, keterangan, dan subtitel untuk audio dan video yang telah direkam sebelumnya. Model Whisper melalui Azure OpenAI direkomendasikan untuk pemrosesan cepat file audio individual. Model Whisper melalui Azure AI Speech direkomendasikan untuk pemrosesan batch file besar. Untuk informasi selengkapnya, lihat Model whisper melalui Azure AI Speech atau melalui Azure OpenAI Service? Direkomendasikan untuk pemrosesan batch file besar, diarisasi, dan tanda waktu tingkat kata.
Transkrip rekaman dan analitik panggilan telepon seperti ringkasan panggilan, sentimen, topik utama, dan wawasan kustom. Tersedia Disarankan
Transkripsi dan analitik real time untuk membantu agen pusat panggilan dengan pertanyaan pelanggan. Tidak tersedia Disarankan
Transkrip rekaman dan analitik rapat seperti ringkasan rapat, bab rapat, dan ekstraksi item tindakan. Tersedia Disarankan
Entri teks real time dan pembuatan dokumen melalui dikte suara. Tidak tersedia Disarankan
Agen suara pusat kontak: Memanggil perutean dan respons suara interaktif untuk pusat panggilan. Tersedia Disarankan
Asisten suara: Asisten suara khusus aplikasi untuk kotak set-top, aplikasi seluler, dalam mobil, dan skenario lainnya. Tersedia Disarankan
Penilaian pengucapan: Menilai pengucapan suara pembicara. Tidak tersedia Disarankan
Terjemahkan audio langsung dari satu bahasa ke bahasa lain. Tidak tersedia Direkomendasikan melalui API terjemahan ucapan
Terjemahkan audio yang telah direkam sebelumnya dari bahasa lain ke dalam bahasa Inggris. Disarankan Tersedia melalui API terjemahan ucapan
Terjemahkan audio yang telah direkam sebelumnya ke dalam bahasa selain bahasa Inggris. Tidak tersedia Direkomendasikan melalui API terjemahan ucapan

Model bisikan melalui Azure AI Speech atau melalui Azure OpenAI Service?

Jika Anda memutuskan untuk menggunakan model Whisper, Anda memiliki dua opsi. Anda dapat memilih apakah akan menggunakan Model Pembisik melalui Azure OpenAI atau melalui Azure AI Speech. Dalam kedua kasus, keterbacaan teks yang ditranskripsikan sama. Anda dapat memasukkan audio bahasa campuran dan outputnya dalam bahasa Inggris.

Model Pembisik melalui Layanan Azure OpenAI mungkin yang terbaik untuk:

  • Dengan cepat menerjemahkan file audio satu per satu
  • Menerjemahkan audio dari bahasa lain ke dalam bahasa Inggris
  • Berikan perintah ke model untuk memandu output
  • Format file yang didukung: mp3, mp4, mpweg, mpga, m4a, wav, dan webm

Model Pembisik melalui Azure AI Speech mungkin yang terbaik untuk:

  • Menerjemahkan file yang lebih besar dari 25MB (hingga 1GB). Batas ukuran file untuk model Azure OpenAI Whisper adalah 25 MB.
  • Menerjemahkan batch besar file audio
  • Diarisasi untuk membedakan antara pembicara yang berbeda yang berpartisipasi dalam percakapan. Layanan Ucapan menyediakan informasi tentang pembicara mana yang berbicara bagian tertentu dari ucapan yang ditranskripsikan. Model Whisper melalui Azure OpenAI tidak mendukung diarisasi.
  • Tanda waktu tingkat kata
  • Format file yang didukung: mp3, wav, dan ogg
  • Kustomisasi model dasar Whisper untuk meningkatkan akurasi skenario Anda (segera hadir)

Dukungan regional adalah pertimbangan lain.

  • Model Whisper melalui Layanan Azure OpenAI tersedia di wilayah berikut: EastUS 2, India Selatan, Utara Tengah, Norwegia Timur, Swedia Tengah, dan Eropa Barat.
  • Model Whisper melalui Azure AI Speech tersedia di wilayah berikut: Australia Timur, AS Timur, US Tengah Utara, AS Tengah Selatan, Asia Tenggara, Inggris Selatan, dan Eropa Barat.

Langkah berikutnya