Apa itu model Whisper?

2025-07-02

Model Whisper adalah model ucapan ke teks dari OpenAI yang dapat Anda gunakan untuk mentranskripsikan atau menerjemahkan file audio. Model ini dilatih pada himpunan data besar audio dan teks bahasa Inggris.

Model ini dioptimalkan untuk menerjemahkan file audio yang berisi ucapan dalam bahasa Inggris.
Model ini juga dapat digunakan untuk menerjemahkan file audio yang berisi ucapan dalam bahasa lain. Output transkripsi adalah teks bahasa Inggris.

Model "Whisper" tersedia melalui Azure OpenAI dalam Azure AI Foundry Models atau melalui Azure AI Speech. Fiturnya berbeda untuk penawaran tersebut. Dalam Azure AI Speech (transkripsi batch), Whisper hanyalah salah satu dari beberapa model yang dapat Anda gunakan untuk ucapan ke teks.

Anda mungkin bertanya:

Apakah Model Pembisik adalah pilihan yang baik untuk skenario saya, atau apakah model Ucapan Azure AI lebih baik? Apa saja perbandingan API antara dua jenis model?
Jika saya ingin menggunakan Model Pembisik, haruskah saya menggunakannya melalui Azure OpenAI atau melalui Azure AI Speech ? Apa skenario yang memandu saya untuk menggunakan satu atau yang lain?

Model bisikan atau model Ucapan Azure AI

Baik model Whisper atau model Azure AI Speech sesuai tergantung pada skenario Anda. Jika Anda memutuskan untuk menggunakan Azure AI Speech, Anda dapat memilih dari beberapa model, termasuk model Whisper. Tabel berikut membandingkan opsi dengan rekomendasi tentang tempat memulai.

Skenario	Model bisikan	Model Azure AI Speech
Transkripsi, keterangan, dan subtitel real time untuk audio dan video.	Tidak tersedia	Direkomendasikan
Transkripsi, keterangan, dan subtitel untuk audio dan video yang telah direkam sebelumnya.	Model Whisper melalui Azure OpenAI direkomendasikan untuk pemrosesan cepat file audio individual. Model Whisper melalui Azure AI Speech (transkripsi batch) direkomendasikan untuk pemrosesan batch file besar. Untuk informasi selengkapnya, lihat Model Whisper melalui transkripsi batch Azure AI Speech atau melalui Azure OpenAI?	Direkomendasikan untuk pemrosesan batch file besar, diarisasi, dan tanda waktu tingkat kata.
Transkrip rekaman dan analitik panggilan telepon seperti ringkasan panggilan, sentimen, topik utama, dan wawasan kustom.	Tersedia	Direkomendasikan
Transkripsi dan analitik real time untuk membantu agen pusat panggilan dengan pertanyaan pelanggan.	Tidak tersedia	Direkomendasikan
Transkrip rekaman dan analitik rapat seperti ringkasan rapat, bab rapat, dan ekstraksi item tindakan.	Tersedia	Direkomendasikan
Entri teks real time dan pembuatan dokumen melalui dikte suara.	Tidak tersedia	Direkomendasikan
Agen suara pusat kontak: Memanggil perutean dan respons suara interaktif untuk pusat panggilan.	Tersedia	Direkomendasikan
Asisten suara: Asisten suara khusus aplikasi untuk kotak set-top, aplikasi seluler, dalam mobil, dan skenario lainnya.	Tersedia	Direkomendasikan
Penilaian pengucapan: Menilai pengucapan suara pembicara.	Tidak tersedia	Direkomendasikan
Terjemahkan audio langsung dari satu bahasa ke bahasa lain.	Tidak tersedia	Direkomendasikan melalui API terjemahan ucapan.
Terjemahkan audio yang telah direkam sebelumnya dari bahasa lain ke dalam bahasa Inggris.	Direkomendasikan	Juga tersedia melalui API terjemahan ucapan.
Terjemahkan audio yang telah direkam sebelumnya ke dalam bahasa selain bahasa Inggris.	Tidak tersedia	Direkomendasikan melalui API terjemahan ucapan.

Membisikkan model melalui Azure AI Speech atau melalui Azure OpenAI?

Jika Anda memutuskan untuk menggunakan model Whisper, Anda memiliki dua opsi. Anda dapat memilih apakah akan menggunakan Model Pembisik melalui Azure OpenAI atau melalui Azure AI Speech (transkripsi batch). Dalam kedua kasus, keterbacaan teks yang ditranskripsikan sama.

Model Pembisik melalui Azure OpenAI mungkin yang terbaik untuk:

Dengan cepat mentranskrip berkas audio satu per satu.
Menerjemahkan audio dari bahasa lain ke dalam bahasa Inggris. Anda dapat memasukkan audio bahasa campuran dan outputnya dalam bahasa Inggris.
Berikan perintah ke model untuk memandu output.
Format file yang didukung: mp3, mp4, mpweg, mpga, m4a, wav, dan webm.
Hanya karakter ASCII yang didukung untuk nama file.

Model Bisikan melalui transkripsi batch Ucapan Azure AI mungkin yang terbaik untuk:

Menerjemahkan file yang lebih besar dari 25MB (hingga 1GB). Batas ukuran file untuk model Azure OpenAI Whisper adalah 25 MB.
Menerjemahkan batch besar file audio.
Diarisasi untuk membedakan antara pembicara yang berbeda yang berpartisipasi dalam percakapan. Layanan Ucapan menyediakan informasi tentang pembicara mana yang berbicara bagian tertentu dari ucapan yang ditranskripsikan. Model Whisper melalui Azure OpenAI tidak mendukung diarisasi.
Tanda waktu tingkat kata
Format file yang didukung: mp3, wav, dan ogg.

Dukungan regional adalah pertimbangan lain.

Model Whisper melalui Azure OpenAI tersedia di wilayah berikut: US Timur 2, India Selatan, Utara Tengah, Norwegia Timur, Swedia Tengah, Swiss Utara, dan Eropa Barat.
Model Whisper melalui Azure AI Speech tersedia di wilayah berikut: Australia Timur, US Timur, US Tengah Utara, AS Tengah Selatan, Asia Tenggara, dan Eropa Barat.

Bagikan melalui

Apa itu model Whisper?

Model bisikan atau model Ucapan Azure AI

Membisikkan model melalui Azure AI Speech atau melalui Azure OpenAI?

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: