Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Apa itu Voice Live API?
Voice Live API adalah solusi yang memungkinkan interaksi ucapan ke ucapan berkualitas tinggi dengan latensi rendah untuk agen suara. API dirancang untuk pengembang yang mencari pengalaman berbasis suara yang dapat diskalakan dan efisien karena menghilangkan kebutuhan untuk mengatur beberapa komponen secara manual. Dengan mengintegrasikan fungsionalitas pengenalan ucapan, AI generatif, dan teks ke ucapan ke dalam satu antarmuka terpadu, ini menyediakan solusi end-to-end untuk menciptakan pengalaman yang mulus.
Voice Live API dikelola sepenuhnya, sehingga Anda tidak perlu menangani orkestrasi backend atau integrasi komponen. Pengembang menyediakan input audio dan menerima output audio, visual avatar, dan pemicu tindakan—semuanya dengan latensi minimal. Anda tidak perlu menyebarkan atau mengelola model AI generatif apa pun, karena API menangani infrastruktur yang mendasar.
Memahami pengalaman ucapan ke ucapan
Teknologi ucapan ke ucapan merevolusi bagaimana manusia berinteraksi dengan sistem, menawarkan solusi berbasis suara yang intuitif. Implementasi tradisional melibatkan penggabungan modul yang berbeda seperti ucapan ke teks, manajemen dialog, teks ke ucapan, dan banyak lagi. Penautan tersebut dapat menyebabkan peningkatan kompleksitas rekayasa dan latensi yang dirasakan pengguna akhir.
Dengan kemajuan dalam model bahasa besar (LLM) dan AI multimodal, Voice Live API mengonsolidasikan fungsionalitas ini, menyederhanakan alur kerja untuk pengembang. Pendekatan ini meningkatkan interaksi real-time dan memastikan komunikasi alami berkualitas tinggi, sehingga cocok untuk industri yang membutuhkan solusi instan dengan dukungan suara.
Skenario utama untuk Voice Live API
Azure AI Voice Live API sangat ideal untuk skenario di mana interaksi berbasis suara meningkatkan pengalaman pengguna. Contohnya meliputi:
- Pusat kontak: Mengembangkan bot suara interaktif untuk dukungan pelanggan, navigasi katalog produk, dan solusi layanan mandiri.
- Asisten otomotif: Aktifkan asisten suara hands-free dalam mobil untuk eksekusi perintah, navigasi, dan pertanyaan umum.
- Pendidikan: Membuat pendamping pembelajaran yang mendukung suara dan tutor virtual untuk pelatihan dan pendidikan interaktif.
- Layanan publik: Bangun agen suara untuk membantu warga dengan kueri administratif dan informasi layanan publik.
- Sumber daya manusia: Tingkatkan proses SDM dengan alat yang mendukung suara untuk dukungan karyawan, pengembangan karier, dan pelatihan.
Fitur Voice Live API
Voice Live API mencakup serangkaian fitur komprehensif untuk mendukung berbagai kasus penggunaan dan memastikan interaksi suara yang unggul:
- Cakupan lokal yang luas: Mendukung lebih dari 140 lokal untuk ucapan ke teks dan menawarkan lebih dari 600 suara standar di 150+ lokal untuk teks ke ucapan, memastikan aksesibilitas global.
- Input dan output yang dapat disesuaikan: Gunakan daftar frasa untuk penyesuaian just-in-time yang ringan pada input audio atau model ucapan kustom untuk penyempurnaan pengenalan ucapan tingkat lanjut. Gunakan suara kustom untuk membuat suara unik yang selaras dengan merek untuk output audio. Lihat Cara menyesuaikan input dan output Voice Live untuk mempelajari selengkapnya.
- Opsi model AI generatif yang fleksibel: Pilih dari beberapa model, termasuk GPT-5, GPT-4.1, GPT-4o, Phi, dan lebih disesuaikan dengan persyaratan percakapan.
-
Fitur percakapan tingkat lanjut:
- Penekanan kebisingan: Mengurangi kebisingan lingkungan untuk komunikasi yang lebih jelas.
- Pembatalan gema: Mencegah agen mengambil responsnya sendiri.
- Deteksi gangguan yang kuat: Memastikan pengenalan gangguan yang akurat selama percakapan.
- Deteksi akhir giliran tingkat lanjut: Memungkinkan jeda alami tanpa menyimpulkan interaksi secara prematur.
- Integrasi Avatar: Menyediakan avatar standar atau dapat disesuaikan yang disinkronkan dengan output audio, menawarkan identitas visual untuk agen suara.
- Pemanggilan fungsi: Memungkinkan tindakan eksternal, penggunaan alat, dan respons grounded menggunakan pola VoiceRAG.
Desain dan kompatibilitas API
Voice Live API dirancang untuk kompatibilitas dengan Azure OpenAI Realtime API. Peristiwa real-time yang didukung sebagian besar cocok dengan peristiwa Azure OpenAI Realtime API, dengan beberapa pengecualian yang dijelaskan dalam panduan cara Voice Live API.
Fitur yang unik untuk Voice Live API bersifat opsional dan aditif. Anda dapat menambahkan Azure Speech ke kemampuan Foundry Tools seperti penindasan kebisingan, pembatalan gema, dan tingkat lanjut deteksi akhir giliran ke aplikasi yang ada tanpa mengubah arsitektur yang ada.
API didukung melalui peristiwa WebSocket, memungkinkan integrasi server-ke-server yang mudah. Layanan backend atau tingkat menengah Anda terhubung ke Voice Live API melalui WebSockets. Anda dapat menggunakan pesan WebSocket secara langsung untuk berinteraksi dengan API.
Model dan wilayah yang didukung
Untuk mendukung kecerdasan agen suara Anda, Anda memiliki fleksibilitas dan pilihan dalam model AI generatif antara GPT-Realtime, GPT-5, GPT-4.1, Phi, dan banyak lagi opsi. Model AI generatif yang berbeda menyediakan berbagai jenis kemampuan, tingkat kecerdasan, kecepatan dan latensi inferensi, dan biaya. Tergantung pada hal yang paling penting bagi bisnis dan kasus penggunaan Anda, pilih model yang paling sesuai dengan kebutuhan Anda.
Semua model yang didukung secara asli dikelola sepenuhnya, sehingga Anda tidak perlu menyebarkan model, melakukan perencanaan kapasitas, atau menyediakan throughput. Gunakan model yang Anda butuhkan, dan Voice Live API mengurus sisanya.
Voice Live API mendukung model berikut. Untuk wilayah yang didukung, lihat wilayah layanan Azure Speech.
| Modél | Deskripsi |
|---|---|
gpt-realtime |
GPT waktu nyata + opsi untuk menggunakan teks ke ucapan Azure termasuk suara kustom untuk audio. |
gpt-realtime-mini |
GPT mini real-time + opsi untuk menggunakan teks ke suara Azure termasuk suara kustom untuk output audio. |
gpt-4o |
Dari GPT-4o dengan input audio melalui transkripsi ucapan ke teks oleh Azure, hingga output audio melalui konversi teks ke suara oleh Azure, termasuk suara kustom. |
gpt-4o-mini |
GPT-4o mini + input audio melalui Azure speech to text + output audio melalui Azure text to speech termasuk suara kustom. |
gpt-4.1 |
GPT-4.1 + input audio melalui Azure Speech to Text + output audio melalui Azure Text to Speech termasuk suara kustomisasi. |
gpt-4.1-mini |
Input audio GPT-4.1 mini melalui Azure ucapan ke teks + output audio melalui Azure teks ke suara ucapan termasuk suara kustom. |
gpt-5 |
GPT-5 + input audio melalui ucapan Azure ke teks + output audio melalui teks Azure ke suara ucapan termasuk suara kustom. |
gpt-5-mini |
Mini GPT-5 + input audio melalui ucapan ke teks Azure + output audio melalui teks ke suara ucapan Azure, termasuk suara kustom. |
gpt-5-nano |
GPT-5 nano + input audio melalui Azure speech to text + output audio melalui Azure text to speech termasuk suara kustom. |
gpt-5-chat |
Obrolan GPT-5 + input audio melalui Azure Speech-to-Text + output audio melalui Azure Text-to-Speech termasuk suara kustom. |
phi4-mm-realtime |
Output phi4-mm + audio melalui teks Azure ke suara ucapan termasuk suara kustom. |
phi4-mini |
Phi4-mm + input audio melalui Azure speech to text + output audio melalui Azure text to speech, termasuk suara kustom. |
Membandingkan Voice Live API dengan solusi suara ke suara lainnya
Voice Live API adalah alternatif untuk mengatur beberapa komponen seperti pengenalan ucapan, AI generatif, dan teks ke ucapan. Orkestrasi ini dapat menjadi kompleks dan memakan waktu, membutuhkan upaya rekayasa yang signifikan untuk mengintegrasikan dan memelihara. Voice Live API menyederhanakan proses ini dengan menyediakan satu antarmuka untuk semua komponen ini. Pengembang dapat fokus membangun aplikasi mereka daripada mengelola infrastruktur yang mendasar.
Untuk memenuhi kebutuhan Anda, Anda dapat membangun solusi Anda sendiri atau menggunakan Voice Live API. Tabel ini membandingkan pendekatan:
| Persyaratan aplikasi | Lakukan sendiri | API Suara Langsung |
|---|---|---|
| Cakupan lokal luas dengan akurasi tinggi (input audio) | ✅ | ✅ |
| Mempertahankan kepribadian merek dan karakter (hasil audio) | ✅ | ✅ |
| Penyempurnaan percakapan | ❌ | ✅ |
| Pilihan model AI generatif | ✅ | ✅ |
| Keluaran visual dengan avatar teks ke suara | ✅ | ✅ |
| Biaya rekayasa rendah | ❌ | ✅ |
| Latensi rendah yang dirasakan oleh pengguna akhir | ❌ | ✅ |
Penetapan Harga
Harga untuk Voice Live API berlaku pada 1 Juli 2025.
Harga untuk Voice Live API berjenjang (Pro, Basic, dan Lite) berdasarkan model AI generatif yang digunakan. Anda tidak memilih tingkatan. Anda memilih model AI generatif dan harga yang sesuai berlaku:
| Kategori harga | Model |
|---|---|
| Voice Live pro |
gpt-realtime
gpt-4o
gpt-4.1
gpt-5
gpt-5-chat
|
| Dasar-dasar Voice Live |
gpt-realtime-mini,gpt-4o-mini,gpt-4.1-mini,gpt-5-mini |
| Voice Live lite |
gpt-5-nano,phi4-mm-realtime, phi4-mini |
Jika Anda memilih untuk menggunakan ucapan kustom, suara kustom, atau avatar kustom untuk input atau output ucapan, Anda dikenakan biaya terpisah untuk pelatihan dan hosting model. Lihat Harga Layanan Ucapan untuk detailnya.
Penting
Akses suara kustom dibatasi berdasarkan kriteria kelayakan dan penggunaan. Minta akses melalui formulir intake.
Penting
Akses avatar teks ke ucapan kustom dibatasi berdasarkan kriteria kelayakan dan penggunaan. Minta akses melalui formulir intake.
Contoh skenario harga
Berikut adalah beberapa contoh skenario harga untuk membantu Anda memahami bagaimana Voice Live API ditagih:
Skenario 1
Agen layanan pelanggan yang dibangun dengan input Azure Speech standar, GPT-4.1, output Azure Speech kustom, dan avatar kustom.
Anda dikenakan biaya dengan tarif pro Voice Live untuk:
- Teks
- Audio dengan Azure Speech - Standar
- Audio dengan Azure Speech - Kustom
Anda dikenakan biaya terpisah untuk pelatihan dan hosting model:
- Suara kustom – profesional
- Avatar kustom
Skenario 2
Agen pembelajaran yang dibangun dengan gpt-realtime input audio asli dan output Azure Speech standar.
Anda dikenakan biaya dengan tarif pro Voice Live untuk:
- Teks
- Audio asli dengan
gpt-realtime - Audio dengan Azure Speech - Standar
Skenario 3
Agen wawancara talenta yang dibekali dengan gpt-realtime-mini input audio asli, serta keluaran Azure Speech standar dan avatar standar.
Anda dikenakan biaya dengan tarif dasar Voice Live untuk:
- Teks
- Audio asli dengan
gpt-realtime-mini - Audio dengan Azure Speech - Standar
Anda dikenakan biaya terpisah untuk:
- Avatar teks ke ucapan (standar)
Skenario 4
Asisten dalam mobil yang dilengkapi dengan phi4-mm-realtime dan suara kustom Azure.
Anda dikenakan tarif Voice Live lite untuk:
- Teks
- Audio asli dengan
phi4-mm-realtime
Anda dikenakan biaya dengan tarif pro Voice Live untuk:
- Audio dengan Azure Speech - Kustom
Anda dikenakan biaya terpisah untuk pelatihan dan hosting model:
- Suara kustom – profesional
Penggunaan token dan estimasi biaya
Token adalah unit yang digunakan model AI generatif untuk memproses input dan menghasilkan output.
Anda dapat memperkirakan penggunaan token untuk keluarga model yang berbeda dengan Voice Live API berdasarkan panjang audio. Perhitungan token berikut berlaku untuk setiap keluarga model:
| Keluarga model | Input audio (token per detik) | Keluaran audio (token per detik) |
|---|---|---|
| Azure OpenAI Model | ~10 token | ~20 token |
| Model Phi | ~12.5 token | ~20 token |
Anda juga dikenakan biaya untuk input audio dan teks yang di-cache, termasuk perintah dan konteks percakapan.
Konten terkait
- Pelajari selengkapnya tentang Cara menggunakan Voice Live API
- Coba mulai cepat Voice Live API
- Lihat Referensi API Voice Live