Voice Live API untuk agen suara real time

Apa itu Voice Live API?

Voice Live API adalah solusi yang memungkinkan interaksi ucapan ke ucapan berkualitas tinggi dengan latensi rendah untuk agen suara. API dirancang untuk pengembang yang mencari pengalaman berbasis suara yang dapat diskalakan dan efisien karena menghilangkan kebutuhan untuk mengatur beberapa komponen secara manual. Dengan mengintegrasikan fungsionalitas pengenalan ucapan, AI generatif, dan teks ke ucapan ke dalam satu antarmuka terpadu, ini menyediakan solusi end-to-end untuk menciptakan pengalaman yang mulus.

Voice Live API dikelola sepenuhnya, sehingga Anda tidak perlu menangani orkestrasi backend atau integrasi komponen. Pengembang menyediakan input audio dan menerima output audio, visual avatar, dan pemicu tindakan—semuanya dengan latensi minimal. Anda tidak perlu menyebarkan atau mengelola model AI generatif apa pun, karena API menangani infrastruktur yang mendasar.

Memahami pengalaman ucapan ke ucapan

Teknologi ucapan ke ucapan merevolusi bagaimana manusia berinteraksi dengan sistem, menawarkan solusi berbasis suara yang intuitif. Implementasi tradisional melibatkan penggabungan modul yang berbeda seperti ucapan ke teks, manajemen dialog, teks ke ucapan, dan banyak lagi. Penautan tersebut dapat menyebabkan peningkatan kompleksitas rekayasa dan latensi yang dirasakan pengguna akhir.

Dengan kemajuan dalam model bahasa besar (LLM) dan AI multimodal, Voice Live API mengonsolidasikan fungsionalitas ini, menyederhanakan alur kerja untuk pengembang. Pendekatan ini meningkatkan interaksi real-time dan memastikan komunikasi alami berkualitas tinggi, sehingga cocok untuk industri yang membutuhkan solusi instan dengan dukungan suara.

Skenario utama untuk Voice Live API

Azure AI Voice Live API sangat ideal untuk skenario di mana interaksi berbasis suara meningkatkan pengalaman pengguna. Contohnya meliputi:

  • Pusat kontak: Mengembangkan bot suara interaktif untuk dukungan pelanggan, navigasi katalog produk, dan solusi layanan mandiri.
  • Asisten otomotif: Aktifkan asisten suara hands-free dalam mobil untuk eksekusi perintah, navigasi, dan pertanyaan umum.
  • Pendidikan: Membuat pendamping pembelajaran yang mendukung suara dan tutor virtual untuk pelatihan dan pendidikan interaktif.
  • Layanan publik: Bangun agen suara untuk membantu warga dengan kueri administratif dan informasi layanan publik.
  • Sumber daya manusia: Tingkatkan proses SDM dengan alat yang mendukung suara untuk dukungan karyawan, pengembangan karier, dan pelatihan.

Fitur Voice Live API

Voice Live API mencakup serangkaian fitur komprehensif untuk mendukung berbagai kasus penggunaan dan memastikan interaksi suara yang unggul:

  • Cakupan lokal yang luas: Mendukung lebih dari 140 lokal untuk ucapan ke teks dan menawarkan lebih dari 600 suara standar di 150+ lokal untuk teks ke ucapan, memastikan aksesibilitas global.
  • Input dan output yang dapat disesuaikan: Gunakan daftar frasa untuk penyesuaian just-in-time yang ringan pada input audio atau model ucapan kustom untuk penyempurnaan pengenalan ucapan tingkat lanjut. Gunakan suara kustom untuk membuat suara unik yang selaras dengan merek untuk output audio. Lihat Cara menyesuaikan input dan output Voice Live untuk mempelajari selengkapnya.
  • Opsi model AI generatif yang fleksibel: Pilih dari beberapa model, termasuk GPT-5, GPT-4.1, GPT-4o, Phi, dan lebih disesuaikan dengan persyaratan percakapan.
  • Fitur percakapan tingkat lanjut:
    • Penekanan kebisingan: Mengurangi kebisingan lingkungan untuk komunikasi yang lebih jelas.
    • Pembatalan gema: Mencegah agen mengambil responsnya sendiri.
    • Deteksi gangguan yang kuat: Memastikan pengenalan gangguan yang akurat selama percakapan.
    • Deteksi akhir giliran tingkat lanjut: Memungkinkan jeda alami tanpa menyimpulkan interaksi secara prematur.
  • Integrasi Avatar: Menyediakan avatar standar atau dapat disesuaikan yang disinkronkan dengan output audio, menawarkan identitas visual untuk agen suara.
  • Pemanggilan fungsi: Memungkinkan tindakan eksternal, penggunaan alat, dan respons grounded menggunakan pola VoiceRAG.

Desain dan kompatibilitas API

Voice Live API dirancang untuk kompatibilitas dengan Azure OpenAI Realtime API. Peristiwa real-time yang didukung sebagian besar cocok dengan peristiwa Azure OpenAI Realtime API, dengan beberapa pengecualian yang dijelaskan dalam panduan cara Voice Live API.

Fitur yang unik untuk Voice Live API bersifat opsional dan aditif. Anda dapat menambahkan Azure Speech ke kemampuan Foundry Tools seperti penindasan kebisingan, pembatalan gema, dan tingkat lanjut deteksi akhir giliran ke aplikasi yang ada tanpa mengubah arsitektur yang ada.

API didukung melalui peristiwa WebSocket, memungkinkan integrasi server-ke-server yang mudah. Layanan backend atau tingkat menengah Anda terhubung ke Voice Live API melalui WebSockets. Anda dapat menggunakan pesan WebSocket secara langsung untuk berinteraksi dengan API.

Model dan wilayah yang didukung

Untuk mendukung kecerdasan agen suara Anda, Anda memiliki fleksibilitas dan pilihan dalam model AI generatif antara GPT-Realtime, GPT-5, GPT-4.1, Phi, dan banyak lagi opsi. Model AI generatif yang berbeda menyediakan berbagai jenis kemampuan, tingkat kecerdasan, kecepatan dan latensi inferensi, dan biaya. Tergantung pada hal yang paling penting bagi bisnis dan kasus penggunaan Anda, pilih model yang paling sesuai dengan kebutuhan Anda.

Semua model yang didukung secara asli dikelola sepenuhnya, sehingga Anda tidak perlu menyebarkan model, melakukan perencanaan kapasitas, atau menyediakan throughput. Gunakan model yang Anda butuhkan, dan Voice Live API mengurus sisanya.

Voice Live API mendukung model berikut. Untuk wilayah yang didukung, lihat wilayah layanan Azure Speech.

Modél Deskripsi
gpt-realtime GPT waktu nyata + opsi untuk menggunakan teks ke ucapan Azure termasuk suara kustom untuk audio.
gpt-realtime-mini GPT mini real-time + opsi untuk menggunakan teks ke suara Azure termasuk suara kustom untuk output audio.
gpt-4o Dari GPT-4o dengan input audio melalui transkripsi ucapan ke teks oleh Azure, hingga output audio melalui konversi teks ke suara oleh Azure, termasuk suara kustom.
gpt-4o-mini GPT-4o mini + input audio melalui Azure speech to text + output audio melalui Azure text to speech termasuk suara kustom.
gpt-4.1 GPT-4.1 + input audio melalui Azure Speech to Text + output audio melalui Azure Text to Speech termasuk suara kustomisasi.
gpt-4.1-mini Input audio GPT-4.1 mini melalui Azure ucapan ke teks + output audio melalui Azure teks ke suara ucapan termasuk suara kustom.
gpt-5 GPT-5 + input audio melalui ucapan Azure ke teks + output audio melalui teks Azure ke suara ucapan termasuk suara kustom.
gpt-5-mini Mini GPT-5 + input audio melalui ucapan ke teks Azure + output audio melalui teks ke suara ucapan Azure, termasuk suara kustom.
gpt-5-nano GPT-5 nano + input audio melalui Azure speech to text + output audio melalui Azure text to speech termasuk suara kustom.
gpt-5-chat Obrolan GPT-5 + input audio melalui Azure Speech-to-Text + output audio melalui Azure Text-to-Speech termasuk suara kustom.
phi4-mm-realtime Output phi4-mm + audio melalui teks Azure ke suara ucapan termasuk suara kustom.
phi4-mini Phi4-mm + input audio melalui Azure speech to text + output audio melalui Azure text to speech, termasuk suara kustom.

Membandingkan Voice Live API dengan solusi suara ke suara lainnya

Voice Live API adalah alternatif untuk mengatur beberapa komponen seperti pengenalan ucapan, AI generatif, dan teks ke ucapan. Orkestrasi ini dapat menjadi kompleks dan memakan waktu, membutuhkan upaya rekayasa yang signifikan untuk mengintegrasikan dan memelihara. Voice Live API menyederhanakan proses ini dengan menyediakan satu antarmuka untuk semua komponen ini. Pengembang dapat fokus membangun aplikasi mereka daripada mengelola infrastruktur yang mendasar.

Untuk memenuhi kebutuhan Anda, Anda dapat membangun solusi Anda sendiri atau menggunakan Voice Live API. Tabel ini membandingkan pendekatan:

Persyaratan aplikasi Lakukan sendiri API Suara Langsung
Cakupan lokal luas dengan akurasi tinggi (input audio)
Mempertahankan kepribadian merek dan karakter (hasil audio)
Penyempurnaan percakapan
Pilihan model AI generatif
Keluaran visual dengan avatar teks ke suara
Biaya rekayasa rendah
Latensi rendah yang dirasakan oleh pengguna akhir

Penetapan Harga

Harga untuk Voice Live API berlaku pada 1 Juli 2025.

Harga untuk Voice Live API berjenjang (Pro, Basic, dan Lite) berdasarkan model AI generatif yang digunakan. Anda tidak memilih tingkatan. Anda memilih model AI generatif dan harga yang sesuai berlaku:

Kategori harga Model
Voice Live pro gpt-realtime gpt-4o gpt-4.1 gpt-5 gpt-5-chat
Dasar-dasar Voice Live gpt-realtime-mini,gpt-4o-mini,gpt-4.1-mini,gpt-5-mini
Voice Live lite gpt-5-nano,phi4-mm-realtime, phi4-mini

Jika Anda memilih untuk menggunakan ucapan kustom, suara kustom, atau avatar kustom untuk input atau output ucapan, Anda dikenakan biaya terpisah untuk pelatihan dan hosting model. Lihat Harga Layanan Ucapan untuk detailnya.

Penting

Akses suara kustom dibatasi berdasarkan kriteria kelayakan dan penggunaan. Minta akses melalui formulir intake.

Penting

Akses avatar teks ke ucapan kustom dibatasi berdasarkan kriteria kelayakan dan penggunaan. Minta akses melalui formulir intake.

Contoh skenario harga

Berikut adalah beberapa contoh skenario harga untuk membantu Anda memahami bagaimana Voice Live API ditagih:

Skenario 1

Agen layanan pelanggan yang dibangun dengan input Azure Speech standar, GPT-4.1, output Azure Speech kustom, dan avatar kustom.

Anda dikenakan biaya dengan tarif pro Voice Live untuk:

  • Teks
  • Audio dengan Azure Speech - Standar
  • Audio dengan Azure Speech - Kustom

Anda dikenakan biaya terpisah untuk pelatihan dan hosting model:

  • Suara kustom – profesional
  • Avatar kustom

Skenario 2

Agen pembelajaran yang dibangun dengan gpt-realtime input audio asli dan output Azure Speech standar.

Anda dikenakan biaya dengan tarif pro Voice Live untuk:

  • Teks
  • Audio asli dengan gpt-realtime
  • Audio dengan Azure Speech - Standar

Skenario 3

Agen wawancara talenta yang dibekali dengan gpt-realtime-mini input audio asli, serta keluaran Azure Speech standar dan avatar standar.

Anda dikenakan biaya dengan tarif dasar Voice Live untuk:

  • Teks
  • Audio asli dengan gpt-realtime-mini
  • Audio dengan Azure Speech - Standar

Anda dikenakan biaya terpisah untuk:

  • Avatar teks ke ucapan (standar)

Skenario 4

Asisten dalam mobil yang dilengkapi dengan phi4-mm-realtime dan suara kustom Azure.

Anda dikenakan tarif Voice Live lite untuk:

  • Teks
  • Audio asli dengan phi4-mm-realtime

Anda dikenakan biaya dengan tarif pro Voice Live untuk:

  • Audio dengan Azure Speech - Kustom

Anda dikenakan biaya terpisah untuk pelatihan dan hosting model:

  • Suara kustom – profesional

Penggunaan token dan estimasi biaya

Token adalah unit yang digunakan model AI generatif untuk memproses input dan menghasilkan output. 

Anda dapat memperkirakan penggunaan token untuk keluarga model yang berbeda dengan Voice Live API berdasarkan panjang audio. Perhitungan token berikut berlaku untuk setiap keluarga model:

Keluarga model Input audio (token per detik) Keluaran audio (token per detik)
Azure OpenAI Model ~10 token ~20 token
Model Phi ~12.5 token ~20 token

Anda juga dikenakan biaya untuk input audio dan teks yang di-cache, termasuk perintah dan konteks percakapan.