Bagikan melalui


Apa itu ucapan ke teks?

Layanan Azure AI Speech menawarkan kemampuan ucapan ke teks tingkat lanjut. Fitur ini mendukung transkripsi real-time dan batch, menyediakan solusi serbaguna untuk mengonversi aliran audio menjadi teks.

Fitur Inti

Layanan ucapan ke teks menawarkan fitur inti berikut:

  • Transkripsi real time: Transkripsi instan dengan hasil perantara untuk input audio langsung.
  • Transkripsi cepat: Output sinkron tercepat untuk situasi dengan latensi yang dapat diprediksi.
  • Transkripsi batch: Pemrosesan efisien untuk volume besar audio yang telah direkam sebelumnya.
  • Ucapan kustom: Model dengan akurasi yang ditingkatkan untuk domain dan kondisi tertentu.

Ucapan real time ke teks

Ucapan real time ke teks mentranskripsikan audio seperti yang dikenali dari mikrofon atau file. Ini ideal untuk aplikasi yang memerlukan transkripsi segera, seperti:

  • Transkripsi, keterangan, atau subtitel untuk rapat langsung: Transkripsi audio real time untuk aksesibilitas dan penyimpanan rekaman.
  • Diarisasi: Mengidentifikasi dan membedakan antara speaker yang berbeda dalam audio.
  • Penilaian pengucapan: Mengevaluasi dan memberikan umpan balik tentang akurasi pengucapan.
  • Agen pusat panggilan membantu: Menyediakan transkripsi real time untuk membantu perwakilan layanan pelanggan.
  • Dikte: Menerjemahkan kata-kata lisan ke dalam teks tertulis untuk tujuan dokumentasi.
  • Agen suara: Mengaktifkan sistem respons suara interaktif untuk mentranskripsikan kueri dan perintah pengguna.

Ucapan real time ke teks dapat diakses melalui Speech SDK, Speech CLI, dan REST API, memungkinkan integrasi ke dalam berbagai aplikasi dan alur kerja. Ucapan real time ke teks tersedia melalui Speech SDK, Speech CLI, dan REST API seperti API transkripsi Cepat.

Transkripsi cepat (Pratinjau)

API transkripsi cepat digunakan untuk mentranskripsikan file audio dengan mengembalikan hasil secara sinkron dan lebih cepat daripada audio real-time. Gunakan transkripsi cepat dalam skenario yang Anda butuhkan transkrip rekaman audio secepat mungkin dengan latensi yang dapat diprediksi, seperti:

  • Transkripsi dan subtitel audio atau video cepat: Dapatkan transkripsi seluruh file video atau audio dengan cepat sekaligus.
  • Terjemahan video: Segera dapatkan subtitel baru untuk video jika Anda memiliki audio dalam bahasa yang berbeda.

Catatan

API transkripsi cepat hanya tersedia melalui REST API ucapan ke teks versi 2024-05-15-preview dan yang lebih baru.

Untuk mulai menggunakan transkripsi cepat, lihat menggunakan API transkripsi cepat (pratinjau).

API transkripsi batch

Transkripsi batch dirancang untuk menerjemahkan audio dalam jumlah besar yang disimpan dalam file. Metode ini memproses audio secara asinkron dan cocok untuk:

  • Transkripsi, keterangan, atau subtitel untuk audio yang telah direkam sebelumnya: Mengonversi konten audio yang disimpan menjadi teks.
  • Analitik pasca-panggilan pusat kontak: Menganalisis panggilan yang direkam untuk mengekstrak wawasan berharga.
  • Diarisasi: Membedakan antara speaker dalam audio yang direkam.

Transkripsi batch tersedia melalui:

  • REST API ucapan ke teks: Memfasilitasi pemrosesan batch dengan fleksibilitas panggilan RESTful. Untuk memulai, lihat Cara menggunakan transkripsi batch dan sampel transkripsi Batch.

  • Speech CLI: Mendukung transkripsi real-time dan batch, sehingga mudah untuk mengelola tugas transkripsi. Untuk bantuan Speech CLI dengan transkripsi batch, jalankan perintah berikut:

    spx help batch transcription
    

Ucapan kustom

Dengan ucapan kustom, Anda dapat mengevaluasi dan meningkatkan akurasi pengenalan ucapan untuk aplikasi dan produk Anda. Model ucapan kustom dapat digunakan untuk ucapan real time ke teks, terjemahan ucapan, dan transkripsi batch.

Tip

Titik akhir penyebaran yang dihosting tidak diperlukan untuk menggunakan ucapan kustom dengan API transkripsi Batch. Anda dapat menghemat sumber daya jika model ucapan kustom hanya digunakan untuk transkripsi batch. Untuk informasi selengkapnya, lihat Harga layanan Azure Cognitive Service untuk Ucapan.

Di luar kotak, pengenalan ucapan menggunakan Model Bahasa Universal sebagai model dasar yang dilatih dengan data milik Microsoft dan mencerminkan bahasa lisan yang umum digunakan. Model dasar telah dilatih sebelumnya dengan dialek dan fonetik yang mewakili berbagai domain umum. Saat Anda membuat permintaan pengenalan ucapan, model dasar terbaru untuk setiap bahasa yang didukung digunakan secara default. Model dasar bekerja dengan baik dalam sebagian besar skenario pengenalan ucapan.

Ucapan kustom memungkinkan Anda menyesuaikan model pengenalan ucapan agar lebih sesuai dengan kebutuhan spesifik aplikasi Anda. Ini dapat sangat berguna untuk:

  • Meningkatkan pengenalan kosakata khusus domain: Latih model dengan data teks yang relevan dengan bidang Anda.
  • Meningkatkan akurasi untuk kondisi audio tertentu: Gunakan data audio dengan transkripsi referensi untuk menyempurnakan model.

Untuk informasi selengkapnya tentang ucapan kustom, lihat gambaran umum ucapan kustom dan dokumentasi REST API ucapan ke teks.

Untuk detail tentang opsi kustomisasi per bahasa dan lokal, lihat bahasa dan dukungan suara untuk dokumentasi layanan Ucapan.

Contoh Penggunaan

Berikut adalah beberapa contoh praktis tentang bagaimana Anda dapat menggunakan ucapan Azure AI ke teks:

Gunakan huruf besar Skenario Solusi
Transkripsi dan keterangan rapat langsung Platform peristiwa virtual perlu memberikan keterangan real time untuk webinar. Integrasikan ucapan real time ke teks menggunakan Speech SDK untuk mentranskripsikan konten lisan ke dalam keterangan yang ditampilkan secara langsung selama acara.
Peningkatan layanan pelanggan Pusat panggilan ingin membantu agen dengan menyediakan transkripsi panggilan pelanggan secara real time. Gunakan ucapan real-time ke teks melalui Speech CLI untuk mentranskripsikan panggilan, memungkinkan agen untuk lebih memahami dan menanggapi kueri pelanggan.
Subtitel video Platform hosting video ingin dengan cepat menghasilkan sekumpulan subtitel untuk video. Gunakan transkripsi cepat untuk mendapatkan sekumpulan subtitel dengan cepat untuk seluruh video.
Alat pendidikan Platform e-learning bertujuan untuk memberikan transkripsi untuk kuliah video. Terapkan transkripsi batch melalui UCAPAN ke teks REST API untuk memproses video kuliah yang telah direkam sebelumnya, menghasilkan transkrip teks untuk siswa.
Dokumentasi layanan kesehatan Penyedia layanan kesehatan perlu mendokumen konsultasi pasien. Gunakan ucapan real-time untuk teks untuk dikte, memungkinkan profesional layanan kesehatan untuk berbicara catatan mereka dan membuatnya ditranskripsikan secara instan. Gunakan model kustom untuk meningkatkan pengenalan istilah medis tertentu.
Media dan hiburan Perusahaan media ingin membuat subtitel untuk arsip video yang besar. Gunakan transkripsi batch untuk memproses file video secara massal, menghasilkan subtitel yang akurat untuk setiap video.
Riset pasar Perusahaan riset pasar perlu menganalisis umpan balik pelanggan dari rekaman audio. Gunakan transkripsi batch untuk mengonversi umpan balik audio menjadi teks, memungkinkan analisis dan ekstraksi wawasan yang lebih mudah.

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.