Apa itu ucapan ke teks?

Artikel
11/23/2024

Layanan Azure AI Speech menawarkan kemampuan ucapan ke teks tingkat lanjut. Fitur ini mendukung transkripsi real-time dan batch, menyediakan solusi serbaguna untuk mengonversi aliran audio menjadi teks.

Fitur Inti

Layanan ucapan ke teks menawarkan fitur inti berikut:

Transkripsi real time: Transkripsi instan dengan hasil perantara untuk input audio langsung.
Transkripsi cepat: Output sinkron tercepat untuk situasi dengan latensi yang dapat diprediksi.
Transkripsi batch: Pemrosesan efisien untuk volume besar audio yang telah direkam sebelumnya.
Ucapan kustom: Model dengan akurasi yang ditingkatkan untuk domain dan kondisi tertentu.

Ucapan real time ke teks

Ucapan real time ke teks mentranskripsikan audio seperti yang dikenali dari mikrofon atau file. Ini ideal untuk aplikasi yang memerlukan transkripsi segera, seperti:

Transkripsi, keterangan, atau subtitel untuk rapat langsung: Transkripsi audio real time untuk aksesibilitas dan penyimpanan rekaman.
Diarisasi: Mengidentifikasi dan membedakan antara speaker yang berbeda dalam audio.
Penilaian pengucapan: Mengevaluasi dan memberikan umpan balik tentang akurasi pengucapan.
Agen pusat panggilan membantu: Menyediakan transkripsi real time untuk membantu perwakilan layanan pelanggan.
Dikte: Menerjemahkan kata-kata lisan ke dalam teks tertulis untuk tujuan dokumentasi.
Agen suara: Mengaktifkan sistem respons suara interaktif untuk mentranskripsikan kueri dan perintah pengguna.

Ucapan real time ke teks dapat diakses melalui Speech SDK, Speech CLI, dan REST API, memungkinkan integrasi ke dalam berbagai aplikasi dan alur kerja. Ucapan real time ke teks tersedia melalui Speech SDK, Speech CLI, dan Speech to text REST API untuk audio pendek.

Transkripsi cepat

API transkripsi cepat digunakan untuk mentranskripsikan file audio dengan mengembalikan hasil secara sinkron dan lebih cepat daripada audio real-time. Gunakan transkripsi cepat dalam skenario yang Anda butuhkan transkrip rekaman audio secepat mungkin dengan latensi yang dapat diprediksi, seperti:

Transkripsi dan subtitel audio atau video cepat: Dapatkan transkripsi seluruh file video atau audio dengan cepat sekaligus.
Terjemahan video: Segera dapatkan subtitel baru untuk video jika Anda memiliki audio dalam bahasa yang berbeda.

Untuk mulai menggunakan transkripsi cepat, lihat menggunakan API transkripsi cepat.

API transkripsi batch

Transkripsi batch dirancang untuk menerjemahkan audio dalam jumlah besar yang disimpan dalam file. Metode ini memproses audio secara asinkron dan cocok untuk:

Transkripsi, keterangan, atau subtitel untuk audio yang telah direkam sebelumnya: Mengonversi konten audio yang disimpan menjadi teks.
Analitik pasca-panggilan pusat kontak: Menganalisis panggilan yang direkam untuk mengekstrak wawasan berharga.
Diarisasi: Membedakan antara speaker dalam audio yang direkam.

Transkripsi batch tersedia melalui:

REST API ucapan ke teks: Memfasilitasi pemrosesan batch dengan fleksibilitas panggilan RESTful. Untuk memulai, lihat Cara menggunakan transkripsi batch dan sampel transkripsi Batch.
Speech CLI: Mendukung transkripsi real-time dan batch, sehingga mudah untuk mengelola tugas transkripsi. Untuk bantuan Speech CLI dengan transkripsi batch, jalankan perintah berikut:
```
spx help batch transcription
```

Ucapan kustom

Dengan ucapan kustom, Anda dapat mengevaluasi dan meningkatkan akurasi pengenalan ucapan untuk aplikasi dan produk Anda. Model ucapan kustom dapat digunakan untuk ucapan real time ke teks, terjemahan ucapan, dan transkripsi batch.

Tip

Titik akhir penyebaran yang dihosting tidak diperlukan untuk menggunakan ucapan kustom dengan API transkripsi Batch. Anda dapat menghemat sumber daya jika model ucapan kustom hanya digunakan untuk transkripsi batch. Untuk informasi selengkapnya, lihat Harga layanan Azure Cognitive Service untuk Ucapan.

Di luar kotak, pengenalan ucapan menggunakan Model Bahasa Universal sebagai model dasar yang dilatih dengan data milik Microsoft dan mencerminkan bahasa lisan yang umum digunakan. Model dasar telah dilatih sebelumnya dengan dialek dan fonetik yang mewakili berbagai domain umum. Saat Anda membuat permintaan pengenalan ucapan, model dasar terbaru untuk setiap bahasa yang didukung digunakan secara default. Model dasar bekerja dengan baik dalam sebagian besar skenario pengenalan ucapan.

Ucapan kustom memungkinkan Anda menyesuaikan model pengenalan ucapan agar lebih sesuai dengan kebutuhan spesifik aplikasi Anda. Ini dapat sangat berguna untuk:

Meningkatkan pengenalan kosakata khusus domain: Latih model dengan data teks yang relevan dengan bidang Anda.
Meningkatkan akurasi untuk kondisi audio tertentu: Gunakan data audio dengan transkripsi referensi untuk menyempurnakan model.

Untuk informasi selengkapnya tentang ucapan kustom, lihat gambaran umum ucapan kustom dan dokumentasi REST API ucapan ke teks.

Untuk detail tentang opsi kustomisasi per bahasa dan lokal, lihat bahasa dan dukungan suara untuk dokumentasi layanan Ucapan.

Contoh Penggunaan

Berikut adalah beberapa contoh praktis tentang bagaimana Anda dapat menggunakan ucapan Azure AI ke teks:

Gunakan huruf besar	Skenario	Solusi
Transkripsi dan keterangan rapat langsung	Platform peristiwa virtual perlu memberikan keterangan real time untuk webinar.	Integrasikan ucapan real time ke teks menggunakan Speech SDK untuk mentranskripsikan konten lisan ke dalam keterangan yang ditampilkan secara langsung selama acara.
Peningkatan layanan pelanggan	Pusat panggilan ingin membantu agen dengan menyediakan transkripsi panggilan pelanggan secara real time.	Gunakan ucapan real-time ke teks melalui Speech CLI untuk mentranskripsikan panggilan, memungkinkan agen untuk lebih memahami dan menanggapi kueri pelanggan.
Subtitel video	Platform hosting video ingin dengan cepat menghasilkan sekumpulan subtitel untuk video.	Gunakan transkripsi cepat untuk mendapatkan sekumpulan subtitel dengan cepat untuk seluruh video.
Alat pendidikan	Platform e-learning bertujuan untuk memberikan transkripsi untuk kuliah video.	Terapkan transkripsi batch melalui UCAPAN ke teks REST API untuk memproses video kuliah yang telah direkam sebelumnya, menghasilkan transkrip teks untuk siswa.
Dokumentasi layanan kesehatan	Penyedia layanan kesehatan perlu mendokumen konsultasi pasien.	Gunakan ucapan real-time untuk teks untuk dikte, memungkinkan profesional layanan kesehatan untuk berbicara catatan mereka dan membuatnya ditranskripsikan secara instan. Gunakan model kustom untuk meningkatkan pengenalan istilah medis tertentu.
Media dan hiburan	Perusahaan media ingin membuat subtitel untuk arsip video yang besar.	Gunakan transkripsi batch untuk memproses file video secara massal, menghasilkan subtitel yang akurat untuk setiap video.
Riset pasar	Perusahaan riset pasar perlu menganalisis umpan balik pelanggan dari rekaman audio.	Gunakan transkripsi batch untuk mengonversi umpan balik audio menjadi teks, memungkinkan analisis dan ekstraksi wawasan yang lebih mudah.

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.

Mulai menggunakan ucapan ke teks
Membuat transkripsi batch
Untuk informasi harga terperinci, kunjungi halaman harga layanan Ucapan.

Bagikan melalui

Apa itu ucapan ke teks?

Fitur Inti

Ucapan real time ke teks

Transkripsi cepat

API transkripsi batch

Ucapan kustom

Contoh Penggunaan

AI yang Bertanggung Jawab

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Apa itu ucapan ke teks?

Fitur Inti

Ucapan real time ke teks

Transkripsi cepat

API transkripsi batch

Ucapan kustom

Contoh Penggunaan

AI yang Bertanggung Jawab

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: