Membuat proyek ucapan kustom

Artikel
04/15/2024

Proyek ucapan kustom berisi model, himpunan data pelatihan dan pengujian, dan titik akhir penyebaran. Setiap proyek khusus untuk lokal. Misalnya, Anda dapat membuat proyek untuk bahasa Inggris di Amerika Serikat.

Membuat proyek

Untuk membuat proyek ucapan kustom, ikuti langkah-langkah berikut:

Masuk ke Speech Studio.
Pilih langganan dan sumber Ucapan untuk digunakan.

Penting

Jika Anda akan melatih model kustom dengan data audio, pilih wilayah sumber daya Ucapan dengan perangkat keras khusus untuk melatih data audio. Lihat catatan kaki di tabel wilayah untuk informasi selengkapnya.
Pilih Ucapan kustom>Buat proyek baru.
Ikuti instruksi yang diberikan oleh wizard untuk membuat proyek Anda.

Pilih proyek baru berdasarkan nama atau pilih Buka proyek. Anda akan melihat item menu ini di panel kiri: Himpunan data ucapan, Melatih model kustom, Menguji model, dan Menyebarkan model.

Untuk membuat proyek, gunakan perintah spx csr project create. Buat parameter permintaan sesuai dengan instruksi berikut:

Atur parameter language yang diperlukan. Lokal proyek dan himpunan data yang terkandung harus sama. Lokal tidak dapat diubah nanti. Parameter language Speech CLI sesuai dengan properti locale dalam permintaan dan respons JSON.
Atur parameter name yang diperlukan. Ini adalah nama yang ditampilkan di Speech Studio. Parameter name Speech CLI sesuai dengan properti displayName dalam permintaan dan respons JSON.

Berikut adalah contoh perintah Speech CLI yang membuat pengujian:

spx csr project create --api-version v3.1 --name "My Project" --description "My Project Description" --language "en-US"

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Properti self tingkat atas dalam isi respons adalah URI proyek. Gunakan URI ini untuk mendapatkan detail tentang evaluasi, himpunan data, model, titik akhir, dan transkripsi proyek. Anda juga menggunakan URI ini untuk memperbarui atau menghapus proyek.

Untuk bantuan Speech CLI dengan titik akhir, jalankan perintah berikut:

spx help csr project

Untuk membuat proyek, gunakan operasi Projects_Create Rest API Ucapan ke teks. Buat isi permintaan sesuai dengan instruksi berikut:

Atur properti locale yang diperlukan. Ini harus menjadi lokal himpunan data yang terkandung. Lokal tidak dapat diubah nanti.
Atur properti displayName yang diperlukan. Ini adalah nama proyek yang ditampilkan di Speech Studio.

Buat permintaan HTTP POST menggunakan URI seperti yang ditunjukkan dalam contoh Projects_Create berikut. Ganti YourSubscriptionKey dengan kunci sumber daya Ucapan Anda, ganti YourServiceRegion dengan wilayah sumber daya Ucapan Anda, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/projects"

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Pilih model Anda

Ada beberapa pendekatan untuk menggunakan model ucapan kustom:

Model dasar memberikan pengenalan ucapan yang akurat di luar kotak untuk berbagai skenario. Model dasar diperbarui secara berkala untuk meningkatkan akurasi dan kualitas. Sebaiknya gunakan model dasar default terbaru, jika Anda menggunakan model dasar. Jika kemampuan penyesuaian yang diperlukan hanya tersedia dengan model yang lebih lama, Anda dapat memilih model dasar yang lebih lama.
Model khusus menambah model dasar untuk menyertakan kosakata khusus domain yang dibagikan di semua area domain kustom.
Beberapa model kustom dapat digunakan bila domain kustom memiliki beberapa area, masing-masing dengan kosakata tertentu.

Salah satu cara yang direkomendasikan untuk melihat apakah model dasar cukup adalah menganalisis transkripsi yang dihasilkan dari model dasar dan membandingkannya dengan transkrip yang dihasilkan manusia untuk audio yang sama. Anda dapat membandingkan transkrip dan mendapatkan skor tingkat kesalahan kata (WER). Jika skor WER tinggi, latih model kustom untuk mengenali kata yang salah diidentifikasi disarankan.

Beberapa model direkomendasikan jika kosakata bervariasi di seluruh area domain. Misalnya, komentator Olimpiade melaporkan berbagai peristiwa, masing-masing terkait dengan bahasa daerahnya sendiri. Karena setiap kosakata acara Olimpiade berbeda secara signifikan dari yang lain, membangun model khusus untuk suatu acara meningkatkan akurasi dengan membatasi data ucapan relatif terhadap acara tertentu. Akibatnya, model tidak perlu menyaring data yang tidak terkait untuk membuat kecocokan. Terlepas dari itu, pelatihan masih membutuhkan berbagai data pelatihan yang layak. Sertakan audio dari berbagai komentator yang memiliki aksen berbeda, jenis kelamin, usia, dan sebagainya.

Stabilitas dan siklus hidup model

Model dasar atau model kustom yang disebarkan ke titik akhir menggunakan ucapan kustom diperbaiki hingga Anda memutuskan untuk memperbaruinya. Akurasi dan kualitas pengenalan ucapan tetap konsisten, bahkan ketika model dasar baru dirilis. Ini memungkinkan Anda untuk mengunci perilaku model tertentu sampai Anda memutuskan untuk menggunakan model yang lebih baru.

Baik Anda melatih model Anda sendiri atau menggunakan snapshot model dasar, Anda dapat menggunakan model tersebut untuk waktu yang terbatas. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Membuat proyek ucapan kustom

Membuat proyek

Pilih model Anda

Stabilitas dan siklus hidup model

Langkah berikutnya

Sumber Daya Tambahan: