Mengunggah himpunan data pelatihan dan pengujian untuk ucapan kustom

Artikel
10/16/2024

Anda memerlukan data audio atau teks untuk menguji akurasi pengenalan ucapan atau melatih model kustom Anda. Untuk informasi tentang jenis data yang didukung untuk menguji atau melatih model Anda, lihat Pelatihan dan pengujian himpunan data.

Tip

Anda juga dapat menggunakan editor transkripsi online untuk membuat dan memperbaiki himpunan data audio berlabel.

Mengunggah himpunan data

Untuk mengunggah himpunan data Anda sendiri di Speech Studio, ikuti langkah-langkah berikut:

Masuk ke Speech Studio.
Pilih Ucapan> kustom Himpunan>data Ucapan nama >proyek Anda Unggah data.
Pilih tab Data pelatihan atau Data pengujian.
Pilih jenis himpunan data, lalu pilih Berikutnya.
Tentukan lokasi himpunan data, lalu pilih Berikutnya. Anda dapat memilih file lokal atau memasukkan lokasi jarak jauh seperti URL Azure Blob. Jika Anda memilih lokasi jarak jauh, dan Anda tidak menggunakan mekanisme keamanan layanan Azure tepercaya, maka lokasi jarak jauh harus menjadi URL yang dapat diambil dengan permintaan GET anonim sederhana. Misalnya, URL SAS atau URL yang dapat diakses publik. URL yang memerlukan otorisasi tambahan, atau mengharapkan interaksi pengguna tidak didukung.

Catatan

Jika Anda menggunakan URL Azure Blob, Anda dapat memastikan keamanan maksimum file himpunan data Anda dengan menggunakan mekanisme keamanan layanan Azure tepercaya. Anda akan menggunakan teknik yang sama seperti untuk transkripsi Batch dan URL Akun Penyimpanan biasa untuk file himpunan data Anda. Lihat detailnya di sini.
Masukkan nama dan deskripsi himpunan data, lalu pilih Berikutnya.
Tinjau pengaturan Anda, lalu pilih Simpan dan tutup.

Setelah himpunan data Anda diunggah, buka halaman Latih model kustom untuk melatih model kustom.

Dengan Rest API Speech CLI dan Ucapan ke teks, tidak seperti Speech Studio, Anda tidak memilih apakah himpunan data untuk pengujian atau pelatihan pada saat pengunggahan. Anda menentukan bagaimana himpunan data digunakan saat Anda melatih model atau menjalankan pengujian.

Meskipun Anda tidak menunjukkan apakah himpunan data tersebut untuk pengujian atau pelatihan, Anda harus menentukan jenis himpunan data tersebut. Jenis himpunan data digunakan untuk menentukan jenis himpunan data yang dibuat. Dalam beberapa kasus, jenis himpunan data hanya digunakan untuk pengujian atau pelatihan, tetapi Anda tidak boleh bergantung padanya. Nilai CLI dan REST API Azure Cognitive Service untuk Ucapan kind sesuai dengan opsi di Studio Azure Cognitive Service untuk Ucapan seperti yang dijelaskan dalam tabel berikut:

Jenis CLI dan API	Opsi Studio Azure Cognitive Service untuk Ucapan
Akustik	Data pelatihan: Audio + transkrip berlabel manusia Data pengujian: Transkrip (sintesis audio otomatis) Data pengujian: Audio + transkrip berlabel manusia
AudioFiles	Data pengujian: Audio
Bahasa	Data pelatihan: Teks biasa
LanguageMarkdown	Data pelatihan: Teks terstruktur dalam format markdown
Pengucapan	Data pelatihan: Pengucapan
OutputFormatting	Data pelatihan: Format output

Penting

Anda tidak menggunakan Speech CLI atau REST API untuk mengunggah file data secara langsung. Pertama, Anda menyimpan file himpunan data pelatihan atau pengujian di URL yang dapat diakses oleh Speech CLI atau REST API. Setelah mengunggah file data, Anda dapat menggunakan Speech CLI atau REST API untuk membuat himpunan data untuk pengujian atau pelatihan ucapan kustom.

Untuk membuat himpunan data dan menyambungkannya ke proyek yang ada, gunakan perintah spx csr dataset create. Buat parameter permintaan sesuai dengan instruksi berikut:

Atur parameter project ke ID proyek yang ada. Parameter ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola himpunan data di Speech Studio. Anda dapat menjalankan perintah spx csr project list untuk mendapatkan proyek yang tersedia.
Atur parameter kind yang diperlukan. Kumpulan nilai yang mungkin untuk jenis himpunan data pelatihan adalah: Akustik, AudioFiles, Bahasa, LanguageMarkdown, dan Pengucapan.
Atur parameter contentUrl yang diperlukan. Parameter ini adalah lokasi himpunan data. Jika Anda tidak menggunakan mekanisme keamanan layanan Azure tepercaya (lihat Catatan berikutnya), parameter contentUrl harus berupa URL yang dapat diambil dengan permintaan GET anonim sederhana. Misalnya, URL SAS atau URL yang dapat diakses publik. URL yang memerlukan otorisasi tambahan, atau mengharapkan interaksi pengguna tidak didukung.

Catatan

Jika Anda menggunakan URL Azure Blob, Anda dapat memastikan keamanan maksimum file himpunan data Anda dengan menggunakan mekanisme keamanan layanan Azure tepercaya. Anda akan menggunakan teknik yang sama seperti untuk transkripsi Batch dan URL Akun Penyimpanan biasa untuk file himpunan data Anda. Lihat detailnya di sini.
Atur parameter language yang diperlukan. Lokal himpunan data harus cocok dengan lokal proyek. Lokal tidak dapat diubah nanti. Parameter language Speech CLI sesuai dengan properti locale dalam permintaan dan respons JSON.
Atur parameter name yang diperlukan. Parameter ini adalah nama yang ditampilkan di Speech Studio. Parameter name Speech CLI sesuai dengan properti displayName dalam permintaan dan respons JSON.

Berikut adalah contoh perintah CLI Azure Cognitive Service untuk Ucapan yang membuat himpunan data dan menyambungkannya ke proyek yang sudah ada:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Properti self tingkat atas di isi respons adalah URI himpunan data. Gunakan URI ini untuk mendapatkan detail tentang proyek dan file himpunan data. Anda juga menggunakan URI ini untuk memperbarui atau menghapus himpunan data.

Untuk bantuan CLI Azure Cognitive Service untuk Ucapan dengan himpunan data, jalankan perintah berikut:

spx help csr dataset

Jenis CLI dan API	Opsi Studio Azure Cognitive Service untuk Ucapan
Akustik	Data pelatihan: Audio + transkrip berlabel manusia Data pengujian: Transkrip (sintesis audio otomatis) Data pengujian: Audio + transkrip berlabel manusia
AudioFiles	Data pengujian: Audio
Bahasa	Data pelatihan: Teks biasa
LanguageMarkdown	Data pelatihan: Teks terstruktur dalam format markdown
Pengucapan	Data pelatihan: Pengucapan
OutputFormatting	Data pelatihan: Format output

Penting

Untuk membuat himpunan data dan menyambungkannya ke proyek yang ada, gunakan operasi Datasets_Create Rest API Ucapan ke teks. Buat isi permintaan sesuai dengan instruksi berikut:

Atur properti project ke URI proyek yang ada. Properti ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola himpunan data di Speech Studio. Anda dapat membuat permintaan Projects_List untuk mendapatkan proyek yang tersedia.
Atur properti kind yang diperlukan. Kumpulan nilai yang mungkin untuk jenis himpunan data pelatihan adalah: Akustik, AudioFiles, Bahasa, LanguageMarkdown, dan Pengucapan.
Atur properti contentUrl yang diperlukan. Properti ini adalah lokasi himpunan data. Jika Anda tidak menggunakan mekanisme keamanan layanan Azure tepercaya (lihat Catatan berikutnya), parameter contentUrl harus berupa URL yang dapat diambil dengan permintaan GET anonim sederhana. Misalnya, URL SAS atau URL yang dapat diakses publik. URL yang memerlukan otorisasi tambahan, atau mengharapkan interaksi pengguna tidak didukung.

Catatan

Jika Anda menggunakan URL Azure Blob, Anda dapat memastikan keamanan maksimum file himpunan data Anda dengan menggunakan mekanisme keamanan layanan Azure tepercaya. Anda akan menggunakan teknik yang sama seperti untuk transkripsi Batch dan URL Akun Penyimpanan biasa untuk file himpunan data Anda. Lihat detailnya di sini.
Atur properti locale yang diperlukan. Lokal himpunan data harus cocok dengan lokal proyek. Lokal tidak dapat diubah nanti.
Atur properti displayName yang diperlukan. Properti ini adalah nama yang ditampilkan di Speech Studio.

Buat permintaan HTTP POST menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Ganti YourSubscriptionKey dengan kunci sumber daya Ucapan Anda, ganti YourServiceRegion dengan wilayah sumber daya Ucapan Anda, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Penting

Menyambungkan himpunan data ke proyek ucapan kustom tidak diperlukan untuk melatih dan menguji model kustom menggunakan REST API atau Speech CLI. Namun jika himpunan data tidak tersambung ke proyek apa pun, Anda tidak dapat memilihnya untuk pelatihan atau pengujian di Studio Azure Cognitive Service untuk Ucapan.

Bagikan melalui

Mengunggah himpunan data pelatihan dan pengujian untuk ucapan kustom

Mengunggah himpunan data

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan: