Memigrasikan kode dari v3.1 ke v3.2 dari REST API
REST API Ucapan ke teks digunakan untuk transkripsi Batch dan ucapan kustom. Artikel ini menjelaskan perubahan dari versi 3.1 ke 3.2.
Penting
REST API ucapan ke teks v3.2 adalah versi terbaru yang tersedia secara umum. Pratinjau versi 3.2-preview.1 dan 3.2-preview.2* akan dihapus pada bulan September 2024. REST API ucapan ke teks v3.1 akan dihentikan pada tanggal yang akan diumumkan. REST API ucapan ke teks v3.0 akan dihentikan pada 1 April 2026.
Jalur dasar
Anda harus memperbarui jalur dasar dalam kode Anda dari /speechtotext/v3.1
ke /speechtotext/v3.2
. Misalnya, untuk mendapatkan model dasar di wilayah tersebut eastus
, gunakan https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base
alih-alih https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
.
Untuk informasi selengkapnya, lihat ID operasi nanti di panduan ini.
Transkripsi batch
Penting
Harga baru berlaku untuk transkripsi batch melalui Ucapan ke teks REST API v3.2. Untuk informasi selengkapnya, lihat panduan harga.
Batasan kompatibilitas mundur
Jangan gunakan Ucapan ke teks REST API v3.0 atau v3.1 untuk mengambil transkripsi yang dibuat melalui Ucapan ke teks REST API v3.2. Anda mungkin melihat pesan kesalahan seperti: "Versi API tidak dapat digunakan untuk mengakses transkripsi ini. Gunakan API versi v3.2 atau yang lebih tinggi."
Mode identifikasi bahasa
LanguageIdentificationMode
ditambahkan ke LanguageIdentificationProperties
sebagai saudara kandung dari candidateLocales
dan speechModelMapping
. Mode yang tersedia untuk identifikasi bahasa adalah Continuous
atau Single
. Identifikasi bahasa berkelanjutan adalah default. Untuk informasi selengkapnya, lihat Model identifikasi bahasa.
Model bisikan
Azure AI Speech sekarang mendukung model Whisper OpenAI melalui Rest API Ucapan ke teks v3.2. Untuk mempelajari lebih lanjut , lihat panduan Membuat transkripsi batch.
Catatan
Azure OpenAI Service juga mendukung model Whisper OpenAI untuk ucapan ke teks dengan REST API sinkron. Untuk mempelajari lebih lanjut , lihat mulai cepat. Lihat Apa model Whisper? untuk mempelajari selengkapnya tentang kapan menggunakan Azure AI Speech vs. Azure OpenAI Service.
Ucapan kustom
Penting
Anda akan dikenakan biaya untuk pelatihan model ucapan kustom jika model dasar dibuat pada 1 Oktober 2023 dan yang lebih baru. Anda tidak dikenakan biaya untuk pelatihan jika model dasar dibuat sebelum Oktober 2023. Untuk informasi selengkapnya, lihat Harga Azure AI Speech.
Untuk menentukan secara terprogram apakah model dibuat sebelum atau sesudah 1 Oktober 2023, gunakan chargedForAdaptation
properti yang baru dalam versi 3.2.
Pemformatan teks tampilan kustom
Untuk mendukung adaptasi model dengan data pemformatan teks tampilan kustom, operasi Datasets_Create mendukung jenis data OutputFormatting . Untuk informasi selengkapnya, lihat mengunggah himpunan data.
Menambahkan definisi untuk OutputFormatType
dengan Lexical
nilai enum dan Display
.
"OutputFormatType": {
"title": "OutputFormatType",
"enum": [
"Lexical",
"Display"
],
"type": "string",
"x-ms-enum": {
"name": "OutputFormatType",
"modelAsString": true,
"values": [
{
"value": "Lexical",
"description": "Model provides the transcription output without formatting."
},
{
"value": "Display",
"description": "Model supports display formatting transcriptions output or endpoints."
}
]
}
},
Nilai OutputFormattingData
enum ditambahkan ke FileKind
(jenis data input).
Properti supportedOutputFormat
ditambahkan ke BaseModelFeatures
. Properti ini berada dalam BaseModel
definisi.
"BaseModelFeatures": {
"title": "BaseModelFeatures",
"description": "Features supported by the model.",
"type": "object",
"allOf": [
{
"$ref": "#/definitions/SharedModelFeatures"
}
],
"properties": {
"supportsAdaptationsWith": {
"description": "Supported dataset kinds to adapt the model.",
"type": "array",
"items": {
"$ref": "#/definitions/DatasetKind"
},
"readOnly": true
},
"supportedOutputFormat": {
"description": "Supported output formats.",
"type": "array",
"items": {
"$ref": "#/definitions/OutputFormatType"
},
"readOnly": true
}
}
},
Biaya untuk adaptasi
Properti chargeForAdaptation
ditambahkan ke BaseModelProperties
. Properti ini berada dalam BaseModel
definisi.
Penting
Anda akan dikenakan biaya untuk pelatihan model ucapan kustom jika model dasar dibuat pada 1 Oktober 2023 dan yang lebih baru. Anda tidak dikenakan biaya untuk pelatihan jika model dasar dibuat sebelum Oktober 2023. Untuk informasi selengkapnya, lihat Harga Azure AI Speech.
Jika nilainya chargeForAdaptation
adalah true
, Anda dikenakan biaya untuk melatih model. Jika nilainya adalah false
, Anda dikenakan biaya untuk melatih model. chargeForAdaptation
Gunakan properti alih-alih tanggal yang dibuat untuk menentukan secara terprogram apakah Anda dikenakan biaya untuk melatih model.
"BaseModelProperties": {
"title": "BaseModelProperties",
"type": "object",
"properties": {
"deprecationDates": {
"$ref": "#/definitions/BaseModelDeprecationDates"
},
"features": {
"$ref": "#/definitions/BaseModelFeatures"
},
"chargeForAdaptation": {
"description": "A value indicating whether model adaptation is charged.",
"type": "boolean",
"readOnly": true
}
}
},
Normalisasi teks
Properti textNormalizationKind
ditambahkan ke DatasetProperties
.
Definisi entitas untuk TextNormalizationKind: Jenis normalisasi teks.
- Default: Normalisasi teks default (misalnya, 'dua hingga tiga' menggantikan '2 hingga 3' di en-US).
- Tidak Ada: Tidak ada normalisasi teks yang diterapkan ke teks input. Nilai ini adalah opsi penimpaan yang hanya boleh digunakan saat teks dinormalisasi sebelum unggahan.
Properti evaluasi
Menambahkan jumlah token dan properti kesalahan token ke EvaluationProperties
properti:
correctTokenCount1
: Jumlah token yang dikenali dengan benar oleh model1.tokenCount1
: Jumlah token yang diproses berdasarkan model1.tokenDeletionCount1
: Jumlah token yang dikenali oleh model1 yang merupakan penghapusan.tokenErrorRate1
: Tingkat kesalahan token pengenalan dengan model1.tokenInsertionCount1
: Jumlah token yang dikenali oleh model1 yang merupakan penyisipan.tokenSubstitutionCount1
: Jumlah kata yang dikenali oleh model1 yang merupakan substitusi.correctTokenCount2
: Jumlah token yang dikenali dengan benar oleh model2.tokenCount2
: Jumlah token yang diproses oleh model2.tokenDeletionCount2
: Jumlah token yang dikenali oleh model2 yang merupakan penghapusan.tokenErrorRate2
: Tingkat kesalahan token pengenalan dengan model2.tokenInsertionCount2
: Jumlah token yang dikenali oleh model2 yang merupakan penyisipan.tokenSubstitutionCount2
: Jumlah kata yang dikenali oleh model2 yang merupakan substitusi.
Salinan model
Perubahan berikut adalah untuk skenario tempat Anda menyalin model.
- Menambahkan operasi Models_Copy baru. Berikut adalah skema dalam operasi penyalinan baru:
"$ref": "#/definitions/ModelCopyAuthorization"
- Menghentikan operasi Models_CopyTo. Berikut adalah skema dalam operasi penyalinan yang tidak digunakan lagi:
"$ref": "#/definitions/ModelCopy"
- Menambahkan operasi Models_AuthorizeCopy baru yang mengembalikan
"$ref": "#/definitions/ModelCopyAuthorization"
. Entitas yang dikembalikan ini dapat digunakan dalam operasi Models_Copy baru.
Menambahkan definisi entitas baru untuk ModelCopyAuthorization
:
"ModelCopyAuthorization": {
"title": "ModelCopyAuthorization",
"required": [
"expirationDateTime",
"id",
"sourceResourceId",
"targetResourceEndpoint",
"targetResourceId",
"targetResourceRegion"
],
"type": "object",
"properties": {
"targetResourceRegion": {
"description": "The region (aka location) of the target speech resource (e.g., westus2).",
"minLength": 1,
"type": "string"
},
"targetResourceId": {
"description": "The Azure Resource ID of the target speech resource.",
"minLength": 1,
"type": "string"
},
"targetResourceEndpoint": {
"description": "The endpoint (base url) of the target resource (with custom domain name when it is used).",
"minLength": 1,
"type": "string"
},
"sourceResourceId": {
"description": "The Azure Resource ID of the source speech resource.",
"minLength": 1,
"type": "string"
},
"expirationDateTime": {
"format": "date-time",
"description": "The expiration date of this copy authorization.",
"type": "string"
},
"id": {
"description": "The ID of this copy authorization.",
"minLength": 1,
"type": "string"
}
}
},
Menambahkan definisi entitas baru untuk ModelCopyAuthorizationDefinition
:
"ModelCopyAuthorizationDefinition": {
"title": "ModelCopyAuthorizationDefinition",
"required": [
"sourceResourceId"
],
"type": "object",
"properties": {
"sourceResourceId": {
"description": "The Azure Resource ID of the source speech resource.",
"minLength": 1,
"type": "string"
}
}
},
Properti salinan CustomModelLinks
Menambahkan properti baru copy
.
copyTo
URI: Lokasi tindakan penyalinan model usang. Lihat operasi Models_CopyTo untuk detail selengkapnya.copy
URI: Lokasi tindakan penyalinan model. Lihat operasi Models_Copy untuk detail selengkapnya.
"CustomModelLinks": {
"title": "CustomModelLinks",
"type": "object",
"properties": {
"copyTo": {
"format": "uri",
"description": "The location to the obsolete model copy action. See operation \"Models_CopyTo\" for more details.",
"type": "string",
"readOnly": true
},
"copy": {
"format": "uri",
"description": "The location to the model copy action. See operation \"Models_Copy\" for more details.",
"type": "string",
"readOnly": true
},
"files": {
"format": "uri",
"description": "The location to get all files of this entity. See operation \"Models_ListFiles\" for more details.",
"type": "string",
"readOnly": true
},
"manifest": {
"format": "uri",
"description": "The location to get a manifest for this model to be used in the on-prem container. See operation \"Models_GetCustomModelManifest\" for more details.",
"type": "string",
"readOnly": true
}
},
"readOnly": true
},
ID Operasi
Anda harus memperbarui jalur dasar dalam kode Anda dari /speechtotext/v3.1
ke /speechtotext/v3.2
. Misalnya, untuk mendapatkan model dasar di wilayah tersebut eastus
, gunakan https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base
alih-alih https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
.