Bagikan melalui


Memigrasikan kode dari v3.1 ke v3.2 dari REST API

REST API Ucapan ke teks digunakan untuk transkripsi Batch dan ucapan kustom. Artikel ini menjelaskan perubahan dari versi 3.1 ke 3.2.

Penting

REST API ucapan ke teks v3.2 adalah versi terbaru yang tersedia secara umum. Pratinjau versi 3.2-preview.1 dan 3.2-preview.2* akan dihapus pada bulan September 2024. REST API ucapan ke teks v3.1 akan dihentikan pada tanggal yang akan diumumkan. REST API ucapan ke teks v3.0 akan dihentikan pada 1 April 2026.

Jalur dasar

Anda harus memperbarui jalur dasar dalam kode Anda dari /speechtotext/v3.1 ke /speechtotext/v3.2. Misalnya, untuk mendapatkan model dasar di wilayah tersebut eastus , gunakan https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base alih-alih https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base.

Untuk informasi selengkapnya, lihat ID operasi nanti di panduan ini.

Transkripsi batch

Penting

Harga baru berlaku untuk transkripsi batch melalui Ucapan ke teks REST API v3.2. Untuk informasi selengkapnya, lihat panduan harga.

Batasan kompatibilitas mundur

Jangan gunakan Ucapan ke teks REST API v3.0 atau v3.1 untuk mengambil transkripsi yang dibuat melalui Ucapan ke teks REST API v3.2. Anda mungkin melihat pesan kesalahan seperti: "Versi API tidak dapat digunakan untuk mengakses transkripsi ini. Gunakan API versi v3.2 atau yang lebih tinggi."

Mode identifikasi bahasa

LanguageIdentificationMode ditambahkan ke LanguageIdentificationProperties sebagai saudara kandung dari candidateLocales dan speechModelMapping. Mode yang tersedia untuk identifikasi bahasa adalah Continuous atau Single. Identifikasi bahasa berkelanjutan adalah default. Untuk informasi selengkapnya, lihat Model identifikasi bahasa.

Model bisikan

Azure AI Speech sekarang mendukung model Whisper OpenAI melalui Rest API Ucapan ke teks v3.2. Untuk mempelajari lebih lanjut , lihat panduan Membuat transkripsi batch.

Catatan

Azure OpenAI Service juga mendukung model Whisper OpenAI untuk ucapan ke teks dengan REST API sinkron. Untuk mempelajari lebih lanjut , lihat mulai cepat. Lihat Apa model Whisper? untuk mempelajari selengkapnya tentang kapan menggunakan Azure AI Speech vs. Azure OpenAI Service.

Ucapan kustom

Penting

Anda akan dikenakan biaya untuk pelatihan model ucapan kustom jika model dasar dibuat pada 1 Oktober 2023 dan yang lebih baru. Anda tidak dikenakan biaya untuk pelatihan jika model dasar dibuat sebelum Oktober 2023. Untuk informasi selengkapnya, lihat Harga Azure AI Speech.

Untuk menentukan secara terprogram apakah model dibuat sebelum atau sesudah 1 Oktober 2023, gunakan chargedForAdaptation properti yang baru dalam versi 3.2.

Pemformatan teks tampilan kustom

Untuk mendukung adaptasi model dengan data pemformatan teks tampilan kustom, operasi Datasets_Create mendukung jenis data OutputFormatting . Untuk informasi selengkapnya, lihat mengunggah himpunan data.

Menambahkan definisi untuk OutputFormatType dengan Lexical nilai enum dan Display .

"OutputFormatType": {
    "title": "OutputFormatType",
    "enum": [
        "Lexical",
        "Display"
    ],
    "type": "string",
    "x-ms-enum": {
        "name": "OutputFormatType",
        "modelAsString": true,
        "values": [
            {
                "value": "Lexical",
                "description": "Model provides the transcription output without formatting."
            },
            {
                "value": "Display",
                "description": "Model supports display formatting transcriptions output or endpoints."
            }
        ]
    }
},

Nilai OutputFormattingData enum ditambahkan ke FileKind (jenis data input).

Properti supportedOutputFormat ditambahkan ke BaseModelFeatures. Properti ini berada dalam BaseModel definisi.

"BaseModelFeatures": {
    "title": "BaseModelFeatures",
    "description": "Features supported by the model.",
    "type": "object",
    "allOf": [
        {
            "$ref": "#/definitions/SharedModelFeatures"
        }
    ],
    "properties": {
        "supportsAdaptationsWith": {
            "description": "Supported dataset kinds to adapt the model.",
            "type": "array",
            "items": {
                "$ref": "#/definitions/DatasetKind"
            },
            "readOnly": true
        },
        "supportedOutputFormat": {
            "description": "Supported output formats.",
            "type": "array",
            "items": {
                "$ref": "#/definitions/OutputFormatType"
            },
            "readOnly": true
        }
    }
},

Biaya untuk adaptasi

Properti chargeForAdaptation ditambahkan ke BaseModelProperties. Properti ini berada dalam BaseModel definisi.

Penting

Anda akan dikenakan biaya untuk pelatihan model ucapan kustom jika model dasar dibuat pada 1 Oktober 2023 dan yang lebih baru. Anda tidak dikenakan biaya untuk pelatihan jika model dasar dibuat sebelum Oktober 2023. Untuk informasi selengkapnya, lihat Harga Azure AI Speech.

Jika nilainya chargeForAdaptation adalah true, Anda dikenakan biaya untuk melatih model. Jika nilainya adalah false, Anda dikenakan biaya untuk melatih model. chargeForAdaptation Gunakan properti alih-alih tanggal yang dibuat untuk menentukan secara terprogram apakah Anda dikenakan biaya untuk melatih model.

"BaseModelProperties": {
    "title": "BaseModelProperties",
    "type": "object",
    "properties": {
        "deprecationDates": {
            "$ref": "#/definitions/BaseModelDeprecationDates"
        },
        "features": {
            "$ref": "#/definitions/BaseModelFeatures"
        },
        "chargeForAdaptation": {
            "description": "A value indicating whether model adaptation is charged.",
            "type": "boolean",
            "readOnly": true
        }
    }
},

Normalisasi teks

Properti textNormalizationKind ditambahkan ke DatasetProperties.

Definisi entitas untuk TextNormalizationKind: Jenis normalisasi teks.

  • Default: Normalisasi teks default (misalnya, 'dua hingga tiga' menggantikan '2 hingga 3' di en-US).
  • Tidak Ada: Tidak ada normalisasi teks yang diterapkan ke teks input. Nilai ini adalah opsi penimpaan yang hanya boleh digunakan saat teks dinormalisasi sebelum unggahan.

Properti evaluasi

Menambahkan jumlah token dan properti kesalahan token ke EvaluationProperties properti:

  • correctTokenCount1: Jumlah token yang dikenali dengan benar oleh model1.
  • tokenCount1: Jumlah token yang diproses berdasarkan model1.
  • tokenDeletionCount1: Jumlah token yang dikenali oleh model1 yang merupakan penghapusan.
  • tokenErrorRate1: Tingkat kesalahan token pengenalan dengan model1.
  • tokenInsertionCount1: Jumlah token yang dikenali oleh model1 yang merupakan penyisipan.
  • tokenSubstitutionCount1: Jumlah kata yang dikenali oleh model1 yang merupakan substitusi.
  • correctTokenCount2: Jumlah token yang dikenali dengan benar oleh model2.
  • tokenCount2: Jumlah token yang diproses oleh model2.
  • tokenDeletionCount2: Jumlah token yang dikenali oleh model2 yang merupakan penghapusan.
  • tokenErrorRate2: Tingkat kesalahan token pengenalan dengan model2.
  • tokenInsertionCount2: Jumlah token yang dikenali oleh model2 yang merupakan penyisipan.
  • tokenSubstitutionCount2: Jumlah kata yang dikenali oleh model2 yang merupakan substitusi.

Salinan model

Perubahan berikut adalah untuk skenario tempat Anda menyalin model.

  • Menambahkan operasi Models_Copy baru. Berikut adalah skema dalam operasi penyalinan baru: "$ref": "#/definitions/ModelCopyAuthorization"
  • Menghentikan operasi Models_CopyTo. Berikut adalah skema dalam operasi penyalinan yang tidak digunakan lagi: "$ref": "#/definitions/ModelCopy"
  • Menambahkan operasi Models_AuthorizeCopy baru yang mengembalikan "$ref": "#/definitions/ModelCopyAuthorization". Entitas yang dikembalikan ini dapat digunakan dalam operasi Models_Copy baru.

Menambahkan definisi entitas baru untuk ModelCopyAuthorization:

"ModelCopyAuthorization": {
    "title": "ModelCopyAuthorization",
    "required": [
        "expirationDateTime",
        "id",
        "sourceResourceId",
        "targetResourceEndpoint",
        "targetResourceId",
        "targetResourceRegion"
    ],
    "type": "object",
    "properties": {
        "targetResourceRegion": {
            "description": "The region (aka location) of the target speech resource (e.g., westus2).",
            "minLength": 1,
            "type": "string"
        },
        "targetResourceId": {
            "description": "The Azure Resource ID of the target speech resource.",
            "minLength": 1,
            "type": "string"
        },
        "targetResourceEndpoint": {
            "description": "The endpoint (base url) of the target resource (with custom domain name when it is used).",
            "minLength": 1,
            "type": "string"
        },
        "sourceResourceId": {
            "description": "The Azure Resource ID of the source speech resource.",
            "minLength": 1,
            "type": "string"
        },
        "expirationDateTime": {
            "format": "date-time",
            "description": "The expiration date of this copy authorization.",
            "type": "string"
        },
        "id": {
            "description": "The ID of this copy authorization.",
            "minLength": 1,
            "type": "string"
        }
    }
},

Menambahkan definisi entitas baru untuk ModelCopyAuthorizationDefinition:

"ModelCopyAuthorizationDefinition": {
    "title": "ModelCopyAuthorizationDefinition",
    "required": [
        "sourceResourceId"
    ],
    "type": "object",
    "properties": {
        "sourceResourceId": {
            "description": "The Azure Resource ID of the source speech resource.",
            "minLength": 1,
            "type": "string"
        }
    }
},

Menambahkan properti baru copy .

"CustomModelLinks": {
    "title": "CustomModelLinks",
    "type": "object",
    "properties": {
      "copyTo": {
        "format": "uri",
        "description": "The location to the obsolete model copy action. See operation \"Models_CopyTo\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "copy": {
        "format": "uri",
        "description": "The location to the model copy action. See operation \"Models_Copy\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "files": {
        "format": "uri",
        "description": "The location to get all files of this entity. See operation \"Models_ListFiles\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "manifest": {
        "format": "uri",
        "description": "The location to get a manifest for this model to be used in the on-prem container. See operation \"Models_GetCustomModelManifest\" for more details.",
        "type": "string",
        "readOnly": true
      }
    },
    "readOnly": true
},

ID Operasi

Anda harus memperbarui jalur dasar dalam kode Anda dari /speechtotext/v3.1 ke /speechtotext/v3.2. Misalnya, untuk mendapatkan model dasar di wilayah tersebut eastus , gunakan https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base alih-alih https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base.

Langkah berikutnya