Udostępnij za pośrednictwem


Migrowanie kodu z wersji 3.1 do wersji 3.2 interfejsu API REST

Interfejs API REST zamiany mowy na tekst jest używany do szybkiej transkrypcji, transkrypcji wsadowej i mowy niestandardowej. W tym artykule opisano zmiany z wersji 3.1 do 3.2.

Ważne

Wersja 2024-11-15 interfejsu API REST zamiany mowy na tekst jest najnowszą wersją, która jest ogólnie dostępna.

  • Wersja 2024-05-15-preview interfejsu API REST zamiany mowy na tekst zostanie wycofana w dniu ogłoszenia.
  • Interfejs API v3.0REST zamiany mowy na tekst , , 3.2-preview.1v3.1v3.2, i 3.2-preview.2 zostanie wycofany 1 kwietnia 2026 r.

Aby uzyskać więcej informacji na temat uaktualniania, zobacz Przewodniki migracji interfejsu API REST zamiany mowy na tekst w wersji 3.0 do 3.1, 3.1 do 3.2 i 3.2 do 2024-11-15.

Ścieżka podstawowa

Musisz zaktualizować ścieżkę podstawową w kodzie z /speechtotext/v3.1 do /speechtotext/v3.2. Aby na przykład uzyskać modele podstawowe w eastus regionie, użyj polecenia https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base zamiast https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base.

Aby uzyskać więcej informacji, zobacz Identyfikatory operacji w dalszej części tego przewodnika.

Transkrypcja wsadowa

Ważne

Nowe ceny obowiązują w przypadku transkrypcji wsadowej za pośrednictwem usługi Mowa do tekstu interfejsu API REST w wersji 3.2. Aby uzyskać więcej informacji, zobacz przewodnik po cenach.

Ograniczenia zgodności z poprzednimi wersjami

Nie używaj mowy do tłumaczenia tekstu za pomocą interfejsu API REST w wersji 3.0 lub 3.1, aby pobrać transkrypcję utworzoną za pośrednictwem interfejsu API REST zamiany mowy na tekst w wersji 3.2. Może zostać wyświetlony komunikat o błędzie, taki jak: "Wersja interfejsu API nie może być używana do uzyskiwania dostępu do tej transkrypcji. Użyj interfejsu API w wersji 3.2 lub nowszej.

Tryb identyfikacji języka

Element LanguageIdentificationMode jest dodawany jako LanguageIdentificationProperties element równorzędny elementów candidateLocales i speechModelMapping. Dostępne tryby identyfikacji języka to Continuous lub Single. Identyfikacja języka ciągłego jest wartością domyślną. Aby uzyskać więcej informacji, zobacz Identyfikacja języka.

Modele szeptu

Usługa Azure AI Speech obsługuje teraz model Szept interfejsu OpenAI za pośrednictwem mowy na tekst interfejsu API REST w wersji 3.2. Aby dowiedzieć się więcej, zapoznaj się z przewodnikiem Tworzenie transkrypcji wsadowej.

Uwaga

Usługa Azure OpenAI Service obsługuje również model szeptu OpenAI na potrzeby zamiany mowy na tekst przy użyciu synchronicznego interfejsu API REST. Aby dowiedzieć się więcej, zapoznaj się z przewodnikiem Szybki start. Zapoznaj się z tematem Co to jest model Szeptu? aby dowiedzieć się więcej o tym, kiedy używać usługi Azure AI Speech a Azure OpenAI Service.

Mowa niestandardowa

Ważne

Opłata zostanie naliczona za trenowanie niestandardowego modelu mowy, jeśli model podstawowy został utworzony 1 października 2023 r. i nowsze. Nie są naliczane opłaty za trenowanie, jeśli model podstawowy został utworzony przed październikiem 2023 r. Aby uzyskać więcej informacji, zobacz Cennik usługi Azure AI Speech.

Aby programowo określić, czy model został utworzony przed lub po 1 października 2023 r., użyj chargedForAdaptation właściwości, która jest nowa w wersji 3.2.

Niestandardowe formatowanie tekstu wyświetlanego

Aby obsługiwać adaptację modelu przy użyciu niestandardowych danych formatowania tekstu wyświetlanego, operacja Datasets_Create obsługuje rodzaj danych OutputFormatting . Aby uzyskać więcej informacji, zobacz przekazywanie zestawów danych.

Dodano definicję elementu OutputFormatType z wartościami wyliczeniowymi Lexical i .Display

"OutputFormatType": {
    "title": "OutputFormatType",
    "enum": [
        "Lexical",
        "Display"
    ],
    "type": "string",
    "x-ms-enum": {
        "name": "OutputFormatType",
        "modelAsString": true,
        "values": [
            {
                "value": "Lexical",
                "description": "Model provides the transcription output without formatting."
            },
            {
                "value": "Display",
                "description": "Model supports display formatting transcriptions output or endpoints."
            }
        ]
    }
},

Wartość OutputFormattingData wyliczenia jest dodawana do FileKind (typ danych wejściowych).

Właściwość supportedOutputFormat jest dodawana do BaseModelFeatureselementu . Ta właściwość znajduje się w BaseModel definicji.

"BaseModelFeatures": {
    "title": "BaseModelFeatures",
    "description": "Features supported by the model.",
    "type": "object",
    "allOf": [
        {
            "$ref": "#/definitions/SharedModelFeatures"
        }
    ],
    "properties": {
        "supportsAdaptationsWith": {
            "description": "Supported dataset kinds to adapt the model.",
            "type": "array",
            "items": {
                "$ref": "#/definitions/DatasetKind"
            },
            "readOnly": true
        },
        "supportedOutputFormat": {
            "description": "Supported output formats.",
            "type": "array",
            "items": {
                "$ref": "#/definitions/OutputFormatType"
            },
            "readOnly": true
        }
    }
},

Opłata za adaptację

Właściwość chargeForAdaptation jest dodawana do BaseModelPropertieselementu . Ta właściwość znajduje się w BaseModel definicji.

Ważne

Opłata zostanie naliczona za trenowanie niestandardowego modelu mowy, jeśli model podstawowy został utworzony 1 października 2023 r. i nowsze. Nie są naliczane opłaty za trenowanie, jeśli model podstawowy został utworzony przed październikiem 2023 r. Aby uzyskać więcej informacji, zobacz Cennik usługi Azure AI Speech.

Jeśli wartość chargeForAdaptation to true, opłaty są naliczane za trenowanie modelu. Jeśli wartość to false, opłaty są naliczane za trenowanie modelu. chargeForAdaptation Użyj właściwości zamiast utworzonej daty, aby programowo określić, czy opłaty są naliczane za trenowanie modelu.

"BaseModelProperties": {
    "title": "BaseModelProperties",
    "type": "object",
    "properties": {
        "deprecationDates": {
            "$ref": "#/definitions/BaseModelDeprecationDates"
        },
        "features": {
            "$ref": "#/definitions/BaseModelFeatures"
        },
        "chargeForAdaptation": {
            "description": "A value indicating whether model adaptation is charged.",
            "type": "boolean",
            "readOnly": true
        }
    }
},

Normalizacja tekstu

Właściwość textNormalizationKind jest dodawana do DatasetPropertieselementu .

Definicja jednostki textNormalizationKind: rodzaj normalizacji tekstu.

  • Ustawienie domyślne: Domyślna normalizacja tekstu (na przykład "dwa do trzech" zastępuje wartość "2 do 3" w en-US).
  • Brak: normalizacja tekstu nie jest stosowana do tekstu wejściowego. Ta wartość jest opcją zastąpienia, która powinna być używana tylko wtedy, gdy tekst jest znormalizowany przed przekazaniem.

Właściwości oceny

Dodano właściwości licznika tokenu i błędu tokenu EvaluationProperties do właściwości:

  • correctTokenCount1: liczba poprawnie rozpoznanych tokenów według modelu model1.
  • tokenCount1: liczba przetworzonych tokenów według modelu Model1.
  • tokenDeletionCount1: liczba rozpoznanych tokenów według modelu Model1, które są usuwane.
  • tokenErrorRate1: współczynnik błędów tokenu rozpoznawania za pomocą modelu Model1.
  • tokenInsertionCount1: liczba rozpoznanych tokenów według modelu Model1, które są wstawiania.
  • tokenSubstitutionCount1: liczba rozpoznanych wyrazów według modelu model1, które są podstawieniami.
  • correctTokenCount2: liczba poprawnie rozpoznanych tokenów według modelu 2.
  • tokenCount2: liczba przetworzonych tokenów według modelu Model2.
  • tokenDeletionCount2: liczba rozpoznanych tokenów według modelu 2, które są usuwane.
  • tokenErrorRate2: współczynnik błędów tokenu rozpoznawania za pomocą modelu Model2.
  • tokenInsertionCount2: liczba rozpoznanych tokenów według modelu 2, które są wstawiania.
  • tokenSubstitutionCount2: liczba rozpoznanych wyrazów według modelu model2, które są podstawieniami.

Kopiowanie modelu

Następujące zmiany dotyczą scenariusza kopiowania modelu.

  • Dodano nową operację Models_Copy . Oto schemat w nowej operacji kopiowania: "$ref": "#/definitions/ModelCopyAuthorization"
  • Przestarzała operację Models_CopyTo . Oto schemat w przestarzałej operacji kopiowania: "$ref": "#/definitions/ModelCopy"
  • Dodano nową operację Models_AuthorizeCopy zwracającą wartość "$ref": "#/definitions/ModelCopyAuthorization". Ta zwrócona jednostka może być używana w nowej operacji Models_Copy .

Dodano nową definicję jednostki dla elementu ModelCopyAuthorization:

"ModelCopyAuthorization": {
    "title": "ModelCopyAuthorization",
    "required": [
        "expirationDateTime",
        "id",
        "sourceResourceId",
        "targetResourceEndpoint",
        "targetResourceId",
        "targetResourceRegion"
    ],
    "type": "object",
    "properties": {
        "targetResourceRegion": {
            "description": "The region (aka location) of the target speech resource (e.g., westus2).",
            "minLength": 1,
            "type": "string"
        },
        "targetResourceId": {
            "description": "The Azure Resource ID of the target speech resource.",
            "minLength": 1,
            "type": "string"
        },
        "targetResourceEndpoint": {
            "description": "The endpoint (base url) of the target resource (with custom domain name when it is used).",
            "minLength": 1,
            "type": "string"
        },
        "sourceResourceId": {
            "description": "The Azure Resource ID of the source speech resource.",
            "minLength": 1,
            "type": "string"
        },
        "expirationDateTime": {
            "format": "date-time",
            "description": "The expiration date of this copy authorization.",
            "type": "string"
        },
        "id": {
            "description": "The ID of this copy authorization.",
            "minLength": 1,
            "type": "string"
        }
    }
},

Dodano nową definicję jednostki dla elementu ModelCopyAuthorizationDefinition:

"ModelCopyAuthorizationDefinition": {
    "title": "ModelCopyAuthorizationDefinition",
    "required": [
        "sourceResourceId"
    ],
    "type": "object",
    "properties": {
        "sourceResourceId": {
            "description": "The Azure Resource ID of the source speech resource.",
            "minLength": 1,
            "type": "string"
        }
    }
},

Dodano nową copy właściwość.

  • copyTo Identyfikator URI: lokalizacja przestarzałej akcji kopiowania modelu. Aby uzyskać więcej informacji, zobacz operację Models_CopyTo .
  • copy Identyfikator URI: lokalizacja akcji kopiowania modelu. Aby uzyskać więcej informacji, zobacz operację Models_Copy .
"CustomModelLinks": {
    "title": "CustomModelLinks",
    "type": "object",
    "properties": {
      "copyTo": {
        "format": "uri",
        "description": "The location to the obsolete model copy action. See operation \"Models_CopyTo\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "copy": {
        "format": "uri",
        "description": "The location to the model copy action. See operation \"Models_Copy\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "files": {
        "format": "uri",
        "description": "The location to get all files of this entity. See operation \"Models_ListFiles\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "manifest": {
        "format": "uri",
        "description": "The location to get a manifest for this model to be used in the on-prem container. See operation \"Models_GetCustomModelManifest\" for more details.",
        "type": "string",
        "readOnly": true
      }
    },
    "readOnly": true
},

Identyfikatory operacji

Musisz zaktualizować ścieżkę podstawową w kodzie z /speechtotext/v3.1 do /speechtotext/v3.2. Aby na przykład uzyskać modele podstawowe w eastus regionie, użyj polecenia https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base zamiast https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base.

Następne kroki