Поделиться через


Перенос кода из версии 3.1 в версию 3.2 REST API

REST API преобразования речи в текст используется для транскрибирования пакетной службы и пользовательской речи. В этой статье описываются изменения версии 3.1 до 3.2.

Внимание

Речь в REST API версии 3.2 — это последняя версия, общедоступная. Предварительные версии 3.2-preview.1 и 3.2-preview.2* будут удалены в сентябре 2024 г. Речь в тексте REST API версии 3.1 будет прекращена на дату объявления. Речь в REST API версии 3.0 будет прекращена 1 апреля 2026 г.

Базовый путь

Необходимо обновить базовый путь в коде/speechtotext/v3.2./speechtotext/v3.1 Например, чтобы получить базовые модели в регионе eastus , используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/baseнего.

Дополнительные сведения см . в разделе идентификаторы операций далее в этом руководстве.

Пакетное транскрибирование

Внимание

Новая цена действует для пакетной транскрибирования с помощью преобразования речи в текст REST API версии 3.2. Дополнительные сведения см. в руководстве по ценам.

Обратная совместимость ограничений

Не используйте преобразование речи в текст REST API версии 3.0 или версии 3.1 для получения транскрибирования, созданного с помощью преобразования речи в текст REST API версии 3.2. Может появиться сообщение об ошибке, например "Версия API не может использоваться для доступа к этому транскрибированию. Используйте API версии 3.2 или более поздней.

Режим идентификации языка

Добавляется LanguageIdentificationMode как LanguageIdentificationProperties одноуровневый candidateLocales элемент и speechModelMapping. Режимы, доступные для идентификации языка, или Continuous Single. Непрерывная идентификация языка — это значение по умолчанию. Дополнительные сведения см. в разделе Идентификация языка.

Модели Whisper

Служба "Речь ИИ Azure" теперь поддерживает модель Whisper OpenAI с помощью преобразования речи в текст REST API версии 3.2. Дополнительные сведения см. в руководстве по созданию пакетной транскрибирования .

Примечание.

Служба Azure OpenAI также поддерживает модель Whisper OpenAI для преобразования речи в текст с синхронным REST API. Дополнительные сведения см. в кратком руководстве. Ознакомьтесь с тем, что такое модель Whisper? Чтобы узнать больше об использовании службы "Речь ИИ Azure" и "Служба OpenAI Azure".

Настраиваемая речь

Внимание

Вы будете взимать плату за обучение пользовательской модели речи, если базовая модель была создана 1 октября 2023 г. и более поздних версий. Плата за обучение не взимается, если базовая модель была создана до октября 2023 года. Дополнительные сведения см. в разделе о ценах на службы "Речь" в Azure AI.

Чтобы программно определить, была ли модель создана до или после 1 октября 2023 г., используйте chargedForAdaptation новое свойство в версии 3.2.

Форматирование текста пользовательского отображения

Для поддержки адаптации модели с пользовательскими данными форматирования текста Datasets_Create поддерживает тип данных OutputFormatting. Дополнительные сведения см. в разделе "Отправка наборов данных".

Добавлено определение для OutputFormatType Lexical значений перечисления и Display перечисления.

"OutputFormatType": {
    "title": "OutputFormatType",
    "enum": [
        "Lexical",
        "Display"
    ],
    "type": "string",
    "x-ms-enum": {
        "name": "OutputFormatType",
        "modelAsString": true,
        "values": [
            {
                "value": "Lexical",
                "description": "Model provides the transcription output without formatting."
            },
            {
                "value": "Display",
                "description": "Model supports display formatting transcriptions output or endpoints."
            }
        ]
    }
},

Значение OutputFormattingData перечисления добавляется в FileKind (тип входных данных).

Свойство supportedOutputFormat добавляется в BaseModelFeatures. Это свойство находится в определении BaseModel .

"BaseModelFeatures": {
    "title": "BaseModelFeatures",
    "description": "Features supported by the model.",
    "type": "object",
    "allOf": [
        {
            "$ref": "#/definitions/SharedModelFeatures"
        }
    ],
    "properties": {
        "supportsAdaptationsWith": {
            "description": "Supported dataset kinds to adapt the model.",
            "type": "array",
            "items": {
                "$ref": "#/definitions/DatasetKind"
            },
            "readOnly": true
        },
        "supportedOutputFormat": {
            "description": "Supported output formats.",
            "type": "array",
            "items": {
                "$ref": "#/definitions/OutputFormatType"
            },
            "readOnly": true
        }
    }
},

Плата за адаптацию

Свойство chargeForAdaptation добавляется в BaseModelProperties. Это свойство находится в определении BaseModel .

Внимание

Вы будете взимать плату за обучение пользовательской модели речи, если базовая модель была создана 1 октября 2023 г. и более поздних версий. Плата за обучение не взимается, если базовая модель была создана до октября 2023 года. Дополнительные сведения см. в разделе о ценах на службы "Речь" в Azure AI.

Если значение chargeForAdaptation равно true, плата взимается за обучение модели. Если значение равно false, плата за обучение модели взимается. chargeForAdaptation Используйте свойство вместо созданной даты, чтобы программно определить, взимается ли плата за обучение модели.

"BaseModelProperties": {
    "title": "BaseModelProperties",
    "type": "object",
    "properties": {
        "deprecationDates": {
            "$ref": "#/definitions/BaseModelDeprecationDates"
        },
        "features": {
            "$ref": "#/definitions/BaseModelFeatures"
        },
        "chargeForAdaptation": {
            "description": "A value indicating whether model adaptation is charged.",
            "type": "boolean",
            "readOnly": true
        }
    }
},

Нормализация текста

Свойство textNormalizationKind добавляется в DatasetProperties.

Определение сущности для TextNormalizationKind: тип нормализации текста.

  • По умолчанию: нормализация текста по умолчанию (например, "два-три" заменяет "2–3" в en-US).
  • Нет: к входной тексту не применяется нормализация текста. Это значение является переопределением, которое следует использовать только при нормализации текста перед отправкой.

Свойства оценки

Добавлены свойства счетчика маркеров и свойства ошибки маркера EvaluationProperties :

  • correctTokenCount1: число правильно распознанных маркеров по модели1.
  • tokenCount1: количество обработанных маркеров по модели1.
  • tokenDeletionCount1: число распознанных маркеров по модели1, которые являются удалениями.
  • tokenErrorRate1: частота ошибок маркера распознавания с моделью 1.
  • tokenInsertionCount1: число распознанных маркеров по модели1, которые являются вставками.
  • tokenSubstitutionCount1: число распознанных слов по модели1, которые являются подстановками.
  • correctTokenCount2: число правильно распознанных маркеров по модели2.
  • tokenCount2: количество обработанных маркеров по модели2.
  • tokenDeletionCount2: число распознанных маркеров по модели2, которые являются удалениями.
  • tokenErrorRate2: частота ошибок маркера распознавания с моделью 2.
  • tokenInsertionCount2: число распознанных маркеров по модели2, которые являются вставками.
  • tokenSubstitutionCount2: число распознанных слов по модели2, которые являются подстановками.

Копирование модели

Следующие изменения предназначены для сценария копирования модели.

Добавлено новое определение сущности для ModelCopyAuthorization:

"ModelCopyAuthorization": {
    "title": "ModelCopyAuthorization",
    "required": [
        "expirationDateTime",
        "id",
        "sourceResourceId",
        "targetResourceEndpoint",
        "targetResourceId",
        "targetResourceRegion"
    ],
    "type": "object",
    "properties": {
        "targetResourceRegion": {
            "description": "The region (aka location) of the target speech resource (e.g., westus2).",
            "minLength": 1,
            "type": "string"
        },
        "targetResourceId": {
            "description": "The Azure Resource ID of the target speech resource.",
            "minLength": 1,
            "type": "string"
        },
        "targetResourceEndpoint": {
            "description": "The endpoint (base url) of the target resource (with custom domain name when it is used).",
            "minLength": 1,
            "type": "string"
        },
        "sourceResourceId": {
            "description": "The Azure Resource ID of the source speech resource.",
            "minLength": 1,
            "type": "string"
        },
        "expirationDateTime": {
            "format": "date-time",
            "description": "The expiration date of this copy authorization.",
            "type": "string"
        },
        "id": {
            "description": "The ID of this copy authorization.",
            "minLength": 1,
            "type": "string"
        }
    }
},

Добавлено новое определение сущности для ModelCopyAuthorizationDefinition:

"ModelCopyAuthorizationDefinition": {
    "title": "ModelCopyAuthorizationDefinition",
    "required": [
        "sourceResourceId"
    ],
    "type": "object",
    "properties": {
        "sourceResourceId": {
            "description": "The Azure Resource ID of the source speech resource.",
            "minLength": 1,
            "type": "string"
        }
    }
},

Добавлено новое copy свойство.

  • copyTo URI: расположение устаревшего действия копирования модели. Дополнительные сведения см. в операции Models_CopyTo .
  • copy URI: расположение действия копирования модели. Дополнительные сведения см. в операции Models_Copy .
"CustomModelLinks": {
    "title": "CustomModelLinks",
    "type": "object",
    "properties": {
      "copyTo": {
        "format": "uri",
        "description": "The location to the obsolete model copy action. See operation \"Models_CopyTo\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "copy": {
        "format": "uri",
        "description": "The location to the model copy action. See operation \"Models_Copy\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "files": {
        "format": "uri",
        "description": "The location to get all files of this entity. See operation \"Models_ListFiles\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "manifest": {
        "format": "uri",
        "description": "The location to get a manifest for this model to be used in the on-prem container. See operation \"Models_GetCustomModelManifest\" for more details.",
        "type": "string",
        "readOnly": true
      }
    },
    "readOnly": true
},

Идентификаторы операций

Необходимо обновить базовый путь в коде/speechtotext/v3.2./speechtotext/v3.1 Например, чтобы получить базовые модели в регионе eastus , используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/baseнего.

Следующие шаги