Migración de código de la versión v3.0 a v3.1 de la API REST

La API REST de conversión de voz en texto se usa para transcripción de Batch y devoz personalizada. Los cambios de la versión 3.0 a la 3.1 se describen en las secciones siguientes.

Importante

La API de REST de la conversión de voz en texto v3.2 está disponible en versión preliminar. La API de REST de la conversión de voz en texto v3.1 está disponible con carácter general. La API de REST de la conversión de voz en texto v3.0 se retirará el 1 de abril de 2026. Para obtener más información, consulte las guías de migración de la API de REST de la conversión de voz en texto v3.0 a v3.1 y v3.1 a v3.2.

Ruta de acceso base

Debe actualizar la ruta de acceso base del código de /speechtotext/v3.0 a /speechtotext/v3.1. Por ejemplo, para obtener modelos base en la región eastus, use https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base en lugar de https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

Tenga en cuenta estos otros cambios:

  • La operación /models/{id}/copyto (incluye "/") en la versión 3.0 se reemplaza por la operación /models/{id}:copyto (incluye ":") en la versión 3.1.
  • La operación /webhooks/{id}/ping (incluye "/") en la versión 3.0 se reemplaza por la operación /webhooks/{id}:ping (incluye ":") en la versión 3.1.
  • La operación /webhooks/{id}/test (incluye "/") en la versión 3.0 se reemplaza por la operación /webhooks/{id}:test (incluye ":") en la versión 3.1.

Para más información, consulte Identificadores de operación más adelante en esta guía.

Transcripción de Azure Batch

Nota

No use la API de REST de conversión de voz en texto v3.0 para recuperar una transcripción creada a través de la API de REST de conversión de voz en texto v3.1. Verá un mensaje de error como el siguiente: "No se puede usar la versión de la API para acceder a esta transcripción. Use la versión de API v3.1 o posterior".

En la operación Transcriptions_Create se agregan las tres propiedades siguientes:

  • La propiedad displayFormWordLevelTimestampsEnabled se puede usar para habilitar los informes de marcas de tiempo de nivel de palabra en el formulario de presentación de los resultados de la transcripción. Los resultados se devuelven en la propiedad displayWords del archivo de transcripción.
  • La propiedad diarization se puede usar para especificar sugerencias para el número mínimo y máximo de etiquetas del hablante que se van a generar al realizar la diarización opcional (separación del hablante). Con esta característica, el servicio ahora puede generar etiquetas de hablante para más de dos altavoces. Para usar esta propiedad, también debe establecer la diarizationEnabledpropiedad en true. Con la API v3.1, hemos aumentado el número de hablantes que se pueden identificar a través de la diarización de los dos altavoces admitidos por la API v3.0. Se recomienda mantener el número de altavoces menores de 30 para mejorar el rendimiento.
  • La propiedad languageIdentification se puede usar para especificar la configuración para la identificación de idioma en la entrada antes de la transcripción. Se admiten hasta 10 configuraciones regionales candidatas para la identificación del idioma. La transcripción devuelta incluye una nueva propiedad locale para el idioma reconocido o la configuración regional que proporcionó.

La propiedad filter se agrega a las operaciones Transcriptions_List, Transcriptions_ListFiles y Projects_ListTranscriptions. La expresión filter se puede usar para seleccionar un subconjunto de los recursos disponibles. Puede filtrar por displayName, description, createdDateTime, lastActionDateTime, status y locale. Por ejemplo: filter=createdDateTime gt 2022-02-01T11:00:00Z

Si usa webhook para recibir notificaciones sobre el estado de la transcripción, tenga en cuenta que los webhooks creados a través de la API V3.0 no pueden recibir notificaciones para las solicitudes de transcripción V3.1. Debe crear un nuevo punto de conexión de webhook mediante la API V3.1 para recibir notificaciones de las solicitudes de transcripción V3.1.

Voz personalizada

Conjuntos de datos

Se agregan las siguientes operaciones para cargar y administrar varios bloques de datos para un conjunto de datos:

  • Datasets_UploadBlock: cargue un bloque de datos para el conjunto de datos. El tamaño máximo del bloque es 8MiB.
  • Datasets_GetBlocks: obtenga la lista de bloques cargados para este conjunto de datos.
  • Datasets_CommitBlocks: confirme la lista de bloqueados para completar la carga del conjunto de datos.

Para admitir la adaptación de modelos con texto estructurado en los datos de Markdown, la operación Datasets_Create ahora admite el tipo de datos LanguageMarkdown. Para más información, consulte Carga de cuadernos.

Modelos

Las operaciones Models_ListBaseModels y Models_GetBaseModel devuelven información sobre el tipo de adaptación compatible con cada modelo base.

"features": {
    "supportsAdaptationsWith": [
        "Acoustic",
        "Language",
        "LanguageMarkdown",
        "Pronunciation"
    ]
}

La operación Models_Create tiene una nueva propiedad customModelWeightPercent donde puede especificar el peso usado cuando el modelo de lenguaje personalizado (entrenado a partir de datos de texto sin formato o estructurados) se combina con el modelo de lenguaje base. Los valores válidos son enteros entre 1 y 100. El valor predeterminado es actualmente 30.

La propiedad filter se agrega a las siguientes operaciones:

La expresión filter se puede usar para seleccionar un subconjunto de los recursos disponibles. Puede filtrar por displayName, description, createdDateTime, lastActionDateTime, status, locale y kind. Por ejemplo: filter=locale eq 'en-US'

Se agregó la operación Models_ListFiles para obtener los archivos del modelo identificados por el id. especificado.

Se agregó la operación Models_GetFile para obtener un archivo específico (identificado con fileId) de un modelo (identificado con ID). Esto le permite recuperar un archivo ModelReport que proporciona información sobre los datos procesados durante el entrenamiento.

Identificadores de operación

Debe actualizar la ruta de acceso base del código de /speechtotext/v3.0 a /speechtotext/v3.1. Por ejemplo, para obtener modelos base en la región eastus, use https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base en lugar de https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

El nombre de cada operationId en la versión 3.1 tiene como prefijo el nombre del objeto. Por ejemplo, operationId para "Crear modelo" cambió de CreateModel en la versión 3.0 a Models_Create en la versión 3.1.

La operación /models/{id}/copyto (incluye "/") en la versión 3.0 se reemplaza por la operación /models/{id}:copyto (incluye ":") en la versión 3.1.

La operación /webhooks/{id}/ping (incluye "/") en la versión 3.0 se reemplaza por la operación /webhooks/{id}:ping (incluye ":") en la versión 3.1.

La operación /webhooks/{id}/test (incluye "/") en la versión 3.0 se reemplaza por la operación /webhooks/{id}:test (incluye ":") en la versión 3.1.

Pasos siguientes