Migración de código de la versión v3.0 a v3.1 de la API REST
La API REST de conversión de voz en texto se usa para transcripción de Batch y devoz personalizada. Los cambios de la versión 3.0 a la 3.1 se describen en las secciones siguientes.
Importante
La API de REST de conversión de voz en texto v3.2 es la versión más reciente que está disponible con carácter general. Las versiones preliminares 3.2-preview.1 y 3.2-preview.2* se quitarán en septiembre de 2024. La API de REST de conversión de voz en texto v3.1 se retirará en una fecha que se anunciará. La API de REST de la conversión de voz en texto v3.0 se retirará el 1 de abril de 2026.
Ruta de acceso base
Debe actualizar la ruta de acceso base del código de /speechtotext/v3.0
a /speechtotext/v3.1
. Por ejemplo, para obtener modelos base en la región eastus
, use https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
en lugar de https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
.
Tenga en cuenta estos otros cambios:
- La operación
/models/{id}/copyto
(incluye "/") en la versión 3.0 se reemplaza por la operación/models/{id}:copyto
(incluye ":") en la versión 3.1. - La operación
/webhooks/{id}/ping
(incluye "/") en la versión 3.0 se reemplaza por la operación/webhooks/{id}:ping
(incluye ":") en la versión 3.1. - La operación
/webhooks/{id}/test
(incluye "/") en la versión 3.0 se reemplaza por la operación/webhooks/{id}:test
(incluye ":") en la versión 3.1.
Para más información, consulte Identificadores de operación más adelante en esta guía.
Transcripción de Azure Batch
Nota
No use la API de REST de conversión de voz en texto v3.0 para recuperar una transcripción creada a través de la API de REST de conversión de voz en texto v3.1. Verá un mensaje de error como el siguiente: "No se puede usar la versión de la API para acceder a esta transcripción. Use la versión de API v3.1 o posterior".
En la operación Transcriptions_Create se agregan las tres propiedades siguientes:
- La propiedad
displayFormWordLevelTimestampsEnabled
se puede usar para habilitar los informes de marcas de tiempo de nivel de palabra en el formulario de presentación de los resultados de la transcripción. Los resultados se devuelven en la propiedaddisplayWords
del archivo de transcripción. - La propiedad
diarization
se puede usar para especificar sugerencias para el número mínimo y máximo de etiquetas del hablante que se van a generar al realizar la diarización opcional (separación del hablante). Con esta característica, el servicio ahora puede generar etiquetas de hablante para más de dos altavoces. Para usar esta propiedad, también debe establecer ladiarizationEnabled
propiedad entrue
. Con la API v3.1, hemos aumentado el número de hablantes que se pueden identificar a través de la diarización de los dos altavoces admitidos por la API v3.0. Se recomienda mantener el número de altavoces menores de 30 para mejorar el rendimiento. - La propiedad
languageIdentification
se puede usar para especificar la configuración para la identificación de idioma en la entrada antes de la transcripción. Se admiten hasta 10 configuraciones regionales candidatas para la identificación del idioma. La transcripción devuelta incluye una nueva propiedadlocale
para el idioma reconocido o la configuración regional que proporcionó.
La propiedad filter
se agrega a las operaciones Transcriptions_List, Transcriptions_ListFiles y Projects_ListTranscriptions. La expresión filter
se puede usar para seleccionar un subconjunto de los recursos disponibles. Puede filtrar por displayName
, description
, createdDateTime
, lastActionDateTime
, status
y locale
. Por ejemplo: filter=createdDateTime gt 2022-02-01T11:00:00Z
Si usa webhook para recibir notificaciones sobre el estado de la transcripción, tenga en cuenta que los webhooks creados a través de la API V3.0 no pueden recibir notificaciones para las solicitudes de transcripción V3.1. Debe crear un nuevo punto de conexión de webhook mediante la API V3.1 para recibir notificaciones de las solicitudes de transcripción V3.1.
Voz personalizada
Conjuntos de datos
Se agregan las siguientes operaciones para cargar y administrar varios bloques de datos para un conjunto de datos:
- Datasets_UploadBlock: cargue un bloque de datos para el conjunto de datos. El tamaño máximo del bloque es 8MiB.
- Datasets_GetBlocks: obtenga la lista de bloques cargados para este conjunto de datos.
- Datasets_CommitBlocks: confirme la lista de bloqueados para completar la carga del conjunto de datos.
Para admitir la adaptación de modelos con texto estructurado en los datos de Markdown, la operación Datasets_Create ahora admite el tipo de datos LanguageMarkdown. Para más información, consulte Carga de cuadernos.
Modelos
Las operaciones Models_ListBaseModels y Models_GetBaseModel devuelven información sobre el tipo de adaptación compatible con cada modelo base.
"features": {
"supportsAdaptationsWith": [
"Acoustic",
"Language",
"LanguageMarkdown",
"Pronunciation"
]
}
La operación Models_Create tiene una nueva propiedad customModelWeightPercent
donde puede especificar el peso usado cuando el modelo de lenguaje personalizado (entrenado a partir de datos de texto sin formato o estructurados) se combina con el modelo de lenguaje base. Los valores válidos son enteros entre 1 y 100. El valor predeterminado es actualmente 30.
La propiedad filter
se agrega a las siguientes operaciones:
- Datasets_List
- Datasets_ListFiles
- Endpoints_List
- Evaluations_List
- Evaluations_ListFiles
- Models_ListBaseModels
- Models_ListCustomModels
- Projects_List
- Projects_ListDatasets
- Projects_ListEndpoints
- Projects_ListEvaluations
- Projects_ListModels
La expresión filter
se puede usar para seleccionar un subconjunto de los recursos disponibles. Puede filtrar por displayName
, description
, createdDateTime
, lastActionDateTime
, status
, locale
y kind
. Por ejemplo: filter=locale eq 'en-US'
Se agregó la operación Models_ListFiles para obtener los archivos del modelo identificados por el id. especificado.
Se agregó la operación Models_GetFile para obtener un archivo específico (identificado con fileId) de un modelo (identificado con ID). Esto le permite recuperar un archivo ModelReport que proporciona información sobre los datos procesados durante el entrenamiento.
Identificadores de operación
Debe actualizar la ruta de acceso base del código de /speechtotext/v3.0
a /speechtotext/v3.1
. Por ejemplo, para obtener modelos base en la región eastus
, use https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
en lugar de https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
.
El nombre de cada operationId
en la versión 3.1 tiene como prefijo el nombre del objeto. Por ejemplo, operationId
para "Crear modelo" cambió de CreateModel en la versión 3.0 a Models_Create en la versión 3.1.
La operación /models/{id}/copyto
(incluye "/") en la versión 3.0 se reemplaza por la operación /models/{id}:copyto
(incluye ":") en la versión 3.1.
La operación /webhooks/{id}/ping
(incluye "/") en la versión 3.0 se reemplaza por la operación /webhooks/{id}:ping
(incluye ":") en la versión 3.1.
La operación /webhooks/{id}/test
(incluye "/") en la versión 3.0 se reemplaza por la operación /webhooks/{id}:test
(incluye ":") en la versión 3.1.