Personalización de un modelo de voz

2025-06-04

Nota:

La personalización del modelo de voz, incluido el entrenamiento de pronunciación, está disponible en las cuentas de prueba de Azure de Video Indexer y en las cuentas de Resource Manager. Las cuentas clásicas no admiten esta característica. Para obtener información sobre cómo usar la experiencia de lenguaje personalizado, consulte Personalización de un modelo de lenguaje.

Video Indexer de Azure AI permite crear modelos de voz personalizados para personalizar el reconocimiento de voz mediante la carga de conjuntos de datos que se usan para crear un modelo de voz. En este artículo se describen los pasos para hacerlo a través del sitio web de Video Indexer. También puede usar la API, como se describe en Personalización del modelo de voz mediante API.

Para obtener información general detallada y procedimientos recomendados para los modelos de voz personalizados, consulte Personalización de un modelo de voz con Video Indexer de Azure AI.

Requisitos previos

Lea la guía de procedimientos recomendados de entrenamiento del modelo de voz.
Una cuenta de Azure
Una cuenta de Video Indexer de Azure AI

Portal web
API

Crear un conjunto de datos

Como todos los modelos personalizados deben contener un conjunto de datos, comience con el proceso de creación y administración de conjuntos de datos.

Seleccione el botón Personalización del modelo.
Seleccione la pestaña Voz (nueva).
Seleccione Cargar conjunto de datos.
Seleccione Texto sin formato o Pronunciación en el menú desplegable Tipo de conjunto de datos. Cada modelo de voz debe tener un conjunto de datos de texto sin formato y, opcionalmente, puede tener un conjunto de datos de pronunciación.
Seleccione Examinar y seleccione el archivo del conjunto de datos. Puede seleccionar solo uno.
Seleccione un lenguaje para el modelo. Elija el idioma que se habla en los archivos multimedia que planea indexar con este modelo. El nombre del conjunto de datos se rellena previamente con el nombre del archivo, pero puede modificar el nombre.
Opcionalmente, puede agregar una descripción del conjunto de datos. Puede resultar útil distinguir cada conjunto de datos si espera tener varios conjuntos de datos.
Seleccione Cargar. Una vez completada la creación del conjunto de datos, puede usarla para entrenar y crear nuevos modelos.

Revisión y actualización de un conjunto de datos

Puede ver un conjunto de datos y sus propiedades mediante:

Haga clic en el nombre del conjunto de datos.
Pase el puntero del ratón sobre el conjunto de datos
Seleccionar elipsis

A continuación, seleccione Ver conjunto de datos.

A continuación, puede ver el nombre, la descripción, el idioma y el estado del conjunto de datos, además de las siguientes propiedades:

Número de líneas: indica el número de líneas cargadas correctamente del número total de líneas del archivo. Si todo el archivo se carga correctamente, los números coinciden (por ejemplo, 10 de 10 normalizados). Si los números no coinciden (por ejemplo, 7 de 10 normalizados), significa que solo algunas de las líneas se cargaron correctamente y el resto tenía errores. Las causas comunes de errores son problemas de formato con una línea, como no espaciar una pestaña entre cada palabra de un archivo de pronunciación. Revisar el texto sin formato y los datos de pronunciación de los artículos de formación debería ser útil para encontrar el problema. Para solucionar la causa, revise los detalles del error, que se encuentran en el informe. Seleccione Ver informe para ver los detalles del error relacionados con las líneas que no se cargaron correctamente (errorKind). También puede verlo seleccionando la pestaña Informe .

Id. de conjunto de datos: cada conjunto de datos tiene un GUID único, que es necesario cuando se usa la API para las operaciones que hacen referencia al conjunto de datos.

Texto sin formato (normalizado): contiene el texto normalizado del archivo de conjunto de datos cargado. El texto normalizado es el texto reconocido sin formato.

Editar detalles: para editar el nombre o la descripción de un conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Editar detalles. Después, podrá editar el nombre y la descripción del conjunto de datos.

Nota:

Los datos de un conjunto de datos no se pueden editar ni actualizar una vez cargado el conjunto de datos. Si necesita editar o actualizar los datos de un conjunto de datos, descargue el conjunto de datos, realice las modificaciones, guarde el archivo y cargue el nuevo archivo de conjunto de datos.

Descargar: para descargar un archivo de conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Descargar. Como alternativa, al ver el conjunto de datos, puede seleccionar Descargar y, a continuación, tener la opción de descargar el archivo del conjunto de datos o el informe de carga en formato JSON.

Eliminar: para eliminar un conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Eliminar.

Creación de un modelo de Habla personalizada

Los conjuntos de datos se usan en la creación y el entrenamiento de modelos. Después de crear un conjunto de datos de texto sin formato, puede crear y empezar a usar un modelo de voz personalizado.

Tenga en cuenta los siguientes puntos al crear y usar modelos de voz personalizados:

Un nuevo modelo debe incluir al menos un conjunto de datos de texto sin formato y puede tener varios conjuntos de datos de texto sin formato.
Es opcional incluir un conjunto de datos de pronunciación y no se puede incluir más de uno.
Una vez creado un modelo, no se pueden agregar más conjuntos de datos a él ni realizar modificaciones en sus conjuntos de datos. Si necesita agregar o modificar conjuntos de datos, cree un nuevo modelo.
Si indexa un vídeo mediante un modelo de voz personalizado y, a continuación, elimina el modelo, la transcripción no se ve afectada a menos que realice una reindexación.
Si eliminó un conjunto de datos usado para entrenar un modelo personalizado, seguirá usándolo hasta que se elimine el modelo de voz. El motivo es que el modelo de voz se entrenó mediante el conjunto de datos.
Si elimina un modelo personalizado, no afecta a la transcripción de vídeos para vídeos que ya se indizaron mediante el modelo.

Entrenamiento de un modelo

Nota:

Una vez creado un modelo, no se pueden agregar conjuntos de datos. Un modelo solo puede contener conjuntos de datos del mismo lenguaje.

Hay dos maneras de entrenar un modelo: a través de la pestaña conjunto de datos y a través de la pestaña modelo.

Entrenamiento de un modelo mediante la pestaña Conjuntos de datos

Vea la lista de conjuntos de datos.
Seleccione un conjunto de datos de texto sin formato. Luego seleccione el símbolo Entrenar nuevo modelo.
Seleccione Entrenar un modelo nuevo.
Escriba un nombre para el modelo, un lenguaje y, opcionalmente, agregue una descripción.
Seleccione la pestaña Conjuntos de datos.
Seleccione los conjuntos de datos que desea incluir en el modelo.
Seleccione Crear y entrenar.

Entrenamiento de un modelo a través de la pestaña Modelos

Seleccione la pestaña Modelos.
Seleccione el icono Entrenar un modelo nuevo.
Seleccione los conjuntos de datos que desea formar parte del modelo.
Escriba un nombre para el modelo, un lenguaje y, opcionalmente, agregue una descripción.
Seleccione la pestaña Conjuntos de datos.
Seleccione los conjuntos de datos que desea incluir en el modelo.
Seleccione Crear y entrenar.

Revisión y actualización de un modelo

Ver modelo: puede ver un modelo y sus propiedades seleccionando el nombre del modelo o al mantener el puntero sobre el modelo. A continuación, seleccione los puntos suspensivos (...) y, a continuación, seleccione Ver modelo.

A continuación, verá en la pestaña Detalles el nombre, la descripción, el idioma y el estado del modelo, además de las siguientes propiedades:

Id. de modelo: cada modelo tiene un GUID único, que es necesario cuando se usa la API para las operaciones que hacen referencia al modelo.

Creado en: fecha en la que se creó el modelo.

Editar detalles: para editar el nombre o la descripción de un modelo, al mantener el puntero sobre el modelo, seleccione los puntos suspensivos y, a continuación, seleccione Editar detalles. Después, puede editar el nombre y la descripción del modelo.

Nota:

Solo se puede editar el nombre y la descripción del modelo. Si desea realizar cambios en sus conjuntos de datos o agregar conjuntos de datos, se debe crear un nuevo modelo.

Eliminar: para eliminar un modelo, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Eliminar.

Conjuntos de datos incluidos: seleccione en la pestaña Conjuntos de datos incluidos para ver los conjuntos de datos del modelo.

Usar un modelo de lenguaje personalizado al indexar un vídeo

Un modelo de lenguaje personalizado no se usa de forma predeterminada para los trabajos de indexación, por lo que debe seleccionarse durante el proceso de carga del índice.

Durante el proceso de carga, seleccione el origen del modelo de lenguaje personalizado en el menú desplegable del lenguaje .
Seleccione Cargar.

Los mismos pasos se aplican cuando desea volver a indexar un vídeo con un modelo personalizado.

En la tabla siguiente se proporcionan descripciones de algunos de los parámetros usados con las solicitudes del modelo de voz:

Nombre	Tipo	Descripción
`displayName`	cuerda	Nombre deseado del conjunto de datos o modelo.
`locale`	cuerda	Código de lenguaje del conjunto de datos o modelo. Para obtener una lista completa, consulte Compatibilidad con idiomas.
`kind`	entero	0 para un conjunto de datos de texto sin formato, 1 para un conjunto de datos de pronunciación.
`description`	cuerda	Descripción opcional del conjunto de datos o modelo.
`contentUrl`	Uri	Dirección URL del archivo de origen usado en la creación del conjunto de datos.
`customProperties`	objeto	Propiedades opcionales del conjunto de datos o modelo.

Creación de un conjunto de datos de voz

Puede realizar una solicitud create Speech Dataset API para crear un conjunto de datos para entrenar un modelo de voz. Cargue un archivo que se use para crear un conjunto de datos con esta solicitud. El contenido de un conjunto de datos no se puede modificar después de crearlo.

Defina los parámetros en el cuerpo de la solicitud, incluida una dirección URL al archivo de texto que se va a cargar. Los campos de descripción y propiedades personalizadas son opcionales. Este es un ejemplo de cuerpo de la solicitud:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Respuesta de ejemplo

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Creación de un modelo de voz

Puede realizar una solicitud create Speech Model API para crear y entrenar un modelo de voz personalizado. Úselo para mejorar la precisión de la transcripción de los vídeos. Debe contener al menos un conjunto de datos de texto sin formato. Opcionalmente, puede tener conjuntos de datos de pronunciación. Créelo con todos los archivos de conjunto de datos pertinentes como conjuntos de datos de un modelo no se pueden agregar ni actualizar después de su creación.

Definir los parámetros en el cuerpo de la solicitud, incluyendo una lista de cadenas que el conjunto de datos o conjuntos de datos para el modelo para incluir. Los campos de descripción y propiedades personalizadas son opcionales. A continuación se muestra un cuerpo de solicitud de ejemplo:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Respuesta de ejemplo

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obtener conjunto de datos de voz

Puede usar una llamada API Get Speech Dataset para devolver información del conjunto de datos especificado.

Respuesta de ejemplo

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Obtén archivos de conjuntos de datos de voz

La solicitud Obtener archivos de conjunto de datos de voz devuelve los archivos y metadatos del conjunto de datos especificado.

Respuesta de ejemplo

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Obtención de los conjuntos de datos de cuenta especificados

Puede usar una solicitud Get Speech Datasets API para devolver información de todos los conjuntos de datos de cuentas especificados.

Respuesta de ejemplo

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Obtención del modelo de voz especificado

Puede usar una solicitud Get Speech Model API para devolver información para el modelo especificado.

Respuesta de ejemplo

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obtenga los modelos de voz de cuenta especificados

Puede usar una solicitud Get Speech Models API para devolver información de todos los modelos de la cuenta especificada.

Respuesta de ejemplo

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Eliminación del conjunto de datos de voz

Puede usar una solicitud Delete Speech Dataset API para eliminar el conjunto de datos especificado. Cualquier modelo entrenado con el conjunto de datos eliminado sigue estando disponible hasta que se elimine el modelo. No se puede eliminar un conjunto de datos mientras está en uso para la indexación o el entrenamiento.

Respuesta de ejemplo

No se devuelve contenido cuando el conjunto de datos se elimina correctamente.

Eliminación de un modelo de voz

Puede usar una solicitud Delete Speech Model API para eliminar el modelo de voz especificado. No se puede eliminar un modelo mientras está en uso para la indexación o el entrenamiento.

Respuesta

No se devuelve contenido cuando el modelo de voz se elimina correctamente.

Compartir a través de

Personalización de un modelo de voz

Requisitos previos

Crear un conjunto de datos

Revisión y actualización de un conjunto de datos

Creación de un modelo de Habla personalizada

Entrenamiento de un modelo

Entrenamiento de un modelo mediante la pestaña Conjuntos de datos

Entrenamiento de un modelo a través de la pestaña Modelos

Revisión y actualización de un modelo

Usar un modelo de lenguaje personalizado al indexar un vídeo

Comentarios

Recursos adicionales