Personalización de un modelo de lenguaje con Video Indexer de Azure AI

Artículo
09/03/2024

Video Indexer de Azure AI admite el reconocimiento automático de voz mediante la integración con Microsoft Custom Speech Service. Puede personalizar el modelo de lenguaje cargando texto de adaptación. Este texto procede del dominio cuyo vocabulario desea que use el motor para adaptarse. Una vez entrenado el modelo, se reconocen nuevas palabras que aparecen en el texto de adaptación, suponiendo que la pronunciación predeterminada y el modelo de lenguaje aprende nuevas secuencias probables de palabras. Consulte la lista de idiomas compatibles con Video Indexer de Azure AI en langues compatibles.

Por ejemplo, "Kubernetes" (en el contexto de Azure Kubernetes service), es una palabra muy específica. Dado que la palabra es nueva en Video Indexer de Azure AI, se reconoce como "comunidades". Entrene el modelo para reconocerlo como "Kubernetes". En otros casos, existen las palabras, pero el modelo de lenguaje no espera que aparezcan en un contexto determinado. Por ejemplo, "container service" no es una secuencia de 2 palabras que un modelo de lenguaje no especificado reconocería como un conjunto específico de palabras.

Hay dos maneras de personalizar un modelo de lenguaje:

Opción 1: Edite la transcripción generada por Video Indexer de Azure AI. Al editar y corregir la transcripción, va a entrenar un modelo de lenguaje para proporcionar resultados mejorados en el futuro.
Opción 2: Cargar archivos de texto para entrenar el modelo de lenguaje. El archivo puede contener una lista de palabras como le gustaría que aparezcan en la transcripción de Video Indexer o las palabras pertinentes incluidas naturalmente en oraciones y párrafos. A medida que se obtienen mejores resultados con el último enfoque, se recomienda que el archivo de carga contenga oraciones completas o párrafos relacionados con el contenido.

Importante

No incluya las palabras o oraciones como se ha transcrito actualmente incorrectamente (por ejemplo, "comunidades") en el archivo de carga, ya que esto negará el impacto previsto. Incluya solo las palabras como desea que aparezcan (por ejemplo, "Kubernetes").

Optimización del modelo de lenguaje personalizado

Video Indexer de Azure AI aprende en función de las probabilidades de combinaciones de palabras, por lo que aprenderá mejor:

Ofrézcale suficientes ejemplos de oraciones reales del modo en que se pronunciarían.
Coloque solo una oración por línea, no más. De lo contrario, el sistema aprenderá probabilidades con las oraciones.
Está bien poner una palabra como frase para aumentar la palabra contra otros, pero el sistema aprende mejor de las oraciones completas.
Al introducir palabras o acrónimos nuevos, si es posible, proporcione tantos ejemplos de uso como pueda en una oración completa para ofrecer al sistema tanto contexto como sea posible.
Intente colocar varias opciones de adaptación y vea cómo funcionan.
Evite la repetición de la misma oración exacta varias veces. Puede crear un sesgo en el resto de la entrada.
Evite incluir símbolos poco comunes (~, # @ % &) ya que se descartarán. Las oraciones en que las que aparezcan también se descartarán.
Evite colocar entradas demasiado grandes, como cientos de miles de oraciones, porque, al hacerlo, reducirá el efecto de impulso.

Requisitos previos

Una cuenta de Azure
Una cuenta de Video Indexer de Azure AI

Portal web
API

Creación de un modelo de lenguaje

Vaya al sitio web de Azure AI Video Indexer e inicie sesión.
Para personalizar un modelo en su cuenta, seleccione el botón Content model customization (Personalización del modelo de contenido) a la izquierda de la página.
Seleccione la pestaña Idioma . Verá una lista de idiomas admitidos.
En el idioma que desee, seleccione Agregar modelo.
Escriba el nombre del modelo de lenguaje y presione Entrar. En este paso se crea el modelo y se ofrece la opción de cargar en él archivos de texto.
Para agregar un archivo de texto, seleccione Agregar archivo. Se abrirá el explorador de archivos.
Vaya al archivo de texto y selecciónelo. Puede agregar varios archivos de texto a un modelo de lenguaje. También puede agregar un archivo de texto seleccionando el botón ... situado en el lado derecho del modelo de lenguaje y seleccionando Agregar archivo.
Cuando termine de cargar los archivos de texto, seleccione la opción verde Entrenar.

Este proceso puede tardar varios minutos. Una vez realizado el entrenamiento, Trained aparece junto al modelo. Puede obtener una vista previa del archivo del modelo, descargarlo y eliminarlo.

Uso de un modelo de lenguaje en un vídeo nuevo

Para usar el modelo de lenguaje en un vídeo nuevo, realice una de las siguientes acciones:

Seleccione el botón Upload (Cargar) en la parte superior de la página.
Coloque el archivo de audio o vídeo o busque el archivo.
Seleccione un modelo de lenguaje que creó en la lista desplegable Idioma de origen de vídeo.
Haga clic en la opción Cargar en la parte inferior de la página y el nuevo vídeo se indexará mediante el modelo de lenguaje.

Uso de un modelo de lenguaje para volver a indexar

Inicie sesión en la página principal de Azure AI Video Indexer .
Haga clic en el botón ... del vídeo y seleccione Volver a indexar.
Seleccione la lista desplegable Idioma de origen de vídeo y seleccione un modelo de lenguaje que creó en la lista.
Seleccione el botón Volver a indexar y el vídeo se volverá a indexar con el modelo de lenguaje.

Edición de un modelo de lenguaje

Puede editar un modelo de lenguaje cambiando su nombre, agregando archivos a él y eliminando archivos de él. Si agrega o elimina archivos del modelo de lenguaje, tendrá que volver a entrenar el modelo seleccionando la opción verde Train (Entrenar ).

Cambiar el nombre del modelo de lenguaje

Para cambiar el nombre del modelo de lenguaje, seleccione el botón de puntos suspensivos (...) situado en el lado derecho del modelo de lenguaje y seleccione Cambiar nombre. Escriba el nuevo nombre.

Incorporación de archivos

Seleccione Add file (Agregar archivo). Se abrirá el explorador de archivos.
Vaya al archivo de texto y selecciónelo. Puede agregar varios archivos de texto a un modelo de lenguaje.

También puede agregar un archivo de texto seleccionando el botón de puntos suspensivos (...) situado en el lado derecho del modelo de lenguaje y seleccionando Agregar archivo.

Eliminar archivos

Esta acción quita completamente el archivo del modelo de lenguaje.

Seleccione el botón de puntos suspensivos (...) situado en el lado derecho del archivo de texto.
Seleccione Eliminar. Aparece una nueva ventana que le indica que la eliminación no se puede deshacer.
Seleccione la opción Eliminar en la nueva ventana.

Eliminación de un modelo de lenguaje

Esta acción quita completamente el modelo de lenguaje de la cuenta. Cualquier vídeo que use el modelo deletedlLanguage mantendrá el mismo índice hasta que vuelva a indexar el vídeo. Si vuelve a indexar el vídeo, puede asignar un nuevo modelo de lenguaje al vídeo. De lo contrario, Video Indexer de Azure AI usará su modelo predeterminado para volver a indexar el vídeo.

Seleccione el botón de puntos suspensivos (...) situado a la derecha del modelo de lenguaje.
Seleccione Eliminar. Aparece una nueva ventana que le indica que la eliminación no se puede deshacer.
Seleccione la opción Eliminar en la nueva ventana.

Personalización de modelos de lenguaje mediante la corrección de transcripciones

Video Indexer de Azure AI personaliza los modelos de lenguaje en función de las correcciones reales que realizan los usuarios en las transcripciones de sus vídeos. Captura todas las líneas que corrigió en la transcripción del vídeo y las agrega a un archivo de texto denominado From transcript edits. Estas modificaciones se usan para volver a entrenar el modelo de lenguaje que se usó para indexar el vídeo.

También se incluyen las modificaciones realizadas en la escala de tiempo del widget.

Si no especificó un modelo de lenguaje al indexar este vídeo, todas las ediciones de este vídeo se almacenan en un modelo de lenguaje predeterminado llamado Account adaptations dentro del idioma detectado del vídeo.

En caso de que se hayan realizado varias modificaciones en la misma línea, solo se usa la última versión de la línea corregida para actualizar el modelo de lenguaje.

Nota:

Solo las correcciones textuales se usan para la personalización. No se incluyen las correcciones que no impliquen palabras reales (por ejemplo, los signos de puntuación o los espacios).

Seleccione el vídeo que desea editar desde la biblioteca.
Seleccione la pestaña Timeline (Escala de tiempo).
Seleccione el icono del lápiz para editar la transcripción.
Verá que las correcciones de transcripciones aparecen en la pestaña Idioma de la página personalización con modo carpa l. Seleccione el modelo de lenguaje que desee para ver su archivo "Ediciones de transcripción de origen".

Creación de un modelo de lenguaje

La solicitud Crear modelo de lenguaje crea un nuevo modelo de lenguaje personalizado para la cuenta especificada. Puede cargar archivos para el modelo de lenguaje mediante esta solicitud. Como alternativa, puede crear el modelo de lenguaje aquí y cargar archivos para el modelo más adelante actualizando el modelo de lenguaje.

Debe cargar archivos en el cuerpo mediante FormData además de proporcionar valores para los parámetros necesarios. Hay dos maneras de definir el par de claves para esta tarea:

La clave es el nombre de archivo y el valor es el archivo txt.
La clave es el nombre de archivo y el valor es una dirección URL al archivo txt.

Nota:

Todavía tiene que entrenar al modelo con sus archivos habilitados para que aprenda el contenido de sus archivos.

Respuesta de ejemplo

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

Entrenamiento de un modelo de lenguaje

La solicitud Train Language Model entrena un modelo de lenguaje personalizado para la cuenta especificada con el contenido de los archivos cargados y habilitados en el modelo de lenguaje.

Nota:

Primero debe crear el modelo de lenguaje y cargar sus archivos. Puede cargar archivos al crear el modelo de lenguaje o actualizando el modelo de lenguaje.

Respuesta de ejemplo

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": false,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

id es un identificador único que se usa para distinguir entre los modelos de lenguaje, mientras languageModelId que se usa para cargar un vídeo para indexar y volver a indexar una solicitud de vídeo (también conocida como linguisticModelId en solicitudes de carga o reindexación de Video Indexer de Azure AI).

Eliminación de un modelo de lenguaje

La solicitud Eliminar modelo de lenguaje elimina un modelo de lenguaje personalizado de la cuenta especificada. Cualquier vídeo que estaba usando el modelo de lenguaje eliminado mantiene el mismo índice hasta que vuelva a indexar el vídeo. Si vuelve a indexar el vídeo, puede asignarle un nuevo modelo de lenguaje. De lo contrario, Video Indexer de Azure AI usa su modelo predeterminado para volver a indexar el vídeo.

Respuesta de ejemplo

No se devuelve contenido cuando el modelo de lenguaje se elimina correctamente.

Actualización de un modelo de lenguaje

La solicitud Update Language Model actualiza un modelo de persona de lenguaje personalizado en la cuenta especificada.

Nota:

Ya debe haber creado el modelo de lenguaje. Puede usar esta llamada para habilitar o deshabilitar todos los archivos en el modelo, actualizar el nombre del modelo de lenguaje y cargar los archivos que se agregarán al modelo de lenguaje.

Para cargar archivos que se van a agregar al modelo de lenguaje, debe cargar archivos en el cuerpo mediante FormData además de proporcionar valores para los parámetros necesarios anteriores. Existen dos formas de realizar esta tarea:

La clave es el nombre de archivo y el valor es el archivo txt.
La clave es el nombre de archivo y el valor es una dirección URL al archivo txt.

Respuesta de ejemplo

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

Use el id de los archivos devueltos en la respuesta para descargar el contenido del archivo.

Actualización de un archivo desde un modelo de lenguaje

La solicitud Actualizar archivo de modelo de lenguaje permite actualizar el nombre y enable el estado de un archivo en un modelo de lenguaje personalizado en la cuenta especificada.

Respuesta de ejemplo

{
  "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
  "name": "RenamedFile",
  "enable": false,
  "creator": "John Doe",
  "creationTime": "2018-04-27T20:10:10.5233333"
}

Use el id del archivo devuelto en la respuesta para descargar el contenido del archivo.

Obtención de un modelo de lenguaje específico

La solicitud Obtener modelo de lenguaje devuelve información sobre el modelo de lenguaje especificado en la cuenta especificada, como el idioma y los archivos que se encuentran en el modelo de lenguaje.

Respuesta de ejemplo

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

Use el id del archivo devuelto en la respuesta para descargar el contenido del archivo.

Obtención de todos los modelos de lenguaje

La solicitud Obtener modelos de lenguaje devuelve todos los modelos de lenguaje personalizados de la cuenta especificada en una lista.

Respuesta de ejemplo

[
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
        "name": "TestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000000",
        "files": [
        {
            "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
            "name": "hellofile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.6733333"
        },
        {
            "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
            "name": "worldfile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.86"
        }
        ]
    },
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a892",
        "name": "AnotherTestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000001",
        "files": []
    }
]

Eliminación de un archivo de un modelo de lenguaje

La solicitud Eliminar archivo de modelo de lenguaje elimina el archivo especificado del modelo de lenguaje especificado en la cuenta especificada.

Respuesta de ejemplo

No se devuelve contenido cuando el archivo se elimina del modelo de lenguaje correctamente.

Obtención de metadatos sobre un archivo de un modelo de lenguaje

La solicitud Obtener datos de archivo del modelo de lenguaje devuelve el contenido y los metadatos del archivo especificado del modelo de lenguaje elegido en la cuenta.

Respuesta de ejemplo

{
    "content": "hello\r\nworld",
    "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
    "name": "Hello",
    "enable": true,
    "creator": "John Doe",
    "creationTime": "2018-04-27T20:10:10.5233333"
}

Nota:

El contenido de este archivo de ejemplo son las palabras "hello" y "world" en dos líneas independientes.

Descarga de un archivo de un modelo de lenguaje

La solicitud Descargar contenido de archivo del modelo de lenguaje descarga un archivo de texto que contiene el contenido del archivo especificado del modelo de lenguaje especificado en la cuenta especificada. Este archivo de texto debe coincidir con el contenido del archivo de texto que se cargó originalmente.

Respuesta de ejemplo

La respuesta es la descarga de un archivo de texto con el contenido del archivo en formato JSON.

Compartir a través de

Personalización de un modelo de lenguaje con Video Indexer de Azure AI

Optimización del modelo de lenguaje personalizado

Requisitos previos

Creación de un modelo de lenguaje

Uso de un modelo de lenguaje en un vídeo nuevo

Uso de un modelo de lenguaje para volver a indexar

Edición de un modelo de lenguaje

Cambiar el nombre del modelo de lenguaje

Incorporación de archivos

Eliminar archivos

Eliminación de un modelo de lenguaje

Personalización de modelos de lenguaje mediante la corrección de transcripciones

Creación de un modelo de lenguaje

Respuesta de ejemplo

Entrenamiento de un modelo de lenguaje

Respuesta de ejemplo

Eliminación de un modelo de lenguaje

Respuesta de ejemplo

Actualización de un modelo de lenguaje

Respuesta de ejemplo

Actualización de un archivo desde un modelo de lenguaje

Respuesta de ejemplo

Obtención de un modelo de lenguaje específico

Respuesta de ejemplo

Obtención de todos los modelos de lenguaje

Respuesta de ejemplo

Eliminación de un archivo de un modelo de lenguaje

Respuesta de ejemplo

Obtención de metadatos sobre un archivo de un modelo de lenguaje

Respuesta de ejemplo

Descarga de un archivo de un modelo de lenguaje

Respuesta de ejemplo

Comentarios

Recursos adicionales