Identificación de etiquetas

Artículo
06/26/2024

Advertencia

En el último año, Video Indexer (VI) de Azure AI anunció la eliminación de su dependencia en Azure Media Services (AMS) debido a su retirada. Se anunciaron ajustes y cambios de características y se proporcionó una guía de migración.

La fecha límite para completar la migración fue el 30 de junio de 2024. VI ha ampliado la fecha límite de actualización y migración para que pueda actualizar su cuenta VI y participar en la migración de recursos de AMS VI hasta el 31 de agosto de 2024.

Sin embargo, después del 30 de junio, si no ha actualizado su cuenta VI, no podrá indexar nuevos vídeos ni podrá reproducir vídeos que no se hayan migrado. Si actualiza la cuenta después del 30 de junio, puede reanudar la indexación inmediatamente, pero no podrá reproducir vídeos indexados antes de la actualización de la cuenta hasta que se migren a través de la migración de AMS VI.

La identificación de etiquetas es una característica de INTELIGENCIA artificial de Video Indexer de Azure AI que identifica objetos visuales como gafas de sol o acciones como nadar, que aparecen en el vídeo de un archivo multimedia. Hay muchas categorías de identificación de etiquetas y, una vez extraídas, las instancias de identificación de etiquetas se muestran en la pestaña Insights y se pueden traducir a más de 50 idiomas. Al hacer clic en una etiqueta, se abre la instancia en el archivo multimedia, seleccione Reproducir anterior o Reproducir siguiente para ver más instancias.

Requisitos previos

Revisión de la información general de la nota de transparencia

Visualización de la información

Al trabajar en el sitio web, las instancias se muestran en la pestaña Conclusiones. También se pueden generar en una lista clasificada en un archivo JSON que incluya el identificador de etiquetas, la categoría, las instancias junto con las horas de inicio y finalización específicas de cada etiqueta y la puntuación de confianza, como se indica a continuación:

Para mostrar las conclusiones de identificación de etiquetas en un archivo JSON, haga lo siguiente:

Haga clic en Descargar y, a continuación, en Insights (JSON).

Copie el texto y péguelo en el Visor JSON.

"labels": [
    {
    "id": 1,
    "name": "human face",
    "language": "en-US",
    "instances": [
        {
        "confidence": 0.9987,
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:00:25.6",
        "start": "0:00:00",
        "end": "0:00:25.6"
        },
        {
        "confidence": 0.9989,
        "adjustedStart": "0:01:21.067",
        "adjustedEnd": "0:01:41.334",
        "start": "0:01:21.067",
        "end": "0:01:41.334"
        }
    ]
    },
    {
    "id": 2,
    "name": "person",
    "referenceId": "person",
    "language": "en-US",
    "instances": [
        {
        "confidence": 0.9959,
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:00:26.667",
        "start": "0:00:00",
        "end": "0:00:26.667"
        },
        {
        "confidence": 0.9974,
        "adjustedStart": "0:01:21.067",
        "adjustedEnd": "0:01:41.334",
        "start": "0:01:21.067",
        "end": "0:01:41.334"
        }
    ]
    },

Para descargar el archivo JSON a través de la API, el portal para desarrolladores de Azure AI Video Indexer.

Componentes de etiquetas

Durante el procedimiento Labels, los objetos de un archivo multimedia se procesan de la siguiente manera:

Componente	Definición
Source	El usuario carga el archivo de origen para la indexación.
Etiquetado	Las imágenes se etiquetan y etiquetan. Por ejemplo, puerta, silla, mujer, auriculares, jeans.
Filtrado y agregación	Las etiquetas se filtran según su nivel de confianza y se agregan según su categoría.
Nivel de confianza	El nivel de confianza estimado de cada etiqueta se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representa como una puntuación de 0,82.

Casos de uso de ejemplo

Extracción de etiquetas de marcos para publicidad contextual o personalización de marca. Por ejemplo, colocar un anuncio para cerveza después de las imágenes de una playa.
Crear una descripción verbal de las imágenes para mejorar la accesibilidad para los discapacitados visuales, por ejemplo, un narrador de fondo en películas.
Búsqueda en profundidad de archivos multimedia para obtener información sobre objetos específicos para crear historias de características para las noticias.
Usar etiquetas relevantes para crear contenido para los finalizadores, resaltar carretes, redes sociales o clips nuevos.

Consideraciones al elegir un caso de uso

Considere cuidadosamente la precisión de los resultados, para promover detecciones más precisas, comprobar la calidad del vídeo, el vídeo de baja calidad podría afectar a la información detectada.
Tenga en cuenta detenidamente al usar para el cumplimiento de la ley que las etiquetas potencialmente no pueden detectar partes del vídeo. Para garantizar decisiones justas y de alta calidad, combine etiquetas con supervisión humana.
No use la identificación de etiquetas para las decisiones que pueden tener efectos adversos graves. Los modelos de Machine Learning pueden dar lugar a una salida de clasificación no detectada o incorrecta. Las decisiones basadas en resultados incorrectos podrían tener graves efectos adversos. Además, es aconsejable incluir la revisión humana de las decisiones que tienen el potencial de impacto grave en las personas.

Compartir a través de