Compartir a través de


Examen de la salida de Video Indexer de Azure AI

Importante

Debido al anuncio de retirada de Azure Media Services, Video Indexer de Azure AI anuncia los ajustes de las características de Video Indexer de Azure AI. Consulte Cambios relacionados con la retirada de Azure Media Service (AMS) para comprender lo que esto significa para la cuenta de Video Indexer de Azure AI. Consulte la guía Preparación para la retirada de AMS: vi actualización y migración.

Cuando se indexa un vídeo, Video Indexer de Azure AI genera el contenido JSON que contiene detalles de la información de vídeo especificada. La información incluye transcripciones, elementos de reconocimiento óptico de caracteres (OCR), caras, temas y detalles similares. Cada tipo de conclusión incluye instancias de intervalos de tiempo que se muestran cuando aparece la conclusión en el vídeo.

Para más información, consulte Información de Azure AI Video Indexer.

Elementos raíz de la información detallada

Nombre Descripción
accountId Identificador de la cuenta de Video Indexer de la lista de reproducción.
id Identificador de la lista de reproducción.
name Nombre de la lista de reproducción.
description Descripción de la lista de reproducción.
userName Nombre del usuario que creó la lista de reproducción.
created Hora de creación de la lista de reproducción.
privacyMode Modo de privacidad de la lista de reproducción (Private o Public).
state El estado de la lista de reproducción (Uploaded, Processing, Processed, Failed o Quarantined).
isOwned Indica si el usuario actual creó la lista de reproducción.
isEditable Indica si el usuario actual está autorizado para editar la lista de reproducción.
isBase Indica si la lista de reproducción es una lista de reproducción base (un vídeo) o una lista de reproducción formada por otros vídeos (derivada).
durationInSeconds Duración total de la lista de reproducción.
summarizedInsights La salida JSON generada contiene elementos Insights y SummarizedInsights. Se recomienda usar Insights, y no SummarizedInsights (que está presente para la compatibilidad con versiones anteriores).
videos Lista de vídeos que forman la lista de reproducción.
Si esta lista de reproducción se construye de intervalos de tiempo de otros vídeos (derivados), los vídeos de esta lista solo contienen datos de los intervalos de tiempo incluidos.
{
  ...
  "accountId": "00000000-0000-0000-0000-000000000000",
  "id": "abc3454321",
  "name": "My first video",
  "description": "I am trying VI",
  "userName": "Some name",
  "created": "2018/2/2 18:00:00.000",
  "privacyMode": "Private",
  "state": "Processed",
  "isOwned": true,
  "isEditable": false,
  "isBase": false,
  "durationInSeconds": 120, 
  "summarizedInsights" : null,
  "videos": [{ . . . }]
}

Sugerencia

La salida JSON generada contiene elementos Insights y SummarizedInsights. Se recomienda encarecidamente usar Insights y no usar SummarizedInsights (que está presente para la compatibilidad con versiones anteriores).

Resumen de la información

En esta sección se muestra un resumen de la información detallada.

Atributo Descripción
name Nombre del vídeo. Por ejemplo: Azure Monitor.
id Identificador del vídeo. Por ejemplo: 63c6d532ff.
privacyMode El desglose puede tener uno de los modos siguientes: Un vídeo Public es visible para todos los usuarios de su cuenta y cualquier persona que tenga un vínculo al vídeo. Un vídeo Private es visible para todos los usuarios de la cuenta.
duration Hora a la que se produjo una información, en segundos.
thumbnailVideoId Identificador del vídeo del que se tomó la miniatura.
thumbnailId Identificador de la miniatura del vídeo. Para obtener la miniatura real, llame a Get-Thumbnail y pase thumbnailVideoId y thumbnailId.
faces Contiene cero o más caras. Para obtener más información, consulte caras.
keywords Contiene cero o más palabras clave. Para obtener más información, consulte palabras clave.
sentiments Contiene cero o más opiniones. Para obtener más información, consulte opiniones.
audioEffects Contiene cero o más efectos de audio. Para obtener más información, consulte audioEffects.
labels Contiene cero o más etiquetas. Para obtener más información, consulte etiquetas.
brands Contiene cero o más marcas. Para obtener más información, consulte marcas.
statistics Para más información, consulte statistics.
emotions Contiene cero o más emociones. Para obtener más información, consulte emociones.
topics Contiene cero o más temas. Para obtener más información, consulte temas.

Vídeos

Nombre Descripción
accountId Identificador de la cuenta de Video Indexer del vídeo.
id Identificador del vídeo.
name Nombre del vídeo.
state El estado del vídeo (Uploaded, Processing, Processed, Failed o Quarantined).
processingProgress Progreso durante el procesamiento. Por ejemplo: 20%.
failureCode Código de error si se produjo un problema al procesar el vídeo. Por ejemplo: UnsupportedFileType.
failureMessage Mensaje de error si se produjo un problema al procesar el vídeo.
externalId Id. externo del vídeo (si lo especifica el usuario).
externalUrl URL externa del vídeo (si la especifica el usuario).
metadata Metadatos externos del vídeo (si los especifica el usuario).
isAdult Indica si el vídeo se ha revisado manualmente y se ha identificado como un vídeo para adultos.
insights Objeto de información detallada. Para más información, consulte insights.
thumbnailId Identificador de la miniatura del vídeo. Para obtener la miniatura real, llame a Get-Thumbnail y pase el id. del vídeo y el id. de la miniatura.
publishedUrl Dirección URL para transmitir el vídeo.
publishedUrlProxy Dirección URL para transmitir el vídeo desde dispositivos de Apple.
viewToken Token de visualización de corta duración para transmitir el vídeo.
sourceLanguage Idioma de origen del vídeo.
language Idioma real del vídeo (traducción).
indexingPreset Valor predeterminado utilizado para indexar el vídeo.
streamingPreset Valor predeterminado utilizado para publicar el vídeo.
linguisticModelId Modelo de personalización de transcripciones (CRIS) usado para transcribir el vídeo.
statistics Para más información, consulte statistics.
{
    "videos": [{
        "accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
        "id": "142a356aa6",
        "state": "Processed",
        "privacyMode": "Private",
        "processingProgress": "100%",
        "failureCode": "General",
        "failureMessage": "",
        "externalId": null,
        "externalUrl": null,
        "metadata": null,
        "insights": {. . . },
        "thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
        "publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
        "publishedProxyUrl": null,
        "viewToken": "Bearer=<token>",
        "sourceLanguage": "En-US",
        "language": "En-US",
        "indexingPreset": "Default",
        "linguisticModelId": "00000000-0000-0000-0000-000000000000"
    }],
}

información

Cada información (por ejemplo, líneas de transcripción, caras o marcas) contiene una lista de elementos únicos (por ejemplo, face1, face2, face3). Cada elemento tiene sus propios metadatos y una lista de sus instancias, que son intervalos de tiempo con metadatos adicionales.

Una cara puede tener un identificador, un nombre, una miniatura, otros metadatos y una lista de sus instancias temporales (por ejemplo, 00:00:05 – 00:00:10, 00:01:00 - 00:02:30y 00:41:21 – 00:41:49). Cada instancia temporal puede tener metadatos adicionales. Por ejemplo, los metadatos pueden incluir las coordenadas del rectángulo de la cara (20,230,60,60).

Versión Versión del código
sourceLanguage Idioma de origen del vídeo (suponiendo un idioma maestro), en forma de cadena BCP-47.
language Idioma de información (traducido del idioma de origen), en forma de cadena BCP-47.
transcript La conclusión transcript.
ocr La conclusión OCR.
keywords La conclusión keywords.
transcripts Puede contener uno o varios transcript.
faces La conclusión faces.
labels La conclusión labels.
shots La conclusión shots.
brands La conclusión brands.
audioEffects La conclusión audioEffects.
sentiments La conclusión sentiments.
visualContentModeration La conclusión visualContentModeration.
textualContentModeration La conclusión visualContentModeration.
emotions La conclusión emotions.
topics Las conclusiones de los temas.
speakers La conclusión speakers.

Ejemplo:

{
  "version": "0.9.0.0",
  "sourceLanguage": "en-US",
  "language": "es-ES",
  "transcript": ...,
  "ocr": ...,
  "keywords": ...,
  "faces": ...,
  "labels": ...,
  "shots": ...,
  "brands": ...,
  "audioEffects": ...,
  "sentiments": ...,
  "visualContentModeration": ...,
  "textualContentModeration": ...
}

transcript

Nombre Descripción
id Identificador de la línea.
text La transcripción en sí.
confidence Nivel de confianza para la precisión de la transcripción.
speakerId Identificador del orador.
language Idioma de la transcripción. Está diseñado para admitir la transcripción, donde cada línea puede tener un idioma distinto.
instances Lista de los intervalos de tiempo donde apareció esta línea. Si la instancia está en una transcripción, solo tiene una instancia.

Ejemplo:

"transcript":[
{
  "id":1,
  "text":"Well, good morning everyone and welcome to",
  "confidence":0.8839,
  "speakerId":1,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "text":"ignite 2016. Your mission at Microsoft is to empower every",
  "confidence":0.8944,
  "speakerId":2,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
}

ocr

Nombre Descripción
id Id. de la línea OCR.
text Texto del OCR.
confidence Confiabilidad del reconocimiento.
language Idioma del OCR.
instances Lista de los intervalos de tiempo donde apareció este OCR. (El mismo OCR puede aparecer varias veces).
height El alto del rectángulo de OCR.
top La ubicación superior en píxeles.
left La ubicación izquierda en píxeles.
width El ancho del rectángulo de OCR.
angle El ángulo del rectángulo de OCR, de -180 a 180. Un valor de 0 significa horizontal de izquierda a derecha. Un valor de 90 significa vertical de arriba abajo. Un valor de 180 significa horizontal de derecha a izquierda. Un valor de -90 significa vertical de abajo a arriba. Un valor de 30 significa de arriba a la izquierda a abajo a la derecha.
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 675.971,
      "height": 35,
      "language": "en-US",
      "left": 31,
      "top": 97,
      "width": 400,
      "angle": 30,
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    }
  ],

palabras clave

Nombre Descripción
id Id. de la palabra clave.
text Texto de la palabra clave.
confidence Confianza del reconocimiento de la palabra clave.
language Idioma de la palabra clave (cuando se traduce).
instances Lista de los intervalos de tiempo donde apareció esta palabra clave. (Una palabra clave puede aparecer varias veces).
{
    id: 0,
    text: "technology",
    confidence: 1,
    language: "en-US",
    instances: [{
            adjustedStart: "0:05:15.782",
            adjustedEnd: "0:05:16.249",
            start: "0:05:15.782",
            end: "0:05:16.249"
    },
    {
            adjustedStart: "0:04:54.761",
            adjustedEnd: "0:04:55.228",
            start: "0:04:54.761",
            end: "0:04:55.228"
    }]
}

faces

Si hay caras presentes, Video Indexer de Azure AI usa Face API en todos los fotogramas del vídeo para detectar caras y celebridades.

Nombre Descripción
id Id. de la cara.
name Nombre del rostro. Puede ser Unknown #0, una celebridad identificada o una persona capacitada por el cliente.
confidence Nivel de confianza en la identificación facial.
description Descripción de la celebridad.
thumbnailId Id. de la miniatura de la cara en cuestión.
knownPersonId Id. interno si es una persona conocida.
referenceId Id. de Bing si es una celebridad de Bing.
referenceType Actualmente, solo Bing.
title Si es una celebridad, el título de la persona. Por ejemplo: Microsoft's CEO.
imageUrl La dirección URL de la imagen si es una celebridad.
instances Instancias en las que apareció la cara en el intervalo de tiempo determinado. Cada instancia también tiene un valor de thumbnailsIds.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

etiquetas

Nombre Descripción
id Id. de la etiqueta.
name Nombre de la etiqueta. Por ejemplo: Computer o TV.
language Idioma del nombre de la etiqueta (cuando se traduce), en forma de cadena BCP-47.
instances Lista de los intervalos de tiempo donde apareció esta etiqueta. (Una etiqueta puede aparecer varias veces). Cada instancia tiene un campo de confianza.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

scenes

Nombre Descripción
id Id. de la escena.
instances Lista de intervalos de tiempo de esta escena. (Una escena solo puede tener una instancia).
"scenes":[  
    {  
      "id":0,
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },
    {  
      "id":1,
      "instances":[  
          {  
            "start":"0:00:06.34",
            "end":"0:00:47.047",
            "duration":"0:00:40.707"
          }
      ]
    },

]

shots

Nombre Descripción
id Id. de la toma.
keyFrames Lista de fotogramas clave dentro de la toma. Cada uno tiene un id. y una lista de intervalos de tiempo de instancia. Cada instancia de fotograma clave tiene un campo thumbnailId que contiene el id. de la miniatura del fotograma clave.
instances Lista de intervalos de tiempo de esta toma. (Una toma solo puede tener una instancia).
"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

brands

Video Indexer de Azure AI detecta nombres de marca de productos y empresariales en la transcripción de voz a texto o OCR de vídeo. Esta información no incluye el reconocimiento visual de marcas ni detección de logotipos.

Nombre Descripción
id Id. de la marca.
name Nombre de la marca.
referenceId Sufijo de la dirección URL de la Wikipedia de la marca. Por ejemplo, Target_Corporation es el sufijo de https://en.wikipedia.org/wiki/Target_Corporation.
referenceUrl Dirección URL de Wikipedia de la marca, si existe una. Por ejemplo: https://en.wikipedia.org/wiki/Target_Corporation.
description Descripción de la marca.
tags Lista de etiquetas predefinidas asociadas a esta marca.
confidence Valor de confianza del detector de marca de Video Indexer de Azure AI (0-1).
instances Lista de intervalos de tiempo de esta marca. Cada instancia tiene un valor brandType, que indica si esta marca apareció en la transcripción o en un OCR.
"brands": [
{
    "id": 0,
    "name": "MicrosoftExcel",
    "referenceId": "Microsoft_Excel",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
    "referenceType": "Wiki",
    "description": "Microsoft Excel is a sprea..",
    "tags": [],
    "confidence": 0.975,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 00: 31.3000000",
        "end": "00: 00: 39.0600000"
    }
    ]
},
{
    "id": 1,
    "name": "Microsoft",
    "referenceId": "Microsoft",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
    "description": "Microsoft Corporation is...",
    "tags": [
    "competitors",
    "technology"
    ],
    "confidence": 1.0,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 01: 44",
        "end": "00: 01: 45.3670000"
    },
    {
        "brandType": "Ocr",
        "start": "00: 01: 54",
        "end": "00: 02: 45.3670000"
    }
    ]
}
]

estadísticas

Nombre Descripción
CorrespondenceCount Número de correspondencias en el vídeo.
SpeakerWordCount Número de palabras por orador.
SpeakerNumberOfFragments Número de fragmentos que el orador tiene en un vídeo.
SpeakerLongestMonolog Monólogo más largo del orador. Si el orador tiene períodos de silencio dentro del monólogo, se incluyen. Los silencios al principio y al final del monólogo se eliminan.
SpeakerTalkToListenRatio El cálculo se basa en el tiempo invertido en el monólogo del orador (sin los silencios intermedios) dividido por el tiempo total del vídeo. El tiempo se redondea a tres decimales.

audioEffects (versión preliminar)

Nombre Descripción
id Id. del efecto de audio.
type Tipo del efecto de audio.
name Tipo de efecto de audio en el lenguaje en el que se indexó el código JSON.
instances Lista de los intervalos de tiempo donde apareció este efecto de audio. Cada instancia tiene un campo de confiabilidad.
start + end Intervalo de tiempo del vídeo original.
adjustedStart + adjustedEnd Intervalo de tiempo frente a intervalo de tiempo ajustado.
audioEffects: [{
 {
        id: 0,
        type: "Laughter",
        name: "Laughter",
        instances: [{
                confidence: 0.8815,
                adjustedStart: "0:00:10.2",
                adjustedEnd: "0:00:11.2",
                start: "0:00:10.2",
                end: "0:00:11.2"
            }, {
                confidence: 0.8554,
                adjustedStart: "0:00:48.26",
                adjustedEnd: "0:00:49.56",
                start: "0:00:48.26",
                end: "0:00:49.56"
            }, {
                confidence: 0.8492,
                adjustedStart: "0:00:59.66",
                adjustedEnd: "0:01:00.66",
                start: "0:00:59.66",
                end: "0:01:00.66"
            }
        ]
    }
],

sentiments

Los sentimientos se agregan por su sentimentType campo (Positive, Neutralo Negative). Por ejemplo: 0-0.1, 0.1-0.2.

Nombre Descripción
id Id. de la opinión.
averageScore Promedio de todas las puntuaciones de todas las instancias de ese tipo de opinión.
instances Lista de los intervalos de tiempo donde apareció esta opinión.
sentimentType El tipo puede ser Positive, Neutral o Negative.
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

visualContentModeration

La visualContentModeration transcripción contiene intervalos de tiempo que Azure AI Video Indexer encontró que potencialmente tienen contenido para adultos. Si visualContentModeration está vacío, no se ha detectado contenido para adultos.

Los vídeos que contengan contenido para adultos o subido de tono podrían estar disponibles solo para visualización privada. Los usuarios pueden enviar una solicitud de revisión humana del contenido. En ese caso, el IsAdult atributo contiene el resultado de la revisión humana.

Nombre Descripción
id Id. de la moderación del contenido visual.
adultScore Puntuación de contenido para adultos (de la moderación de contenido).
racyScore Puntuación de contenido subido de tono (del moderador de contenido).
instances Lista de intervalos de tiempo donde apareció esta moderación de contenido visual.

Más información sobre visualContentModeration

"visualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

textualContentModeration

Nombre Descripción
id Id. de la moderación de contenido textual.
bannedWordsCount Número de palabras no permitidas.
bannedWordsRatio Proporción de palabras prohibidas frente al número total de palabras.
Más información sobre textualContentModeration

emotions

Video Indexer de Azure AI identifica emociones basadas en indicaciones de voz y audio.

Nombre Descripción
id Id. de la emoción.
type Tipo de una emoción identificada: Joy, Sadness, Anger o Fear.
instances Lista de los intervalos de tiempo donde apareció esta emoción.
"emotions": [{
    "id": 0,
    "type": "Fear",
    "instances": [{
      "adjustedStart": "0:00:39.47",
      "adjustedEnd": "0:00:45.56",
      "start": "0:00:39.47",
      "end": "0:00:45.56"
    },
    {
      "adjustedStart": "0:07:19.57",
      "adjustedEnd": "0:07:23.25",
      "start": "0:07:19.57",
      "end": "0:07:23.25"
    }]
  },
  {
    "id": 1,
    "type": "Anger",
    "instances": [{
      "adjustedStart": "0:03:55.99",
      "adjustedEnd": "0:04:05.06",
      "start": "0:03:55.99",
      "end": "0:04:05.06"
    },
    {
      "adjustedStart": "0:04:56.5",
      "adjustedEnd": "0:05:04.35",
      "start": "0:04:56.5",
      "end": "0:05:04.35"
    }]
  },
  {
    "id": 2,
    "type": "Joy",
    "instances": [{
      "adjustedStart": "0:12:23.68",
      "adjustedEnd": "0:12:34.76",
      "start": "0:12:23.68",
      "end": "0:12:34.76"
    },
    {
      "adjustedStart": "0:12:46.73",
      "adjustedEnd": "0:12:52.8",
      "start": "0:12:46.73",
      "end": "0:12:52.8"
    },
    {
      "adjustedStart": "0:30:11.29",
      "adjustedEnd": "0:30:16.43",
      "start": "0:30:11.29",
      "end": "0:30:16.43"
    },
    {
      "adjustedStart": "0:41:37.23",
      "adjustedEnd": "0:41:39.85",
      "start": "0:41:37.23",
      "end": "0:41:39.85"
    }]
  },
  {
    "id": 3,
    "type": "Sad",
    "instances": [{
      "adjustedStart": "0:13:38.67",
      "adjustedEnd": "0:13:41.3",
      "start": "0:13:38.67",
      "end": "0:13:41.3"
    },
    {
      "adjustedStart": "0:28:08.88",
      "adjustedEnd": "0:28:18.16",
      "start": "0:28:08.88",
      "end": "0:28:18.16"
    }]
  }
],

topics

Video Indexer de Azure AI realiza una inferencia de los temas principales de las transcripciones. Cuando es posible, se incluye la taxonomía IPTC de segundo nivel.

Nombre Descripción
id Id. del tema.
name Nombre del tema. Por ejemplo: Pharmaceuticals.
referenceId Rutas de navegación que reflejan la jerarquía del tema. Por ejemplo: HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS.
confidence Puntuación de confianza en el intervalo 0-1. Cuanto mayor es, más segura es.
language Idioma que se usa en el tema.
iptcName Nombre del código multimedia IPTC, si se detecta.
instances Actualmente, Video Indexer de Azure AI no indexa un tema a intervalos de tiempo. Se usa todo el vídeo como intervalo.
"topics": [{
    "id": 0,
    "name": "INTERNATIONAL RELATIONS",
    "referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
    "referenceType": "VideoIndexer",
    "confidence": 1,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}, {
    "id": 1,
    "name": "Politics and Government",
    "referenceType": "VideoIndexer",
    "iptcName": "Politics",
    "confidence": 0.9041,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}]
. . .

speakers

Nombre Descripción
id Id. del orador.
name Nombre del orador en forma de Speaker #<number>. Por ejemplo: Speaker #1.
instances Lista de los intervalos de tiempo donde apareció este orador.
"speakers":[
{
  "id":1,
  "name":"Speaker #1",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "name":"Speaker #2",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
},