Examine a saída do Azure AI Video Indexer

Artigo
03/22/2024

Importante

Devido ao anúncio de desativação dos Serviços de Mídia do Azure, o Azure AI Video Indexer anuncia ajustes nos recursos do Azure AI Video Indexer. Consulte Alterações relacionadas à aposentadoria do Azure Media Service (AMS) para entender o que isso significa para sua conta do Azure AI Video Indexer. Consulte o guia Preparando para a aposentadoria do AMS: VI atualização e migração.

Quando um vídeo é indexado, o Azure AI Video Indexer produz o conteúdo JSON que contém detalhes das informações de vídeo especificadas. Os insights incluem transcrições, elementos de reconhecimento ótico de caracteres (OCRs), rostos, tópicos e detalhes semelhantes. Cada tipo de informação inclui instâncias de intervalos de tempo que mostram quando a informação aparece no vídeo.

Para obter informações, consulte Azure AI Video Indexer insights.

Elementos raiz dos insights

Nome	Descrição
`accountId`	ID da conta VI da lista de reprodução.
`id`	O ID da lista de reprodução.
`name`	O nome da lista de reprodução.
`description`	Descrição da lista de reprodução.
`userName`	O nome do usuário que criou a lista de reprodução.
`created`	O tempo de criação da playlist.
`privacyMode`	O modo de privacidade da lista de reprodução (`Private` ou `Public`).
`state`	O estado da lista de reprodução (`Uploaded`, `Processing`, `Processed`, `Failed`, ou `Quarantined`).
`isOwned`	Indica se o usuário atual criou a lista de reprodução.
`isEditable`	Indica se o usuário atual está autorizado a editar a lista de reprodução.
`isBase`	Indica se a lista de reprodução é uma lista de reprodução base (um vídeo) ou uma lista de reprodução feita de outros vídeos (derivada).
`durationInSeconds`	A duração total da lista de reprodução.
`summarizedInsights`	A saída JSON produzida contém `Insights` elementos e `SummarizedInsights` . Recomendamos usar `Insights` e não usar `SummarizedInsights` (o que está presente para compatibilidade com versões anteriores).
`videos`	Uma lista de vídeos que constroem a lista de reprodução. Se esta lista de reprodução for construída a partir de intervalos de tempo de outros vídeos (derivados), os vídeos nesta lista contêm apenas dados dos intervalos de tempo incluídos.

{
  ...
  "accountId": "00000000-0000-0000-0000-000000000000",
  "id": "abc3454321",
  "name": "My first video",
  "description": "I am trying VI",
  "userName": "Some name",
  "created": "2018/2/2 18:00:00.000",
  "privacyMode": "Private",
  "state": "Processed",
  "isOwned": true,
  "isEditable": false,
  "isBase": false,
  "durationInSeconds": 120, 
  "summarizedInsights" : null,
  "videos": [{ . . . }]
}

Gorjeta

A saída JSON produzida contém Insights elementos e SummarizedInsights . É altamente recomendável usar Insights e não usar SummarizedInsights (o que está presente para compatibilidade com versões anteriores).

Resumo dos insights

Esta seção mostra um resumo dos insights.

Atributo	Description
`name`	O nome do vídeo. Por exemplo: `Azure Monitor`.
`id`	O ID do vídeo. Por exemplo: `63c6d532ff`.
`privacyMode`	Seu detalhamento pode ter um dos seguintes modos: Um `Public` vídeo fica visível para todos na sua conta e para qualquer pessoa que tenha um link para o vídeo. Um `Private` vídeo fica visível para todos na sua conta.
`duration`	O tempo em que ocorreu uma perceção, em segundos.
`thumbnailVideoId`	O ID do vídeo do qual a miniatura foi tirada.
`thumbnailId`	ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe-a `thumbnailVideoId` e `thumbnailId`.
`faces`	Contém zero ou mais faces. Para obter mais informações, consulte rostos.
`keywords`	Contém zero ou mais palavras-chave. Para obter mais informações, consulte palavras-chave.
`sentiments`	Contém zero ou mais sentimentos. Para obter mais informações, consulte sentimentos.
`audioEffects`	Contém zero ou mais efeitos de áudio. Para obter mais informações, consulte audioEffects.
`labels`	Contém zero ou mais rótulos. Para obter mais informações, consulte rótulos.
`brands`	Contém zero ou mais marcas. Para obter mais informações, consulte marcas.
`statistics`	Para obter mais informações, consulte estatísticas.
`emotions`	Contém zero ou mais emoções. Para mais informações, consulte emoções.
`topics`	Contém zero ou mais tópicos. Para obter mais informações, consulte os tópicos.

vídeos

Nome	Descrição
`accountId`	ID da conta VI do vídeo.
`id`	O ID do vídeo.
`name`	O nome do vídeo.
`state`	O estado do vídeo (`Uploaded`, `Processing`, `Processed`, `Failed`, ou `Quarantined`).
`processingProgress`	O progresso durante o processamento. Por exemplo: `20%`.
`failureCode`	O código de falha se o vídeo não foi processado. Por exemplo: `UnsupportedFileType`.
`failureMessage`	A mensagem de falha se o vídeo falhou ao processar.
`externalId`	ID externo do vídeo (se o usuário especificar um).
`externalUrl`	URL externo do vídeo (se o usuário especificar um).
`metadata`	Os metadados externos do vídeo (se o usuário especificar um).
`isAdult`	Indica se o vídeo foi revisado manualmente e identificado como um vídeo adulto.
`insights`	O objeto insights. Para obter mais informações, consulte insights.
`thumbnailId`	ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe-lhe o ID do vídeo e o ID da miniatura.
`publishedUrl`	Um URL para transmitir o vídeo.
`publishedUrlProxy`	Um URL para transmitir o vídeo em dispositivos Apple.
`viewToken`	Um token de visualização de curta duração para streaming do vídeo.
`sourceLanguage`	Língua de partida do vídeo.
`language`	O idioma real do vídeo (tradução).
`indexingPreset`	A predefinição usada para indexar o vídeo.
`streamingPreset`	A predefinição usada para publicar o vídeo.
`linguisticModelId`	O modelo de personalização da transcrição (CRIS) utilizado para transcrever o vídeo.
`statistics`	Para obter mais informações, consulte estatísticas.

{
    "videos": [{
        "accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
        "id": "142a356aa6",
        "state": "Processed",
        "privacyMode": "Private",
        "processingProgress": "100%",
        "failureCode": "General",
        "failureMessage": "",
        "externalId": null,
        "externalUrl": null,
        "metadata": null,
        "insights": {. . . },
        "thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
        "publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
        "publishedProxyUrl": null,
        "viewToken": "Bearer=<token>",
        "sourceLanguage": "En-US",
        "language": "En-US",
        "indexingPreset": "Default",
        "linguisticModelId": "00000000-0000-0000-0000-000000000000"
    }],
}

informações

Cada insight (por exemplo, linhas de transcrição, rostos ou marcas) contém uma lista de elementos exclusivos (por exemplo, face1, face2, face3). Cada elemento tem seus próprios metadados e uma lista de suas instâncias, que são intervalos de tempo com metadados adicionais.

Um rosto pode ter um ID, um nome, uma miniatura, outros metadados e uma lista de suas instâncias temporais (por exemplo, 00:00:05 – 00:00:10, 00:01:00 - 00:02:30e 00:41:21 – 00:41:49). Cada instância temporal pode ter metadados adicionais. Por exemplo, os metadados podem incluir as coordenadas do retângulo da face (20,230,60,60).

Versão	A versão do código
`sourceLanguage`	A língua de origem do vídeo (assumindo uma língua mestra), na forma de uma string BCP-47 .
`language`	A linguagem de insights (traduzida do idioma de origem), na forma de uma cadeia de caracteres BCP-47 .
`transcript`	A visão da transcrição .
`ocr`	A visão de OCR .
`keywords`	O insight de palavras-chave .
`transcripts`	Pode conter uma ou mais transcrições.
`faces`	A visão dos rostos .
`labels`	A perceção dos rótulos .
`shots`	Os tiros insight.
`brands`	A visão das marcas .
`audioEffects`	A visão de efeitos de áudio .
`sentiments`	A perceção dos sentimentos .
`visualContentModeration`	A visão visualContentModeration .
`textualContentModeration`	A visão textualContentModeration .
`emotions`	A perceção das emoções .
`topics`	A visão dos tópicos .
`speakers`	A visão dos oradores .

Exemplo:

{
  "version": "0.9.0.0",
  "sourceLanguage": "en-US",
  "language": "es-ES",
  "transcript": ...,
  "ocr": ...,
  "keywords": ...,
  "faces": ...,
  "labels": ...,
  "shots": ...,
  "brands": ...,
  "audioEffects": ...,
  "sentiments": ...,
  "visualContentModeration": ...,
  "textualContentModeration": ...
}

Transcrição

Nome	Descrição
`id`	O ID da linha.
`text`	A transcrição em si.
`confidence`	O nível de confiança para a precisão da transcrição.
`speakerId`	O ID do orador.
`language`	A linguagem da transcrição. Destina-se a suportar transcrições onde cada linha pode ter um idioma diferente.
`instances`	Uma lista de intervalos de tempo onde esta linha apareceu. Se a instância estiver em uma transcrição, ela terá apenas uma instância.

Exemplo:

"transcript":[
{
  "id":1,
  "text":"Well, good morning everyone and welcome to",
  "confidence":0.8839,
  "speakerId":1,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "text":"ignite 2016. Your mission at Microsoft is to empower every",
  "confidence":0.8944,
  "speakerId":2,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
}

OCR

Nome	Descrição
`id`	O ID da linha do OCR.
`text`	O texto do OCR.
`confidence`	A confiança no reconhecimento.
`language`	A linguagem do OCR.
`instances`	Uma lista de intervalos de tempo onde este OCR apareceu. (O mesmo OCR pode aparecer várias vezes.)
`height`	A altura do retângulo OCR.
`top`	A localização superior, em pixels.
`left`	O local à esquerda, em pixels.
`width`	A largura do retângulo OCR.
`angle`	O ângulo do retângulo OCR, de `-180` até `180`. Um valor de `0` significa horizontal da esquerda para a direita. Um valor de `90` significa vertical de cima para baixo. Um valor de `180` significa horizontal da direita para a esquerda. Um valor de significa vertical de `-90` baixo para cima. Um valor de `30` médias de cima à esquerda para baixo à direita.

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 675.971,
      "height": 35,
      "language": "en-US",
      "left": 31,
      "top": 97,
      "width": 400,
      "angle": 30,
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    }
  ],

keywords

Nome	Descrição
`id`	ID da palavra-chave.
`text`	O texto da palavra-chave.
`confidence`	Reconhecimento, confiança na palavra-chave.
`language`	O idioma da palavra-chave (quando traduzido).
`instances`	Uma lista de intervalos de tempo onde essa palavra-chave apareceu. (Uma palavra-chave pode aparecer várias vezes.)

{
    id: 0,
    text: "technology",
    confidence: 1,
    language: "en-US",
    instances: [{
            adjustedStart: "0:05:15.782",
            adjustedEnd: "0:05:16.249",
            start: "0:05:15.782",
            end: "0:05:16.249"
    },
    {
            adjustedStart: "0:04:54.761",
            adjustedEnd: "0:04:55.228",
            start: "0:04:54.761",
            end: "0:04:55.228"
    }]
}

rostos

Se rostos estiverem presentes, o Azure AI Video Indexer usa a API Face em todos os quadros do vídeo para detetar rostos e celebridades.

Nome	Descrição
`id`	A identificação do rosto.
`name`	O nome do rosto. Pode ser `Unknown #0`, uma celebridade identificada, ou uma pessoa treinada pelo cliente.
`confidence`	O nível de confiança na identificação facial.
`description`	Uma descrição da celebridade.
`thumbnailId`	O ID da miniatura do rosto.
`knownPersonId`	Se for uma pessoa conhecida, o ID interno.
`referenceId`	Se for uma celebridade do Bing, a ID do Bing.
`referenceType`	Atualmente, apenas o Bing.
`title`	Se for uma celebridade, o título da pessoa. Por exemplo: `Microsoft's CEO`.
`imageUrl`	Se for uma celebridade, o URL da imagem.
`instances`	Casos em que o rosto apareceu no intervalo de tempo. Cada instância também tem um `thumbnailsIds` valor.

"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

rótulos

Nome	Descrição
`id`	O ID do rótulo.
`name`	O nome do rótulo. Por exemplo: `Computer` ou `TV`.
`language`	O idioma do nome do rótulo (quando traduzido), na forma de uma cadeia de caracteres BCP-47 .
`instances`	Uma lista de intervalos de tempo onde esse rótulo apareceu. (Um rótulo pode aparecer várias vezes.) Cada instância tem um campo de confiança.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

cenas

Nome	Descrição
`id`	O ID da cena.
`instances`	Uma lista de intervalos de tempo para esta cena. (Uma cena pode ter apenas uma instância.)

"scenes":[  
    {  
      "id":0,
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },
    {  
      "id":1,
      "instances":[  
          {  
            "start":"0:00:06.34",
            "end":"0:00:47.047",
            "duration":"0:00:40.707"
          }
      ]
    },

]

Tiros

Nome	Descrição
`id`	A identificação do tiro.
`keyFrames`	Uma lista de quadros-chave dentro da foto. Cada um tem um ID e uma lista de intervalos de tempo de instância. Cada ocorrência de quadro-chave tem um `thumbnailId` campo, que contém o ID de miniatura do quadro-chave.
`instances`	Uma lista de intervalos de tempo para esta foto. (Uma foto pode ter apenas uma instância.)

"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

Marcas

O Azure AI Video Indexer deteta nomes de marcas empresariais e de produtos na transcrição de voz para texto e/ou OCR de vídeo. Essas informações não incluem reconhecimento visual de marcas ou deteção de logotipo.

Nome	Descrição
`id`	O ID da marca.
`name`	O nome da marca.
`referenceId`	O sufixo do URL da Wikipédia da marca. Por exemplo, `Target_Corporation` é o sufixo de https://en.wikipedia.org/wiki/Target_Corporation.
`referenceUrl`	URL da marca na Wikipédia, se existir. Por exemplo: https://en.wikipedia.org/wiki/Target_Corporation.
`description`	A descrição da marca.
`tags`	Uma lista de tags predefinidas que foram associadas a esta marca.
`confidence`	O valor de confiança do detetor de marca do Azure AI Video Indexer (`0`-`1`).
`instances`	Uma lista de intervalos de tempo para esta marca. Cada instância tem um `brandType` valor, que indica se essa marca apareceu na transcrição ou em um OCR.

"brands": [
{
    "id": 0,
    "name": "MicrosoftExcel",
    "referenceId": "Microsoft_Excel",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
    "referenceType": "Wiki",
    "description": "Microsoft Excel is a sprea..",
    "tags": [],
    "confidence": 0.975,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 00: 31.3000000",
        "end": "00: 00: 39.0600000"
    }
    ]
},
{
    "id": 1,
    "name": "Microsoft",
    "referenceId": "Microsoft",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
    "description": "Microsoft Corporation is...",
    "tags": [
    "competitors",
    "technology"
    ],
    "confidence": 1.0,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 01: 44",
        "end": "00: 01: 45.3670000"
    },
    {
        "brandType": "Ocr",
        "start": "00: 01: 54",
        "end": "00: 02: 45.3670000"
    }
    ]
}
]

estatísticas

Nome	Descrição
`CorrespondenceCount`	O número de correspondências no vídeo.
`SpeakerWordCount`	O número de palavras por orador.
`SpeakerNumberOfFragments`	O número de fragmentos que o orador tem num vídeo.
`SpeakerLongestMonolog`	O monólogo mais longo do orador. Se o alto-falante tiver silêncio dentro do monólogo, ele está incluído. O silêncio no início e no final do monólogo é removido.
`SpeakerTalkToListenRatio`	O cálculo é baseado no tempo gasto no monolog do orador (sem o silêncio no meio) dividido pelo tempo total do vídeo. A hora é arredondada para a terceira casa decimal.

audioEffects (pré-visualização)

Nome	Descrição
`id`	ID do efeito de áudio.
`type`	O tipo do efeito de áudio.
`name`	O tipo do efeito de áudio no idioma em que o JSON foi indexado.
`instances`	Uma lista de intervalos de tempo onde esse efeito de áudio apareceu. Cada instância tem um campo de confiança.
`start` + `end`	O intervalo de tempo no vídeo original.
`adjustedStart` + `adjustedEnd`	Intervalo de tempo versus intervalo de tempo ajustado.

audioEffects: [{
 {
        id: 0,
        type: "Laughter",
        name: "Laughter",
        instances: [{
                confidence: 0.8815,
                adjustedStart: "0:00:10.2",
                adjustedEnd: "0:00:11.2",
                start: "0:00:10.2",
                end: "0:00:11.2"
            }, {
                confidence: 0.8554,
                adjustedStart: "0:00:48.26",
                adjustedEnd: "0:00:49.56",
                start: "0:00:48.26",
                end: "0:00:49.56"
            }, {
                confidence: 0.8492,
                adjustedStart: "0:00:59.66",
                adjustedEnd: "0:01:00.66",
                start: "0:00:59.66",
                end: "0:01:00.66"
            }
        ]
    }
],

sentimentos

Os sentimentos são agregados pelo seu sentimentType campo (Positive, Neutral, ou Negative). Por exemplo: 0-0.1, 0.1-0.2.

Nome	Descrição
`id`	O ID do sentimento.
`averageScore`	A média de todas as pontuações de todas as instâncias desse tipo de sentimento.
`instances`	Uma lista de intervalos de tempo onde esse sentimento apareceu.
`sentimentType`	O tipo pode ser `Positive`, `Neutral`ou `Negative`.

"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

visualContentModeration

A visualContentModeration transcrição contém intervalos de tempo que o Azure AI Video Indexer descobriu ter potencialmente conteúdo adulto. Se visualContentModeration estiver vazio, nenhum conteúdo adulto foi identificado.

Os vídeos que contêm conteúdo adulto ou picante podem estar disponíveis apenas para visualização privada. Os usuários podem enviar uma solicitação para uma revisão humana do conteúdo. Nesse caso, o IsAdult atributo contém o resultado da revisão humana.

Nome	Descrição
`id`	O ID da moderação de conteúdo visual.
`adultScore`	A pontuação de adulto (da moderação de conteúdo).
`racyScore`	A pontuação picante (da moderação de conteúdo).
`instances`	Uma lista de intervalos de tempo onde essa moderação de conteúdo visual apareceu.

Saiba mais sobre visualContentModeration

"visualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

textualContentModeration

Nome	Descrição
`id`	O ID da moderação de conteúdo textual.
`bannedWordsCount`	O número de palavras proibidas.
`bannedWordsRatio`	A proporção de palavras proibidas para o número total de palavras.

Saiba mais sobre textualContentModeration

emoções

O Azure AI Video Indexer identifica emoções com base em pistas de fala e áudio.

Nome	Descrição
`id`	O ID da emoção.
`type`	O tipo de emoção identificada: `Joy`, `Sadness`, `Anger`, ou `Fear`.
`instances`	Uma lista de intervalos de tempo onde essa emoção apareceu.

"emotions": [{
    "id": 0,
    "type": "Fear",
    "instances": [{
      "adjustedStart": "0:00:39.47",
      "adjustedEnd": "0:00:45.56",
      "start": "0:00:39.47",
      "end": "0:00:45.56"
    },
    {
      "adjustedStart": "0:07:19.57",
      "adjustedEnd": "0:07:23.25",
      "start": "0:07:19.57",
      "end": "0:07:23.25"
    }]
  },
  {
    "id": 1,
    "type": "Anger",
    "instances": [{
      "adjustedStart": "0:03:55.99",
      "adjustedEnd": "0:04:05.06",
      "start": "0:03:55.99",
      "end": "0:04:05.06"
    },
    {
      "adjustedStart": "0:04:56.5",
      "adjustedEnd": "0:05:04.35",
      "start": "0:04:56.5",
      "end": "0:05:04.35"
    }]
  },
  {
    "id": 2,
    "type": "Joy",
    "instances": [{
      "adjustedStart": "0:12:23.68",
      "adjustedEnd": "0:12:34.76",
      "start": "0:12:23.68",
      "end": "0:12:34.76"
    },
    {
      "adjustedStart": "0:12:46.73",
      "adjustedEnd": "0:12:52.8",
      "start": "0:12:46.73",
      "end": "0:12:52.8"
    },
    {
      "adjustedStart": "0:30:11.29",
      "adjustedEnd": "0:30:16.43",
      "start": "0:30:11.29",
      "end": "0:30:16.43"
    },
    {
      "adjustedStart": "0:41:37.23",
      "adjustedEnd": "0:41:39.85",
      "start": "0:41:37.23",
      "end": "0:41:39.85"
    }]
  },
  {
    "id": 3,
    "type": "Sad",
    "instances": [{
      "adjustedStart": "0:13:38.67",
      "adjustedEnd": "0:13:41.3",
      "start": "0:13:38.67",
      "end": "0:13:41.3"
    },
    {
      "adjustedStart": "0:28:08.88",
      "adjustedEnd": "0:28:18.16",
      "start": "0:28:08.88",
      "end": "0:28:18.16"
    }]
  }
],

Tópicos

O Azure AI Video Indexer faz uma inferência dos principais tópicos das transcrições. Sempre que possível, a taxonomia IPTC de segundo nível é incluída.

Nome	Descrição
`id`	O ID do tópico.
`name`	O nome do tópico. Por exemplo: `Pharmaceuticals`.
`referenceId`	Pão ralado que reflete a hierarquia do tópico. Por exemplo: `HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS`.
`confidence`	O índice de confiança no intervalo `0`-`1`. Mais alto é mais confiante.
`language`	A linguagem utilizada no tópico.
`iptcName`	O nome de código de mídia IPTC, se detetado.
`instances`	Atualmente, o Azure AI Video Indexer não indexa um tópico a intervalos de tempo. Todo o vídeo é usado como intervalo.

"topics": [{
    "id": 0,
    "name": "INTERNATIONAL RELATIONS",
    "referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
    "referenceType": "VideoIndexer",
    "confidence": 1,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}, {
    "id": 1,
    "name": "Politics and Government",
    "referenceType": "VideoIndexer",
    "iptcName": "Politics",
    "confidence": 0.9041,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}]
. . .

falantes

Nome	Descrição
`id`	ID do orador.
`name`	O nome do orador sob a forma de `Speaker #<number>`. Por exemplo: `Speaker #1`.
`instances`	Uma lista de intervalos de tempo onde este orador apareceu.

"speakers":[
{
  "id":1,
  "name":"Speaker #1",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "name":"Speaker #2",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
},