Examine a saída do Azure AI Video Indexer

Importante

Devido ao anúncio de desativação dos Serviços de Mídia do Azure, o Azure AI Video Indexer anuncia ajustes nos recursos do Azure AI Video Indexer. Consulte Alterações relacionadas à aposentadoria do Azure Media Service (AMS) para entender o que isso significa para sua conta do Azure AI Video Indexer. Consulte o guia Preparando para a aposentadoria do AMS: VI atualização e migração.

Quando um vídeo é indexado, o Azure AI Video Indexer produz o conteúdo JSON que contém detalhes das informações de vídeo especificadas. Os insights incluem transcrições, elementos de reconhecimento ótico de caracteres (OCRs), rostos, tópicos e detalhes semelhantes. Cada tipo de informação inclui instâncias de intervalos de tempo que mostram quando a informação aparece no vídeo.

Para obter informações, consulte Azure AI Video Indexer insights.

Elementos raiz dos insights

Nome Descrição
accountId ID da conta VI da lista de reprodução.
id O ID da lista de reprodução.
name O nome da lista de reprodução.
description Descrição da lista de reprodução.
userName O nome do usuário que criou a lista de reprodução.
created O tempo de criação da playlist.
privacyMode O modo de privacidade da lista de reprodução (Private ou Public).
state O estado da lista de reprodução (Uploaded, Processing, Processed, Failed, ou Quarantined).
isOwned Indica se o usuário atual criou a lista de reprodução.
isEditable Indica se o usuário atual está autorizado a editar a lista de reprodução.
isBase Indica se a lista de reprodução é uma lista de reprodução base (um vídeo) ou uma lista de reprodução feita de outros vídeos (derivada).
durationInSeconds A duração total da lista de reprodução.
summarizedInsights A saída JSON produzida contém Insights elementos e SummarizedInsights . Recomendamos usar Insights e não usar SummarizedInsights (o que está presente para compatibilidade com versões anteriores).
videos Uma lista de vídeos que constroem a lista de reprodução.
Se esta lista de reprodução for construída a partir de intervalos de tempo de outros vídeos (derivados), os vídeos nesta lista contêm apenas dados dos intervalos de tempo incluídos.
{
  ...
  "accountId": "00000000-0000-0000-0000-000000000000",
  "id": "abc3454321",
  "name": "My first video",
  "description": "I am trying VI",
  "userName": "Some name",
  "created": "2018/2/2 18:00:00.000",
  "privacyMode": "Private",
  "state": "Processed",
  "isOwned": true,
  "isEditable": false,
  "isBase": false,
  "durationInSeconds": 120, 
  "summarizedInsights" : null,
  "videos": [{ . . . }]
}

Gorjeta

A saída JSON produzida contém Insights elementos e SummarizedInsights . É altamente recomendável usar Insights e não usar SummarizedInsights (o que está presente para compatibilidade com versões anteriores).

Resumo dos insights

Esta seção mostra um resumo dos insights.

Atributo Description
name O nome do vídeo. Por exemplo: Azure Monitor.
id O ID do vídeo. Por exemplo: 63c6d532ff.
privacyMode Seu detalhamento pode ter um dos seguintes modos: Um Public vídeo fica visível para todos na sua conta e para qualquer pessoa que tenha um link para o vídeo. Um Private vídeo fica visível para todos na sua conta.
duration O tempo em que ocorreu uma perceção, em segundos.
thumbnailVideoId O ID do vídeo do qual a miniatura foi tirada.
thumbnailId ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe-a thumbnailVideoId e thumbnailId.
faces Contém zero ou mais faces. Para obter mais informações, consulte rostos.
keywords Contém zero ou mais palavras-chave. Para obter mais informações, consulte palavras-chave.
sentiments Contém zero ou mais sentimentos. Para obter mais informações, consulte sentimentos.
audioEffects Contém zero ou mais efeitos de áudio. Para obter mais informações, consulte audioEffects.
labels Contém zero ou mais rótulos. Para obter mais informações, consulte rótulos.
brands Contém zero ou mais marcas. Para obter mais informações, consulte marcas.
statistics Para obter mais informações, consulte estatísticas.
emotions Contém zero ou mais emoções. Para mais informações, consulte emoções.
topics Contém zero ou mais tópicos. Para obter mais informações, consulte os tópicos.

vídeos

Nome Descrição
accountId ID da conta VI do vídeo.
id O ID do vídeo.
name O nome do vídeo.
state O estado do vídeo (Uploaded, Processing, Processed, Failed, ou Quarantined).
processingProgress O progresso durante o processamento. Por exemplo: 20%.
failureCode O código de falha se o vídeo não foi processado. Por exemplo: UnsupportedFileType.
failureMessage A mensagem de falha se o vídeo falhou ao processar.
externalId ID externo do vídeo (se o usuário especificar um).
externalUrl URL externo do vídeo (se o usuário especificar um).
metadata Os metadados externos do vídeo (se o usuário especificar um).
isAdult Indica se o vídeo foi revisado manualmente e identificado como um vídeo adulto.
insights O objeto insights. Para obter mais informações, consulte insights.
thumbnailId ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe-lhe o ID do vídeo e o ID da miniatura.
publishedUrl Um URL para transmitir o vídeo.
publishedUrlProxy Um URL para transmitir o vídeo em dispositivos Apple.
viewToken Um token de visualização de curta duração para streaming do vídeo.
sourceLanguage Língua de partida do vídeo.
language O idioma real do vídeo (tradução).
indexingPreset A predefinição usada para indexar o vídeo.
streamingPreset A predefinição usada para publicar o vídeo.
linguisticModelId O modelo de personalização da transcrição (CRIS) utilizado para transcrever o vídeo.
statistics Para obter mais informações, consulte estatísticas.
{
    "videos": [{
        "accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
        "id": "142a356aa6",
        "state": "Processed",
        "privacyMode": "Private",
        "processingProgress": "100%",
        "failureCode": "General",
        "failureMessage": "",
        "externalId": null,
        "externalUrl": null,
        "metadata": null,
        "insights": {. . . },
        "thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
        "publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
        "publishedProxyUrl": null,
        "viewToken": "Bearer=<token>",
        "sourceLanguage": "En-US",
        "language": "En-US",
        "indexingPreset": "Default",
        "linguisticModelId": "00000000-0000-0000-0000-000000000000"
    }],
}

informações

Cada insight (por exemplo, linhas de transcrição, rostos ou marcas) contém uma lista de elementos exclusivos (por exemplo, face1, face2, face3). Cada elemento tem seus próprios metadados e uma lista de suas instâncias, que são intervalos de tempo com metadados adicionais.

Um rosto pode ter um ID, um nome, uma miniatura, outros metadados e uma lista de suas instâncias temporais (por exemplo, 00:00:05 – 00:00:10, 00:01:00 - 00:02:30e 00:41:21 – 00:41:49). Cada instância temporal pode ter metadados adicionais. Por exemplo, os metadados podem incluir as coordenadas do retângulo da face (20,230,60,60).

Versão A versão do código
sourceLanguage A língua de origem do vídeo (assumindo uma língua mestra), na forma de uma string BCP-47 .
language A linguagem de insights (traduzida do idioma de origem), na forma de uma cadeia de caracteres BCP-47 .
transcript A visão da transcrição .
ocr A visão de OCR .
keywords O insight de palavras-chave .
transcripts Pode conter uma ou mais transcrições.
faces A visão dos rostos .
labels A perceção dos rótulos .
shots Os tiros insight.
brands A visão das marcas .
audioEffects A visão de efeitos de áudio .
sentiments A perceção dos sentimentos .
visualContentModeration A visão visualContentModeration .
textualContentModeration A visão textualContentModeration .
emotions A perceção das emoções .
topics A visão dos tópicos .
speakers A visão dos oradores .

Exemplo:

{
  "version": "0.9.0.0",
  "sourceLanguage": "en-US",
  "language": "es-ES",
  "transcript": ...,
  "ocr": ...,
  "keywords": ...,
  "faces": ...,
  "labels": ...,
  "shots": ...,
  "brands": ...,
  "audioEffects": ...,
  "sentiments": ...,
  "visualContentModeration": ...,
  "textualContentModeration": ...
}

Transcrição

Nome Descrição
id O ID da linha.
text A transcrição em si.
confidence O nível de confiança para a precisão da transcrição.
speakerId O ID do orador.
language A linguagem da transcrição. Destina-se a suportar transcrições onde cada linha pode ter um idioma diferente.
instances Uma lista de intervalos de tempo onde esta linha apareceu. Se a instância estiver em uma transcrição, ela terá apenas uma instância.

Exemplo:

"transcript":[
{
  "id":1,
  "text":"Well, good morning everyone and welcome to",
  "confidence":0.8839,
  "speakerId":1,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "text":"ignite 2016. Your mission at Microsoft is to empower every",
  "confidence":0.8944,
  "speakerId":2,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
}

OCR

Nome Descrição
id O ID da linha do OCR.
text O texto do OCR.
confidence A confiança no reconhecimento.
language A linguagem do OCR.
instances Uma lista de intervalos de tempo onde este OCR apareceu. (O mesmo OCR pode aparecer várias vezes.)
height A altura do retângulo OCR.
top A localização superior, em pixels.
left O local à esquerda, em pixels.
width A largura do retângulo OCR.
angle O ângulo do retângulo OCR, de -180 até 180. Um valor de 0 significa horizontal da esquerda para a direita. Um valor de 90 significa vertical de cima para baixo. Um valor de 180 significa horizontal da direita para a esquerda. Um valor de significa vertical de -90 baixo para cima. Um valor de 30 médias de cima à esquerda para baixo à direita.
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 675.971,
      "height": 35,
      "language": "en-US",
      "left": 31,
      "top": 97,
      "width": 400,
      "angle": 30,
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    }
  ],

keywords

Nome Descrição
id ID da palavra-chave.
text O texto da palavra-chave.
confidence Reconhecimento, confiança na palavra-chave.
language O idioma da palavra-chave (quando traduzido).
instances Uma lista de intervalos de tempo onde essa palavra-chave apareceu. (Uma palavra-chave pode aparecer várias vezes.)
{
    id: 0,
    text: "technology",
    confidence: 1,
    language: "en-US",
    instances: [{
            adjustedStart: "0:05:15.782",
            adjustedEnd: "0:05:16.249",
            start: "0:05:15.782",
            end: "0:05:16.249"
    },
    {
            adjustedStart: "0:04:54.761",
            adjustedEnd: "0:04:55.228",
            start: "0:04:54.761",
            end: "0:04:55.228"
    }]
}

rostos

Se rostos estiverem presentes, o Azure AI Video Indexer usa a API Face em todos os quadros do vídeo para detetar rostos e celebridades.

Nome Descrição
id A identificação do rosto.
name O nome do rosto. Pode ser Unknown #0, uma celebridade identificada, ou uma pessoa treinada pelo cliente.
confidence O nível de confiança na identificação facial.
description Uma descrição da celebridade.
thumbnailId O ID da miniatura do rosto.
knownPersonId Se for uma pessoa conhecida, o ID interno.
referenceId Se for uma celebridade do Bing, a ID do Bing.
referenceType Atualmente, apenas o Bing.
title Se for uma celebridade, o título da pessoa. Por exemplo: Microsoft's CEO.
imageUrl Se for uma celebridade, o URL da imagem.
instances Casos em que o rosto apareceu no intervalo de tempo. Cada instância também tem um thumbnailsIds valor.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

rótulos

Nome Descrição
id O ID do rótulo.
name O nome do rótulo. Por exemplo: Computer ou TV.
language O idioma do nome do rótulo (quando traduzido), na forma de uma cadeia de caracteres BCP-47 .
instances Uma lista de intervalos de tempo onde esse rótulo apareceu. (Um rótulo pode aparecer várias vezes.) Cada instância tem um campo de confiança.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

cenas

Nome Descrição
id O ID da cena.
instances Uma lista de intervalos de tempo para esta cena. (Uma cena pode ter apenas uma instância.)
"scenes":[  
    {  
      "id":0,
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },
    {  
      "id":1,
      "instances":[  
          {  
            "start":"0:00:06.34",
            "end":"0:00:47.047",
            "duration":"0:00:40.707"
          }
      ]
    },

]

Tiros

Nome Descrição
id A identificação do tiro.
keyFrames Uma lista de quadros-chave dentro da foto. Cada um tem um ID e uma lista de intervalos de tempo de instância. Cada ocorrência de quadro-chave tem um thumbnailId campo, que contém o ID de miniatura do quadro-chave.
instances Uma lista de intervalos de tempo para esta foto. (Uma foto pode ter apenas uma instância.)
"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

Marcas

O Azure AI Video Indexer deteta nomes de marcas empresariais e de produtos na transcrição de voz para texto e/ou OCR de vídeo. Essas informações não incluem reconhecimento visual de marcas ou deteção de logotipo.

Nome Descrição
id O ID da marca.
name O nome da marca.
referenceId O sufixo do URL da Wikipédia da marca. Por exemplo, Target_Corporation é o sufixo de https://en.wikipedia.org/wiki/Target_Corporation.
referenceUrl URL da marca na Wikipédia, se existir. Por exemplo: https://en.wikipedia.org/wiki/Target_Corporation.
description A descrição da marca.
tags Uma lista de tags predefinidas que foram associadas a esta marca.
confidence O valor de confiança do detetor de marca do Azure AI Video Indexer (0-1).
instances Uma lista de intervalos de tempo para esta marca. Cada instância tem um brandType valor, que indica se essa marca apareceu na transcrição ou em um OCR.
"brands": [
{
    "id": 0,
    "name": "MicrosoftExcel",
    "referenceId": "Microsoft_Excel",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
    "referenceType": "Wiki",
    "description": "Microsoft Excel is a sprea..",
    "tags": [],
    "confidence": 0.975,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 00: 31.3000000",
        "end": "00: 00: 39.0600000"
    }
    ]
},
{
    "id": 1,
    "name": "Microsoft",
    "referenceId": "Microsoft",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
    "description": "Microsoft Corporation is...",
    "tags": [
    "competitors",
    "technology"
    ],
    "confidence": 1.0,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 01: 44",
        "end": "00: 01: 45.3670000"
    },
    {
        "brandType": "Ocr",
        "start": "00: 01: 54",
        "end": "00: 02: 45.3670000"
    }
    ]
}
]

estatísticas

Nome Descrição
CorrespondenceCount O número de correspondências no vídeo.
SpeakerWordCount O número de palavras por orador.
SpeakerNumberOfFragments O número de fragmentos que o orador tem num vídeo.
SpeakerLongestMonolog O monólogo mais longo do orador. Se o alto-falante tiver silêncio dentro do monólogo, ele está incluído. O silêncio no início e no final do monólogo é removido.
SpeakerTalkToListenRatio O cálculo é baseado no tempo gasto no monolog do orador (sem o silêncio no meio) dividido pelo tempo total do vídeo. A hora é arredondada para a terceira casa decimal.

audioEffects (pré-visualização)

Nome Descrição
id ID do efeito de áudio.
type O tipo do efeito de áudio.
name O tipo do efeito de áudio no idioma em que o JSON foi indexado.
instances Uma lista de intervalos de tempo onde esse efeito de áudio apareceu. Cada instância tem um campo de confiança.
start + end O intervalo de tempo no vídeo original.
adjustedStart + adjustedEnd Intervalo de tempo versus intervalo de tempo ajustado.
audioEffects: [{
 {
        id: 0,
        type: "Laughter",
        name: "Laughter",
        instances: [{
                confidence: 0.8815,
                adjustedStart: "0:00:10.2",
                adjustedEnd: "0:00:11.2",
                start: "0:00:10.2",
                end: "0:00:11.2"
            }, {
                confidence: 0.8554,
                adjustedStart: "0:00:48.26",
                adjustedEnd: "0:00:49.56",
                start: "0:00:48.26",
                end: "0:00:49.56"
            }, {
                confidence: 0.8492,
                adjustedStart: "0:00:59.66",
                adjustedEnd: "0:01:00.66",
                start: "0:00:59.66",
                end: "0:01:00.66"
            }
        ]
    }
],

sentimentos

Os sentimentos são agregados pelo seu sentimentType campo (Positive, Neutral, ou Negative). Por exemplo: 0-0.1, 0.1-0.2.

Nome Descrição
id O ID do sentimento.
averageScore A média de todas as pontuações de todas as instâncias desse tipo de sentimento.
instances Uma lista de intervalos de tempo onde esse sentimento apareceu.
sentimentType O tipo pode ser Positive, Neutralou Negative.
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

visualContentModeration

A visualContentModeration transcrição contém intervalos de tempo que o Azure AI Video Indexer descobriu ter potencialmente conteúdo adulto. Se visualContentModeration estiver vazio, nenhum conteúdo adulto foi identificado.

Os vídeos que contêm conteúdo adulto ou picante podem estar disponíveis apenas para visualização privada. Os usuários podem enviar uma solicitação para uma revisão humana do conteúdo. Nesse caso, o IsAdult atributo contém o resultado da revisão humana.

Nome Descrição
id O ID da moderação de conteúdo visual.
adultScore A pontuação de adulto (da moderação de conteúdo).
racyScore A pontuação picante (da moderação de conteúdo).
instances Uma lista de intervalos de tempo onde essa moderação de conteúdo visual apareceu.

Saiba mais sobre visualContentModeration

"visualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

textualContentModeration

Nome Descrição
id O ID da moderação de conteúdo textual.
bannedWordsCount O número de palavras proibidas.
bannedWordsRatio A proporção de palavras proibidas para o número total de palavras.
Saiba mais sobre textualContentModeration

emoções

O Azure AI Video Indexer identifica emoções com base em pistas de fala e áudio.

Nome Descrição
id O ID da emoção.
type O tipo de emoção identificada: Joy, Sadness, Anger, ou Fear.
instances Uma lista de intervalos de tempo onde essa emoção apareceu.
"emotions": [{
    "id": 0,
    "type": "Fear",
    "instances": [{
      "adjustedStart": "0:00:39.47",
      "adjustedEnd": "0:00:45.56",
      "start": "0:00:39.47",
      "end": "0:00:45.56"
    },
    {
      "adjustedStart": "0:07:19.57",
      "adjustedEnd": "0:07:23.25",
      "start": "0:07:19.57",
      "end": "0:07:23.25"
    }]
  },
  {
    "id": 1,
    "type": "Anger",
    "instances": [{
      "adjustedStart": "0:03:55.99",
      "adjustedEnd": "0:04:05.06",
      "start": "0:03:55.99",
      "end": "0:04:05.06"
    },
    {
      "adjustedStart": "0:04:56.5",
      "adjustedEnd": "0:05:04.35",
      "start": "0:04:56.5",
      "end": "0:05:04.35"
    }]
  },
  {
    "id": 2,
    "type": "Joy",
    "instances": [{
      "adjustedStart": "0:12:23.68",
      "adjustedEnd": "0:12:34.76",
      "start": "0:12:23.68",
      "end": "0:12:34.76"
    },
    {
      "adjustedStart": "0:12:46.73",
      "adjustedEnd": "0:12:52.8",
      "start": "0:12:46.73",
      "end": "0:12:52.8"
    },
    {
      "adjustedStart": "0:30:11.29",
      "adjustedEnd": "0:30:16.43",
      "start": "0:30:11.29",
      "end": "0:30:16.43"
    },
    {
      "adjustedStart": "0:41:37.23",
      "adjustedEnd": "0:41:39.85",
      "start": "0:41:37.23",
      "end": "0:41:39.85"
    }]
  },
  {
    "id": 3,
    "type": "Sad",
    "instances": [{
      "adjustedStart": "0:13:38.67",
      "adjustedEnd": "0:13:41.3",
      "start": "0:13:38.67",
      "end": "0:13:41.3"
    },
    {
      "adjustedStart": "0:28:08.88",
      "adjustedEnd": "0:28:18.16",
      "start": "0:28:08.88",
      "end": "0:28:18.16"
    }]
  }
],

Tópicos

O Azure AI Video Indexer faz uma inferência dos principais tópicos das transcrições. Sempre que possível, a taxonomia IPTC de segundo nível é incluída.

Nome Descrição
id O ID do tópico.
name O nome do tópico. Por exemplo: Pharmaceuticals.
referenceId Pão ralado que reflete a hierarquia do tópico. Por exemplo: HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS.
confidence O índice de confiança no intervalo 0-1. Mais alto é mais confiante.
language A linguagem utilizada no tópico.
iptcName O nome de código de mídia IPTC, se detetado.
instances Atualmente, o Azure AI Video Indexer não indexa um tópico a intervalos de tempo. Todo o vídeo é usado como intervalo.
"topics": [{
    "id": 0,
    "name": "INTERNATIONAL RELATIONS",
    "referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
    "referenceType": "VideoIndexer",
    "confidence": 1,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}, {
    "id": 1,
    "name": "Politics and Government",
    "referenceType": "VideoIndexer",
    "iptcName": "Politics",
    "confidence": 0.9041,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}]
. . .

falantes

Nome Descrição
id ID do orador.
name O nome do orador sob a forma de Speaker #<number>. Por exemplo: Speaker #1.
instances Uma lista de intervalos de tempo onde este orador apareceu.
"speakers":[
{
  "id":1,
  "name":"Speaker #1",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "name":"Speaker #2",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
},