Examine a saída do Azure AI Video Indexer
Importante
Devido ao anúncio de desativação dos Serviços de Mídia do Azure, o Azure AI Video Indexer anuncia ajustes nos recursos do Azure AI Video Indexer. Consulte Alterações relacionadas à aposentadoria do Azure Media Service (AMS) para entender o que isso significa para sua conta do Azure AI Video Indexer. Consulte o guia Preparando para a aposentadoria do AMS: VI atualização e migração.
Quando um vídeo é indexado, o Azure AI Video Indexer produz o conteúdo JSON que contém detalhes das informações de vídeo especificadas. Os insights incluem transcrições, elementos de reconhecimento ótico de caracteres (OCRs), rostos, tópicos e detalhes semelhantes. Cada tipo de informação inclui instâncias de intervalos de tempo que mostram quando a informação aparece no vídeo.
Para obter informações, consulte Azure AI Video Indexer insights.
Elementos raiz dos insights
Nome | Descrição |
---|---|
accountId |
ID da conta VI da lista de reprodução. |
id |
O ID da lista de reprodução. |
name |
O nome da lista de reprodução. |
description |
Descrição da lista de reprodução. |
userName |
O nome do usuário que criou a lista de reprodução. |
created |
O tempo de criação da playlist. |
privacyMode |
O modo de privacidade da lista de reprodução (Private ou Public ). |
state |
O estado da lista de reprodução (Uploaded , Processing , Processed , Failed , ou Quarantined ). |
isOwned |
Indica se o usuário atual criou a lista de reprodução. |
isEditable |
Indica se o usuário atual está autorizado a editar a lista de reprodução. |
isBase |
Indica se a lista de reprodução é uma lista de reprodução base (um vídeo) ou uma lista de reprodução feita de outros vídeos (derivada). |
durationInSeconds |
A duração total da lista de reprodução. |
summarizedInsights |
A saída JSON produzida contém Insights elementos e SummarizedInsights . Recomendamos usar Insights e não usar SummarizedInsights (o que está presente para compatibilidade com versões anteriores). |
videos |
Uma lista de vídeos que constroem a lista de reprodução. Se esta lista de reprodução for construída a partir de intervalos de tempo de outros vídeos (derivados), os vídeos nesta lista contêm apenas dados dos intervalos de tempo incluídos. |
{
...
"accountId": "00000000-0000-0000-0000-000000000000",
"id": "abc3454321",
"name": "My first video",
"description": "I am trying VI",
"userName": "Some name",
"created": "2018/2/2 18:00:00.000",
"privacyMode": "Private",
"state": "Processed",
"isOwned": true,
"isEditable": false,
"isBase": false,
"durationInSeconds": 120,
"summarizedInsights" : null,
"videos": [{ . . . }]
}
Gorjeta
A saída JSON produzida contém Insights
elementos e SummarizedInsights
. É altamente recomendável usar Insights
e não usar SummarizedInsights
(o que está presente para compatibilidade com versões anteriores).
Resumo dos insights
Esta seção mostra um resumo dos insights.
Atributo | Description |
---|---|
name |
O nome do vídeo. Por exemplo: Azure Monitor . |
id |
O ID do vídeo. Por exemplo: 63c6d532ff . |
privacyMode |
Seu detalhamento pode ter um dos seguintes modos: Um Public vídeo fica visível para todos na sua conta e para qualquer pessoa que tenha um link para o vídeo. Um Private vídeo fica visível para todos na sua conta. |
duration |
O tempo em que ocorreu uma perceção, em segundos. |
thumbnailVideoId |
O ID do vídeo do qual a miniatura foi tirada. |
thumbnailId |
ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe-a thumbnailVideoId e thumbnailId . |
faces |
Contém zero ou mais faces. Para obter mais informações, consulte rostos. |
keywords |
Contém zero ou mais palavras-chave. Para obter mais informações, consulte palavras-chave. |
sentiments |
Contém zero ou mais sentimentos. Para obter mais informações, consulte sentimentos. |
audioEffects |
Contém zero ou mais efeitos de áudio. Para obter mais informações, consulte audioEffects. |
labels |
Contém zero ou mais rótulos. Para obter mais informações, consulte rótulos. |
brands |
Contém zero ou mais marcas. Para obter mais informações, consulte marcas. |
statistics |
Para obter mais informações, consulte estatísticas. |
emotions |
Contém zero ou mais emoções. Para mais informações, consulte emoções. |
topics |
Contém zero ou mais tópicos. Para obter mais informações, consulte os tópicos. |
vídeos
Nome | Descrição |
---|---|
accountId |
ID da conta VI do vídeo. |
id |
O ID do vídeo. |
name |
O nome do vídeo. |
state |
O estado do vídeo (Uploaded , Processing , Processed , Failed , ou Quarantined ). |
processingProgress |
O progresso durante o processamento. Por exemplo: 20% . |
failureCode |
O código de falha se o vídeo não foi processado. Por exemplo: UnsupportedFileType . |
failureMessage |
A mensagem de falha se o vídeo falhou ao processar. |
externalId |
ID externo do vídeo (se o usuário especificar um). |
externalUrl |
URL externo do vídeo (se o usuário especificar um). |
metadata |
Os metadados externos do vídeo (se o usuário especificar um). |
isAdult |
Indica se o vídeo foi revisado manualmente e identificado como um vídeo adulto. |
insights |
O objeto insights. Para obter mais informações, consulte insights. |
thumbnailId |
ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe-lhe o ID do vídeo e o ID da miniatura. |
publishedUrl |
Um URL para transmitir o vídeo. |
publishedUrlProxy |
Um URL para transmitir o vídeo em dispositivos Apple. |
viewToken |
Um token de visualização de curta duração para streaming do vídeo. |
sourceLanguage |
Língua de partida do vídeo. |
language |
O idioma real do vídeo (tradução). |
indexingPreset |
A predefinição usada para indexar o vídeo. |
streamingPreset |
A predefinição usada para publicar o vídeo. |
linguisticModelId |
O modelo de personalização da transcrição (CRIS) utilizado para transcrever o vídeo. |
statistics |
Para obter mais informações, consulte estatísticas. |
{
"videos": [{
"accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
"id": "142a356aa6",
"state": "Processed",
"privacyMode": "Private",
"processingProgress": "100%",
"failureCode": "General",
"failureMessage": "",
"externalId": null,
"externalUrl": null,
"metadata": null,
"insights": {. . . },
"thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
"publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
"publishedProxyUrl": null,
"viewToken": "Bearer=<token>",
"sourceLanguage": "En-US",
"language": "En-US",
"indexingPreset": "Default",
"linguisticModelId": "00000000-0000-0000-0000-000000000000"
}],
}
informações
Cada insight (por exemplo, linhas de transcrição, rostos ou marcas) contém uma lista de elementos exclusivos (por exemplo, face1
, face2
, face3
). Cada elemento tem seus próprios metadados e uma lista de suas instâncias, que são intervalos de tempo com metadados adicionais.
Um rosto pode ter um ID, um nome, uma miniatura, outros metadados e uma lista de suas instâncias temporais (por exemplo, 00:00:05 – 00:00:10
, 00:01:00 - 00:02:30
e 00:41:21 – 00:41:49
). Cada instância temporal pode ter metadados adicionais. Por exemplo, os metadados podem incluir as coordenadas do retângulo da face (20,230,60,60
).
Versão | A versão do código |
---|---|
sourceLanguage |
A língua de origem do vídeo (assumindo uma língua mestra), na forma de uma string BCP-47 . |
language |
A linguagem de insights (traduzida do idioma de origem), na forma de uma cadeia de caracteres BCP-47 . |
transcript |
A visão da transcrição . |
ocr |
A visão de OCR . |
keywords |
O insight de palavras-chave . |
transcripts |
Pode conter uma ou mais transcrições. |
faces |
A visão dos rostos . |
labels |
A perceção dos rótulos . |
shots |
Os tiros insight. |
brands |
A visão das marcas . |
audioEffects |
A visão de efeitos de áudio . |
sentiments |
A perceção dos sentimentos . |
visualContentModeration |
A visão visualContentModeration . |
textualContentModeration |
A visão textualContentModeration . |
emotions |
A perceção das emoções . |
topics |
A visão dos tópicos . |
speakers |
A visão dos oradores . |
Exemplo:
{
"version": "0.9.0.0",
"sourceLanguage": "en-US",
"language": "es-ES",
"transcript": ...,
"ocr": ...,
"keywords": ...,
"faces": ...,
"labels": ...,
"shots": ...,
"brands": ...,
"audioEffects": ...,
"sentiments": ...,
"visualContentModeration": ...,
"textualContentModeration": ...
}
Transcrição
Nome | Descrição |
---|---|
id |
O ID da linha. |
text |
A transcrição em si. |
confidence |
O nível de confiança para a precisão da transcrição. |
speakerId |
O ID do orador. |
language |
A linguagem da transcrição. Destina-se a suportar transcrições onde cada linha pode ter um idioma diferente. |
instances |
Uma lista de intervalos de tempo onde esta linha apareceu. Se a instância estiver em uma transcrição, ela terá apenas uma instância. |
Exemplo:
"transcript":[
{
"id":1,
"text":"Well, good morning everyone and welcome to",
"confidence":0.8839,
"speakerId":1,
"language":"en-US",
"instances":[
{
"adjustedStart":"0:00:10.21",
"adjustedEnd":"0:00:12.81",
"start":"0:00:10.21",
"end":"0:00:12.81"
}
]
},
{
"id":2,
"text":"ignite 2016. Your mission at Microsoft is to empower every",
"confidence":0.8944,
"speakerId":2,
"language":"en-US",
"instances":[
{
"adjustedStart":"0:00:12.81",
"adjustedEnd":"0:00:17.03",
"start":"0:00:12.81",
"end":"0:00:17.03"
}
]
}
OCR
Nome | Descrição |
---|---|
id |
O ID da linha do OCR. |
text |
O texto do OCR. |
confidence |
A confiança no reconhecimento. |
language |
A linguagem do OCR. |
instances |
Uma lista de intervalos de tempo onde este OCR apareceu. (O mesmo OCR pode aparecer várias vezes.) |
height |
A altura do retângulo OCR. |
top |
A localização superior, em pixels. |
left |
O local à esquerda, em pixels. |
width |
A largura do retângulo OCR. |
angle |
O ângulo do retângulo OCR, de -180 até 180 . Um valor de 0 significa horizontal da esquerda para a direita. Um valor de 90 significa vertical de cima para baixo. Um valor de 180 significa horizontal da direita para a esquerda. Um valor de significa vertical de -90 baixo para cima. Um valor de 30 médias de cima à esquerda para baixo à direita. |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 675.971,
"height": 35,
"language": "en-US",
"left": 31,
"top": 97,
"width": 400,
"angle": 30,
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
}
],
keywords
Nome | Descrição |
---|---|
id |
ID da palavra-chave. |
text |
O texto da palavra-chave. |
confidence |
Reconhecimento, confiança na palavra-chave. |
language |
O idioma da palavra-chave (quando traduzido). |
instances |
Uma lista de intervalos de tempo onde essa palavra-chave apareceu. (Uma palavra-chave pode aparecer várias vezes.) |
{
id: 0,
text: "technology",
confidence: 1,
language: "en-US",
instances: [{
adjustedStart: "0:05:15.782",
adjustedEnd: "0:05:16.249",
start: "0:05:15.782",
end: "0:05:16.249"
},
{
adjustedStart: "0:04:54.761",
adjustedEnd: "0:04:55.228",
start: "0:04:54.761",
end: "0:04:55.228"
}]
}
rostos
Se rostos estiverem presentes, o Azure AI Video Indexer usa a API Face em todos os quadros do vídeo para detetar rostos e celebridades.
Nome | Descrição |
---|---|
id |
A identificação do rosto. |
name |
O nome do rosto. Pode ser Unknown #0 , uma celebridade identificada, ou uma pessoa treinada pelo cliente. |
confidence |
O nível de confiança na identificação facial. |
description |
Uma descrição da celebridade. |
thumbnailId |
O ID da miniatura do rosto. |
knownPersonId |
Se for uma pessoa conhecida, o ID interno. |
referenceId |
Se for uma celebridade do Bing, a ID do Bing. |
referenceType |
Atualmente, apenas o Bing. |
title |
Se for uma celebridade, o título da pessoa. Por exemplo: Microsoft's CEO . |
imageUrl |
Se for uma celebridade, o URL da imagem. |
instances |
Casos em que o rosto apareceu no intervalo de tempo. Cada instância também tem um thumbnailsIds valor. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
rótulos
Nome | Descrição |
---|---|
id |
O ID do rótulo. |
name |
O nome do rótulo. Por exemplo: Computer ou TV . |
language |
O idioma do nome do rótulo (quando traduzido), na forma de uma cadeia de caracteres BCP-47 . |
instances |
Uma lista de intervalos de tempo onde esse rótulo apareceu. (Um rótulo pode aparecer várias vezes.) Cada instância tem um campo de confiança. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
cenas
Nome | Descrição |
---|---|
id |
O ID da cena. |
instances |
Uma lista de intervalos de tempo para esta cena. (Uma cena pode ter apenas uma instância.) |
"scenes":[
{
"id":0,
"instances":[
{
"start":"0:00:00",
"end":"0:00:06.34",
"duration":"0:00:06.34"
}
]
},
{
"id":1,
"instances":[
{
"start":"0:00:06.34",
"end":"0:00:47.047",
"duration":"0:00:40.707"
}
]
},
]
Tiros
Nome | Descrição |
---|---|
id |
A identificação do tiro. |
keyFrames |
Uma lista de quadros-chave dentro da foto. Cada um tem um ID e uma lista de intervalos de tempo de instância. Cada ocorrência de quadro-chave tem um thumbnailId campo, que contém o ID de miniatura do quadro-chave. |
instances |
Uma lista de intervalos de tempo para esta foto. (Uma foto pode ter apenas uma instância.) |
"shots":[
{
"id":0,
"keyFrames":[
{
"id":0,
"instances":[
{
"thumbnailId":"00000000-0000-0000-0000-000000000000",
"start":"0:00:00.209",
"end":"0:00:00.251",
"duration":"0:00:00.042"
}
]
},
{
"id":1,
"instances":[
{
"thumbnailId":"00000000-0000-0000-0000-000000000000",
"start":"0:00:04.755",
"end":"0:00:04.797",
"duration":"0:00:00.042"
}
]
}
],
"instances":[
{
"start":"0:00:00",
"end":"0:00:06.34",
"duration":"0:00:06.34"
}
]
},
]
Marcas
O Azure AI Video Indexer deteta nomes de marcas empresariais e de produtos na transcrição de voz para texto e/ou OCR de vídeo. Essas informações não incluem reconhecimento visual de marcas ou deteção de logotipo.
Nome | Descrição |
---|---|
id |
O ID da marca. |
name |
O nome da marca. |
referenceId |
O sufixo do URL da Wikipédia da marca. Por exemplo, Target_Corporation é o sufixo de https://en.wikipedia.org/wiki/Target_Corporation. |
referenceUrl |
URL da marca na Wikipédia, se existir. Por exemplo: https://en.wikipedia.org/wiki/Target_Corporation. |
description |
A descrição da marca. |
tags |
Uma lista de tags predefinidas que foram associadas a esta marca. |
confidence |
O valor de confiança do detetor de marca do Azure AI Video Indexer (0 -1 ). |
instances |
Uma lista de intervalos de tempo para esta marca. Cada instância tem um brandType valor, que indica se essa marca apareceu na transcrição ou em um OCR. |
"brands": [
{
"id": 0,
"name": "MicrosoftExcel",
"referenceId": "Microsoft_Excel",
"referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
"referenceType": "Wiki",
"description": "Microsoft Excel is a sprea..",
"tags": [],
"confidence": 0.975,
"instances": [
{
"brandType": "Transcript",
"start": "00: 00: 31.3000000",
"end": "00: 00: 39.0600000"
}
]
},
{
"id": 1,
"name": "Microsoft",
"referenceId": "Microsoft",
"referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
"description": "Microsoft Corporation is...",
"tags": [
"competitors",
"technology"
],
"confidence": 1.0,
"instances": [
{
"brandType": "Transcript",
"start": "00: 01: 44",
"end": "00: 01: 45.3670000"
},
{
"brandType": "Ocr",
"start": "00: 01: 54",
"end": "00: 02: 45.3670000"
}
]
}
]
estatísticas
Nome | Descrição |
---|---|
CorrespondenceCount |
O número de correspondências no vídeo. |
SpeakerWordCount |
O número de palavras por orador. |
SpeakerNumberOfFragments |
O número de fragmentos que o orador tem num vídeo. |
SpeakerLongestMonolog |
O monólogo mais longo do orador. Se o alto-falante tiver silêncio dentro do monólogo, ele está incluído. O silêncio no início e no final do monólogo é removido. |
SpeakerTalkToListenRatio |
O cálculo é baseado no tempo gasto no monolog do orador (sem o silêncio no meio) dividido pelo tempo total do vídeo. A hora é arredondada para a terceira casa decimal. |
audioEffects (pré-visualização)
Nome | Descrição |
---|---|
id |
ID do efeito de áudio. |
type |
O tipo do efeito de áudio. |
name |
O tipo do efeito de áudio no idioma em que o JSON foi indexado. |
instances |
Uma lista de intervalos de tempo onde esse efeito de áudio apareceu. Cada instância tem um campo de confiança. |
start + end |
O intervalo de tempo no vídeo original. |
adjustedStart + adjustedEnd |
Intervalo de tempo versus intervalo de tempo ajustado. |
audioEffects: [{
{
id: 0,
type: "Laughter",
name: "Laughter",
instances: [{
confidence: 0.8815,
adjustedStart: "0:00:10.2",
adjustedEnd: "0:00:11.2",
start: "0:00:10.2",
end: "0:00:11.2"
}, {
confidence: 0.8554,
adjustedStart: "0:00:48.26",
adjustedEnd: "0:00:49.56",
start: "0:00:48.26",
end: "0:00:49.56"
}, {
confidence: 0.8492,
adjustedStart: "0:00:59.66",
adjustedEnd: "0:01:00.66",
start: "0:00:59.66",
end: "0:01:00.66"
}
]
}
],
sentimentos
Os sentimentos são agregados pelo seu sentimentType
campo (Positive
, Neutral
, ou Negative
). Por exemplo: 0-0.1
, 0.1-0.2
.
Nome | Descrição |
---|---|
id |
O ID do sentimento. |
averageScore |
A média de todas as pontuações de todas as instâncias desse tipo de sentimento. |
instances |
Uma lista de intervalos de tempo onde esse sentimento apareceu. |
sentimentType |
O tipo pode ser Positive , Neutral ou Negative . |
"sentiments": [
{
"id": 0,
"averageScore": 0.87,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:23",
"end": "00:00:41"
}
]
}, {
"id": 1,
"averageScore": 0.11,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:13",
"end": "00:00:21"
}
]
}
]
visualContentModeration
A visualContentModeration
transcrição contém intervalos de tempo que o Azure AI Video Indexer descobriu ter potencialmente conteúdo adulto. Se visualContentModeration
estiver vazio, nenhum conteúdo adulto foi identificado.
Os vídeos que contêm conteúdo adulto ou picante podem estar disponíveis apenas para visualização privada. Os usuários podem enviar uma solicitação para uma revisão humana do conteúdo. Nesse caso, o IsAdult
atributo contém o resultado da revisão humana.
Nome | Descrição |
---|---|
id |
O ID da moderação de conteúdo visual. |
adultScore |
A pontuação de adulto (da moderação de conteúdo). |
racyScore |
A pontuação picante (da moderação de conteúdo). |
instances |
Uma lista de intervalos de tempo onde essa moderação de conteúdo visual apareceu. |
Saiba mais sobre visualContentModeration
- Documentação dos serviços de IA do Azure
- Nota de transparência
- Casos de utilização
- Capacidades e limitações
- Orientações para a integração e utilização responsável
- Dados, privacidade e segurança
"visualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
textualContentModeration
Nome | Descrição |
---|---|
id |
O ID da moderação de conteúdo textual. |
bannedWordsCount |
O número de palavras proibidas. |
bannedWordsRatio |
A proporção de palavras proibidas para o número total de palavras. |
Saiba mais sobre textualContentModeration
- Documentação dos serviços de IA do Azure
- Idiomas suportados
- Capacidades e limitações
- Dados, privacidade e segurança
emoções
O Azure AI Video Indexer identifica emoções com base em pistas de fala e áudio.
Nome | Descrição |
---|---|
id |
O ID da emoção. |
type |
O tipo de emoção identificada: Joy , Sadness , Anger , ou Fear . |
instances |
Uma lista de intervalos de tempo onde essa emoção apareceu. |
"emotions": [{
"id": 0,
"type": "Fear",
"instances": [{
"adjustedStart": "0:00:39.47",
"adjustedEnd": "0:00:45.56",
"start": "0:00:39.47",
"end": "0:00:45.56"
},
{
"adjustedStart": "0:07:19.57",
"adjustedEnd": "0:07:23.25",
"start": "0:07:19.57",
"end": "0:07:23.25"
}]
},
{
"id": 1,
"type": "Anger",
"instances": [{
"adjustedStart": "0:03:55.99",
"adjustedEnd": "0:04:05.06",
"start": "0:03:55.99",
"end": "0:04:05.06"
},
{
"adjustedStart": "0:04:56.5",
"adjustedEnd": "0:05:04.35",
"start": "0:04:56.5",
"end": "0:05:04.35"
}]
},
{
"id": 2,
"type": "Joy",
"instances": [{
"adjustedStart": "0:12:23.68",
"adjustedEnd": "0:12:34.76",
"start": "0:12:23.68",
"end": "0:12:34.76"
},
{
"adjustedStart": "0:12:46.73",
"adjustedEnd": "0:12:52.8",
"start": "0:12:46.73",
"end": "0:12:52.8"
},
{
"adjustedStart": "0:30:11.29",
"adjustedEnd": "0:30:16.43",
"start": "0:30:11.29",
"end": "0:30:16.43"
},
{
"adjustedStart": "0:41:37.23",
"adjustedEnd": "0:41:39.85",
"start": "0:41:37.23",
"end": "0:41:39.85"
}]
},
{
"id": 3,
"type": "Sad",
"instances": [{
"adjustedStart": "0:13:38.67",
"adjustedEnd": "0:13:41.3",
"start": "0:13:38.67",
"end": "0:13:41.3"
},
{
"adjustedStart": "0:28:08.88",
"adjustedEnd": "0:28:18.16",
"start": "0:28:08.88",
"end": "0:28:18.16"
}]
}
],
Tópicos
O Azure AI Video Indexer faz uma inferência dos principais tópicos das transcrições. Sempre que possível, a taxonomia IPTC de segundo nível é incluída.
Nome | Descrição |
---|---|
id |
O ID do tópico. |
name |
O nome do tópico. Por exemplo: Pharmaceuticals . |
referenceId |
Pão ralado que reflete a hierarquia do tópico. Por exemplo: HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS . |
confidence |
O índice de confiança no intervalo 0 -1 . Mais alto é mais confiante. |
language |
A linguagem utilizada no tópico. |
iptcName |
O nome de código de mídia IPTC, se detetado. |
instances |
Atualmente, o Azure AI Video Indexer não indexa um tópico a intervalos de tempo. Todo o vídeo é usado como intervalo. |
"topics": [{
"id": 0,
"name": "INTERNATIONAL RELATIONS",
"referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
"referenceType": "VideoIndexer",
"confidence": 1,
"language": "en-US",
"instances": [{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:03:36.25",
"start": "0:00:00",
"end": "0:03:36.25"
}]
}, {
"id": 1,
"name": "Politics and Government",
"referenceType": "VideoIndexer",
"iptcName": "Politics",
"confidence": 0.9041,
"language": "en-US",
"instances": [{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:03:36.25",
"start": "0:00:00",
"end": "0:03:36.25"
}]
}]
. . .
falantes
Nome | Descrição |
---|---|
id |
ID do orador. |
name |
O nome do orador sob a forma de Speaker #<number> . Por exemplo: Speaker #1 . |
instances |
Uma lista de intervalos de tempo onde este orador apareceu. |
"speakers":[
{
"id":1,
"name":"Speaker #1",
"instances":[
{
"adjustedStart":"0:00:10.21",
"adjustedEnd":"0:00:12.81",
"start":"0:00:10.21",
"end":"0:00:12.81"
}
]
},
{
"id":2,
"name":"Speaker #2",
"instances":[
{
"adjustedStart":"0:00:12.81",
"adjustedEnd":"0:00:17.03",
"start":"0:00:12.81",
"end":"0:00:17.03"
}
]
},
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários