Examiner la sortie d’Azure AI Video Indexer

Important

En raison de l’annonce de mise hors service d’Azure Media Services, Azure AI Video Indexer annonce les ajustements des fonctionnalités d’Azure AI Video Indexer. Consultez les modifications relatives à la mise hors service Azure Media Service (AMS) pour comprendre ce que cela signifie pour votre compte Azure AI Video Indexer. Consultez le guide de préparation de la mise hors service AMS : Mise à jour et migration vi.

Lorsqu’une vidéo est indexée, Azure AI Video Indexer produit le contenu JSON qui contient les détails des insights vidéo spécifiés. Ces insights contiennent des transcriptions, des éléments de reconnaissance optique de caractères (OCR), des visages, des rubriques et des détails similaires. Chaque type d’insight comprend des instances d’intervalle de temps qui indiquent quand l’insight apparaît dans la vidéo.

Pour plus d’informations, consultez les insights d’Azure AI Video Indexer.

Éléments racines des insights

Nom Description
accountId ID du compte Video Indexer de la playlist.
id ID de la playlist.
name Nom de la playlist.
description Description de la playlist.
userName Nom du créateur de la playlist.
created Heure de création de la playlist.
privacyMode Mode de confidentialité de la playlist (Private ou Public).
state État de la sélection (Uploaded, Processing, Processed, Failed ou Quarantined).
isOwned Indique si l’utilisateur actuel a créé la playlist.
isEditable Indique si l’utilisateur actuel est autorisé à modifier la playlist.
isBase Indique si la playlist est une playlist de base (une vidéo) ou si elle est constituée d’autres vidéos (dérivées).
durationInSeconds Durée totale de la playlist.
summarizedInsights La sortie JSON produite contient les éléments Insights et SummarizedInsights. Nous vous recommandons d’utiliser Insights et de ne pas utiliser SummarizedInsights (qui est présent pour des raisons de compatibilité descendante).
videos Liste des vidéos qui composent la playlist.
Si cette playlist est construite d’intervalles de temps d’autres vidéos (dérivées), les vidéos de cette liste contiennent uniquement des données provenant des intervalles de temps inclus.
{
  ...
  "accountId": "00000000-0000-0000-0000-000000000000",
  "id": "abc3454321",
  "name": "My first video",
  "description": "I am trying VI",
  "userName": "Some name",
  "created": "2018/2/2 18:00:00.000",
  "privacyMode": "Private",
  "state": "Processed",
  "isOwned": true,
  "isEditable": false,
  "isBase": false,
  "durationInSeconds": 120, 
  "summarizedInsights" : null,
  "videos": [{ . . . }]
}

Conseil

La sortie JSON produite contient les éléments Insights et SummarizedInsights. Nous vous recommandons vivement d’utiliser Insights et de ne pas utiliser SummarizedInsights (qui est présent pour la compatibilité descendante).

Résumé des insights

Cette section présente un résumé des insights.

Attribut Description
name Nom de la vidéo. Par exemple : Azure Monitor.
id ID de la vidéo. Par exemple : 63c6d532ff.
privacyMode Votre décomposition peut avoir l’un des modes suivants : une vidéo Public peut être vue par tous les membres de votre compte et par quiconque disposant d’un lien vers la vidéo. Une vidéo Private peut être vue par tous les membres de votre compte.
duration Moment auquel un insight s’est produit, en secondes.
thumbnailVideoId ID de la vidéo à partir de laquelle la vidéo miniature a été réalisée.
thumbnailId ID de la miniature de la vidéo. Pour obtenir la miniature réelle, appelez Get-Thumbnail et transmettez-lui thumbnailVideoId et thumbnailId.
faces Contient zéro ou plusieurs visages. Pour plus d’informations, consultez visages.
keywords Contient zéro ou plusieurs mots clés. Pour plus d'informations, consultez keywords.
sentiments Contient zéro ou plusieurs sentiments. Pour plus d'informations, consultez sentiments.
audioEffects Contient zéro ou plusieurs effets audio. Pour plus d’informations, consultez audioEffects.
labels Contient zéro ou plusieurs étiquettes. Pour plus d'informations, consultez labels.
brands Contient zéro ou plusieurs marques. Pour plus d’informations, consultez brands.
statistics Pour plus d’informations, consultez la section statistics.
emotions Contient zéro ou plusieurs émotions. Pour plus d’informations, consultez emotions.
topics Contient zéro ou plusieurs rubriques. Pour plus d’informations, consultez topics.

Vidéos

Nom Description
accountId ID du compte Video Indexer de la vidéo.
id ID de la vidéo.
name Nom de la vidéo.
state État de la vidéo (Uploaded, Processing, Processed, Failed ou Quarantined).
processingProgress Progression pendant le traitement. Par exemple : 20%.
failureCode Code d’échec si la vidéo n’a pas pu être traitée. Par exemple : UnsupportedFileType.
failureMessage Message d’échec si la vidéo n’a pas pu être traitée.
externalId ID externe de la vidéo (si l’utilisateur en spécifie un).
externalUrl URL externe de la vidéo (si l’utilisateur en spécifie une).
metadata Métadonnées externes de la vidéo (si l’utilisateur en spécifie).
isAdult Indique si la vidéo a été vérifiée manuellement et identifiée comme une vidéo pour adultes.
insights Objet insights. Pour plus d’informations, consultez la section insights.
thumbnailId ID de la miniature de la vidéo. Pour obtenir la miniature réelle, appelez Get-Thumbnail et transmettez-lui l’ID de la vidéo et l’ID de la miniature.
publishedUrl URL de diffusion en continu de la vidéo.
publishedUrlProxy URL à partir de laquelle diffuser la vidéo en continu sur les appareils Apple.
viewToken Jeton d’affichage de courte durée pour le streaming de la vidéo.
sourceLanguage Langue source de la vidéo.
language Langue réelle de la vidéo (traduction).
indexingPreset Présélection utilisée pour indexer la vidéo.
streamingPreset Présélection utilisée pour publier la vidéo.
linguisticModelId Modèle de personnalisation de transcription (CRIS) utilisé pour transcrire la vidéo.
statistics Pour plus d’informations, consultez la section statistics.
{
    "videos": [{
        "accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
        "id": "142a356aa6",
        "state": "Processed",
        "privacyMode": "Private",
        "processingProgress": "100%",
        "failureCode": "General",
        "failureMessage": "",
        "externalId": null,
        "externalUrl": null,
        "metadata": null,
        "insights": {. . . },
        "thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
        "publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
        "publishedProxyUrl": null,
        "viewToken": "Bearer=<token>",
        "sourceLanguage": "En-US",
        "language": "En-US",
        "indexingPreset": "Default",
        "linguisticModelId": "00000000-0000-0000-0000-000000000000"
    }],
}

insights

Chaque insight (par exemple, lignes de transcription, visages ou marques) contient une liste d’éléments uniques (par exemple face1, face2, face3). À chaque élément correspond des métadonnées et une liste de ses instances, qui sont des intervalles de temps avec des métadonnées supplémentaires.

Un visage peut avoir un ID, un nom, une miniature, d’autres métadonnées et une liste de ses instances temporelles (par exemple, , 00:00:05 – 00:00:10et 00:01:00 - 00:02:3000:41:21 – 00:41:49). Chaque instance temporelle peut compter des métadonnées supplémentaires. Par exemple, les métadonnées peuvent inclure les coordonnées du rectangle du visage (20,230,60,60).

Version Version du code
sourceLanguage Langue source de la vidéo (à supposer qu’il y a une langue principale), sous la forme d’une chaîne BCP-47.
language Langue des insights (traduction de la langue source), sous la forme d’une chaîne BCP-47.
transcript L’insight transcription.
ocr L’insight OCR.
keywords L’insight mots clés.
transcripts Peut contenir une ou plusieurs transcriptions.
faces L’insight visages.
labels L’insight étiquettes.
shots L’insight captures.
brands L’insight brands.
audioEffects L’insight audioEffects.
sentiments L’insight sentiments.
visualContentModeration L’insight visualContentModeration.
textualContentModeration L’insight textualContentModeration.
emotions L’insight émotions.
topics L’insight rubriques.
speakers L’insight speakers (intervenants).

Exemple :

{
  "version": "0.9.0.0",
  "sourceLanguage": "en-US",
  "language": "es-ES",
  "transcript": ...,
  "ocr": ...,
  "keywords": ...,
  "faces": ...,
  "labels": ...,
  "shots": ...,
  "brands": ...,
  "audioEffects": ...,
  "sentiments": ...,
  "visualContentModeration": ...,
  "textualContentModeration": ...
}

transcription

Nom Description
id ID de la ligne.
text La transcription proprement dite.
confidence Niveau de confiance pour la précision de la transcription.
speakerId ID de l’intervenant.
language La langue de la transcription. Elle est censée prendre en charge les transcriptions affichant une langue différente dans chaque ligne.
instances Liste des intervalles de temps pendant lesquels cette ligne est apparue. Si l’instance se trouve dans une transcription, elle n’a qu’une seule instance.

Exemple :

"transcript":[
{
  "id":1,
  "text":"Well, good morning everyone and welcome to",
  "confidence":0.8839,
  "speakerId":1,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "text":"ignite 2016. Your mission at Microsoft is to empower every",
  "confidence":0.8944,
  "speakerId":2,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
}

ocr

Nom Description
id ID de ligne de la reconnaissance optique de caractères.
text Texte de la reconnaissance optique de caractères.
confidence Degré de confiance de la reconnaissance.
language Langue de la reconnaissance optique de caractères.
instances Liste des intervalles de temps pendant lesquels cette reconnaissance optique de caractères est apparue. (Une même reconnaissance optique peut apparaître plusieurs fois.)
height Hauteur du rectangle OCR.
top Emplacement du haut, en pixels.
left Emplacement à gauche, en pixels.
width Largeur du rectangle OCR.
angle Angle du rectangle OCR, de -180 à 180. La valeur 0 signifie « horizontal de gauche à droite ». La valeur 90 signifie « vertical de haut en bas ». La valeur 180 signifie « horizontal de droite à gauche ». La valeur -90 signifie « vertical de bas en haut ». La valeur 30 signifie « d’en haut à gauche vers en bas à droite ».
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 675.971,
      "height": 35,
      "language": "en-US",
      "left": 31,
      "top": 97,
      "width": 400,
      "angle": 30,
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    }
  ],

mots clés

Nom Description
id ID du mot clé.
text Texte du mot clé.
confidence Degré de confiance de la reconnaissance du mot clé.
language Langue du mot clé (si traduction).
instances Liste des intervalles de temps pendant lesquels cet mot clé est apparu. (Un mot clé peut apparaître plusieurs fois.)
{
    id: 0,
    text: "technology",
    confidence: 1,
    language: "en-US",
    instances: [{
            adjustedStart: "0:05:15.782",
            adjustedEnd: "0:05:16.249",
            start: "0:05:15.782",
            end: "0:05:16.249"
    },
    {
            adjustedStart: "0:04:54.761",
            adjustedEnd: "0:04:55.228",
            start: "0:04:54.761",
            end: "0:04:55.228"
    }]
}

visages

Si des visages sont présents, Azure AI Video Indexer utilise l’API Visage sur toutes les images de la vidéo pour détecter les visages et les célébrités.

Nom Description
id ID du visage.
name Nom du visage. Il peut s’agir de la valeur Unknown #0, d’une célébrité identifiée ou d’une personne formée par le client.
confidence Niveau de confiance de l’identification des visages.
description Description de la célébrité.
thumbnailId ID de la miniature du visage.
knownPersonId S’il s’agit d’une personne connue, ID interne.
referenceId S’il s’agit d’une célébrité Bing, ID Bing.
referenceType Bing uniquement (pour le moment).
title S’il s’agit d’une célébrité, fonction de la personne. Par exemple : Microsoft's CEO.
imageUrl S’il s’agit d’une célébrité, URL de l’image.
instances Instances où le visage est apparu dans l’intervalle de temps. Chaque instance dispose aussi d’une valeur thumbnailsIds.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

étiquettes

Nom Description
id ID de l’étiquette.
name Nom de l’étiquette. Par exemple, Computer ou TV.
language Langue du nom de l’étiquette (s’il est traduit), sous la forme d’une chaîne BCP-47.
instances Liste des intervalles de temps pendant lesquels cette étiquette est apparue. (Une étiquette peut apparaître plusieurs fois.) Chaque instance possède un champ de confiance.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

scenes

Nom Description
id ID de la scène.
instances Liste des intervalles de temps de cette scène. (Une scène ne peut avoir qu’une seule instance.)
"scenes":[  
    {  
      "id":0,
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },
    {  
      "id":1,
      "instances":[  
          {  
            "start":"0:00:06.34",
            "end":"0:00:47.047",
            "duration":"0:00:40.707"
          }
      ]
    },

]

captures

Nom Description
id ID de la capture.
keyFrames Liste d’images clés (keyframes) dans la capture. Chacune est associée à un ID et à une liste d’intervalles d’instance. Chaque instance d’image clé dispose d’un champ thumbnailId, qui contient l’ID de miniature de l’image clé.
instances Liste des intervalles de temps de cette capture. (Une capture ne peut avoir qu’une seule instance.)
"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

brands

Azure AI Video Indexer détecte les noms de marque d’entreprise et de produits dans la transcription de reconnaissance vocale et/ou la reconnaissance optique de caractères vidéo. Ces informations n’incluent pas la reconnaissance visuelle des marques ou de la détection de logo.

Nom Description
id ID de la marque.
name Nom de la marque.
referenceId Suffixe de l’URL Wikipédia de la marque. Par exemple, Target_Corporation est le suffixe de https://en.wikipedia.org/wiki/Target_Corporation.
referenceUrl L’URL Wikipédia de la marque, le cas échéant. Par exemple : https://en.wikipedia.org/wiki/Target_Corporation.
description Description de la marque.
tags Liste des étiquettes prédéfinies qui ont été associées à cette marque.
confidence Valeur de confiance du détecteur de marque Azure AI Video Indexer (0-1).
instances Liste des intervalles de temps de cette marque. Chaque instance possède une valeur brandType, qui indique si cette marque est apparue dans la transcription ou dans la reconnaissance optique de caractères.
"brands": [
{
    "id": 0,
    "name": "MicrosoftExcel",
    "referenceId": "Microsoft_Excel",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
    "referenceType": "Wiki",
    "description": "Microsoft Excel is a sprea..",
    "tags": [],
    "confidence": 0.975,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 00: 31.3000000",
        "end": "00: 00: 39.0600000"
    }
    ]
},
{
    "id": 1,
    "name": "Microsoft",
    "referenceId": "Microsoft",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
    "description": "Microsoft Corporation is...",
    "tags": [
    "competitors",
    "technology"
    ],
    "confidence": 1.0,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 01: 44",
        "end": "00: 01: 45.3670000"
    },
    {
        "brandType": "Ocr",
        "start": "00: 01: 54",
        "end": "00: 02: 45.3670000"
    }
    ]
}
]

statistiques

Nom Description
CorrespondenceCount Nombre de correspondances contenues dans la vidéo.
SpeakerWordCount Nombre de mots par intervenant.
SpeakerNumberOfFragments Nombre de fragments associés à l’intervenant dans une vidéo.
SpeakerLongestMonolog Monologue le plus long de l’intervenant. Si le monologue de l’intervenant comporte un silence, il est inclus. Les silences du début et de la fin du monologue sont supprimés.
SpeakerTalkToListenRatio Le calcul est basé sur le temps passé sur le monologue de l’intervenant (sans les silences intermédiaires) divisé par la durée totale de la vidéo. L’heure est arrondie à la troisième décimale.

audioEffects (préversion)

Nom Description
id ID de l’effet audio.
type Type de l’effet audio.
name Type de l’effet audio dans la langue dans laquelle le fichier JSON a été indexé.
instances Liste des intervalles de temps au cours desquels cet effet audio est apparu. Chaque instance possède un champ de confiance.
start + end L’intervalle de temps dans la vidéo d’origine.
adjustedStart + adjustedEnd Intervalle de temps/intervalle de temps ajusté.
audioEffects: [{
 {
        id: 0,
        type: "Laughter",
        name: "Laughter",
        instances: [{
                confidence: 0.8815,
                adjustedStart: "0:00:10.2",
                adjustedEnd: "0:00:11.2",
                start: "0:00:10.2",
                end: "0:00:11.2"
            }, {
                confidence: 0.8554,
                adjustedStart: "0:00:48.26",
                adjustedEnd: "0:00:49.56",
                start: "0:00:48.26",
                end: "0:00:49.56"
            }, {
                confidence: 0.8492,
                adjustedStart: "0:00:59.66",
                adjustedEnd: "0:01:00.66",
                start: "0:00:59.66",
                end: "0:01:00.66"
            }
        ]
    }
],

sentiments

Les sentiments sont agrégés par leur sentimentType champ (Positive, Neutralou Negative). Par exemple : 0-0.1, 0.1-0.2.

Nom Description
id ID du sentiment.
averageScore Moyenne de tous les scores obtenus pour toutes les instances de ce type de sentiment.
instances Liste des intervalles de temps au cours desquels ce sentiment est apparu.
sentimentType Le type peut être Positive, Neutral ou Negative.
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

visualContentModeration

La visualContentModeration transcription contient des intervalles de temps que Azure AI Video Indexer a trouvés pour avoir du contenu adulte. Si visualContentModeration est vide, aucun contenu pour adultes n’a été identifié.

Les vidéos qui comportent du contenu osé ou pour adultes peuvent être disponibles pour un visionnage privé uniquement. Les utilisateurs peuvent soumettre une demande d’examen humain du contenu. Dans ce cas, l’attribut IsAdult contient le résultat de la révision humaine.

Nom Description
id ID de modération du contenu visuel.
adultScore Score d’évaluation du caractère adulte du contenu (résultant de la modération du contenu).
racyScore Degré du contenu choquant (d’après Content Moderator).
instances Liste des intervalles de temps où cette modération du contenu visuel est affichée.

En savoir plus sur visualContentModeration

"visualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

textualContentModeration

Nom Description
id ID de la modération du contenu textuel.
bannedWordsCount Nombre de mots interdits.
bannedWordsRatio Proportion de mots interdits par rapport au nombre total de mots.
En savoir plus sur textualContentModeration

émotions

Azure AI Video Indexer identifie les émotions en fonction des signaux vocaux et audio.

Nom Description
id ID de l’émotion.
type Type d’une émotion identifiée : Joy, Sadness, Anger ou Fear.
instances Liste des intervalles de temps pendant lesquels cette émotion est apparue.
"emotions": [{
    "id": 0,
    "type": "Fear",
    "instances": [{
      "adjustedStart": "0:00:39.47",
      "adjustedEnd": "0:00:45.56",
      "start": "0:00:39.47",
      "end": "0:00:45.56"
    },
    {
      "adjustedStart": "0:07:19.57",
      "adjustedEnd": "0:07:23.25",
      "start": "0:07:19.57",
      "end": "0:07:23.25"
    }]
  },
  {
    "id": 1,
    "type": "Anger",
    "instances": [{
      "adjustedStart": "0:03:55.99",
      "adjustedEnd": "0:04:05.06",
      "start": "0:03:55.99",
      "end": "0:04:05.06"
    },
    {
      "adjustedStart": "0:04:56.5",
      "adjustedEnd": "0:05:04.35",
      "start": "0:04:56.5",
      "end": "0:05:04.35"
    }]
  },
  {
    "id": 2,
    "type": "Joy",
    "instances": [{
      "adjustedStart": "0:12:23.68",
      "adjustedEnd": "0:12:34.76",
      "start": "0:12:23.68",
      "end": "0:12:34.76"
    },
    {
      "adjustedStart": "0:12:46.73",
      "adjustedEnd": "0:12:52.8",
      "start": "0:12:46.73",
      "end": "0:12:52.8"
    },
    {
      "adjustedStart": "0:30:11.29",
      "adjustedEnd": "0:30:16.43",
      "start": "0:30:11.29",
      "end": "0:30:16.43"
    },
    {
      "adjustedStart": "0:41:37.23",
      "adjustedEnd": "0:41:39.85",
      "start": "0:41:37.23",
      "end": "0:41:39.85"
    }]
  },
  {
    "id": 3,
    "type": "Sad",
    "instances": [{
      "adjustedStart": "0:13:38.67",
      "adjustedEnd": "0:13:41.3",
      "start": "0:13:38.67",
      "end": "0:13:41.3"
    },
    {
      "adjustedStart": "0:28:08.88",
      "adjustedEnd": "0:28:18.16",
      "start": "0:28:08.88",
      "end": "0:28:18.16"
    }]
  }
],

topics

Azure AI Video Indexer effectue une inférence des rubriques principales à partir de transcriptions. La taxonomie IPTC de second niveau est incluse lorsque cela est possible.

Nom Description
id ID de la rubrique.
name Nom de la rubrique. Par exemple : Pharmaceuticals.
referenceId Arborescences de navigation qui reflètent la hiérarchie de la rubrique. Par exemple : HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS.
confidence Score de confiance dans la plage 0-1. Un score plus élevé est d’une plus grande confiance.
language Langue utilisée dans la rubrique.
iptcName Nom de code multimédia IPTC, si détecté.
instances Actuellement, Azure AI Video Indexer n’indexe pas de rubrique à intervalles de temps. L’intégralité de la vidéo est utilisée comme intervalle.
"topics": [{
    "id": 0,
    "name": "INTERNATIONAL RELATIONS",
    "referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
    "referenceType": "VideoIndexer",
    "confidence": 1,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}, {
    "id": 1,
    "name": "Politics and Government",
    "referenceType": "VideoIndexer",
    "iptcName": "Politics",
    "confidence": 0.9041,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}]
. . .

speakers

Nom Description
id ID de l’intervenant.
name Nom de l’intervenant sous la forme Speaker #<number>. Par exemple : Speaker #1.
instances Liste des intervalles de temps pendant lesquels cet intervenant est apparu.
"speakers":[
{
  "id":1,
  "name":"Speaker #1",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "name":"Speaker #2",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
},