Examiner la sortie d’Azure AI Video Indexer
Important
En raison de l’annonce de mise hors service d’Azure Media Services, Azure AI Video Indexer annonce les ajustements des fonctionnalités d’Azure AI Video Indexer. Consultez les modifications relatives à la mise hors service Azure Media Service (AMS) pour comprendre ce que cela signifie pour votre compte Azure AI Video Indexer. Consultez le guide de préparation de la mise hors service AMS : Mise à jour et migration vi.
Lorsqu’une vidéo est indexée, Azure AI Video Indexer produit le contenu JSON qui contient les détails des insights vidéo spécifiés. Ces insights contiennent des transcriptions, des éléments de reconnaissance optique de caractères (OCR), des visages, des rubriques et des détails similaires. Chaque type d’insight comprend des instances d’intervalle de temps qui indiquent quand l’insight apparaît dans la vidéo.
Pour plus d’informations, consultez les insights d’Azure AI Video Indexer.
Éléments racines des insights
Nom | Description |
---|---|
accountId |
ID du compte Video Indexer de la playlist. |
id |
ID de la playlist. |
name |
Nom de la playlist. |
description |
Description de la playlist. |
userName |
Nom du créateur de la playlist. |
created |
Heure de création de la playlist. |
privacyMode |
Mode de confidentialité de la playlist (Private ou Public ). |
state |
État de la sélection (Uploaded , Processing , Processed , Failed ou Quarantined ). |
isOwned |
Indique si l’utilisateur actuel a créé la playlist. |
isEditable |
Indique si l’utilisateur actuel est autorisé à modifier la playlist. |
isBase |
Indique si la playlist est une playlist de base (une vidéo) ou si elle est constituée d’autres vidéos (dérivées). |
durationInSeconds |
Durée totale de la playlist. |
summarizedInsights |
La sortie JSON produite contient les éléments Insights et SummarizedInsights . Nous vous recommandons d’utiliser Insights et de ne pas utiliser SummarizedInsights (qui est présent pour des raisons de compatibilité descendante). |
videos |
Liste des vidéos qui composent la playlist. Si cette playlist est construite d’intervalles de temps d’autres vidéos (dérivées), les vidéos de cette liste contiennent uniquement des données provenant des intervalles de temps inclus. |
{
...
"accountId": "00000000-0000-0000-0000-000000000000",
"id": "abc3454321",
"name": "My first video",
"description": "I am trying VI",
"userName": "Some name",
"created": "2018/2/2 18:00:00.000",
"privacyMode": "Private",
"state": "Processed",
"isOwned": true,
"isEditable": false,
"isBase": false,
"durationInSeconds": 120,
"summarizedInsights" : null,
"videos": [{ . . . }]
}
Conseil
La sortie JSON produite contient les éléments Insights
et SummarizedInsights
. Nous vous recommandons vivement d’utiliser Insights
et de ne pas utiliser SummarizedInsights
(qui est présent pour la compatibilité descendante).
Résumé des insights
Cette section présente un résumé des insights.
Attribut | Description |
---|---|
name |
Nom de la vidéo. Par exemple : Azure Monitor . |
id |
ID de la vidéo. Par exemple : 63c6d532ff . |
privacyMode |
Votre décomposition peut avoir l’un des modes suivants : une vidéo Public peut être vue par tous les membres de votre compte et par quiconque disposant d’un lien vers la vidéo. Une vidéo Private peut être vue par tous les membres de votre compte. |
duration |
Moment auquel un insight s’est produit, en secondes. |
thumbnailVideoId |
ID de la vidéo à partir de laquelle la vidéo miniature a été réalisée. |
thumbnailId |
ID de la miniature de la vidéo. Pour obtenir la miniature réelle, appelez Get-Thumbnail et transmettez-lui thumbnailVideoId et thumbnailId . |
faces |
Contient zéro ou plusieurs visages. Pour plus d’informations, consultez visages. |
keywords |
Contient zéro ou plusieurs mots clés. Pour plus d'informations, consultez keywords. |
sentiments |
Contient zéro ou plusieurs sentiments. Pour plus d'informations, consultez sentiments. |
audioEffects |
Contient zéro ou plusieurs effets audio. Pour plus d’informations, consultez audioEffects. |
labels |
Contient zéro ou plusieurs étiquettes. Pour plus d'informations, consultez labels. |
brands |
Contient zéro ou plusieurs marques. Pour plus d’informations, consultez brands. |
statistics |
Pour plus d’informations, consultez la section statistics. |
emotions |
Contient zéro ou plusieurs émotions. Pour plus d’informations, consultez emotions. |
topics |
Contient zéro ou plusieurs rubriques. Pour plus d’informations, consultez topics. |
Vidéos
Nom | Description |
---|---|
accountId |
ID du compte Video Indexer de la vidéo. |
id |
ID de la vidéo. |
name |
Nom de la vidéo. |
state |
État de la vidéo (Uploaded , Processing , Processed , Failed ou Quarantined ). |
processingProgress |
Progression pendant le traitement. Par exemple : 20% . |
failureCode |
Code d’échec si la vidéo n’a pas pu être traitée. Par exemple : UnsupportedFileType . |
failureMessage |
Message d’échec si la vidéo n’a pas pu être traitée. |
externalId |
ID externe de la vidéo (si l’utilisateur en spécifie un). |
externalUrl |
URL externe de la vidéo (si l’utilisateur en spécifie une). |
metadata |
Métadonnées externes de la vidéo (si l’utilisateur en spécifie). |
isAdult |
Indique si la vidéo a été vérifiée manuellement et identifiée comme une vidéo pour adultes. |
insights |
Objet insights. Pour plus d’informations, consultez la section insights. |
thumbnailId |
ID de la miniature de la vidéo. Pour obtenir la miniature réelle, appelez Get-Thumbnail et transmettez-lui l’ID de la vidéo et l’ID de la miniature. |
publishedUrl |
URL de diffusion en continu de la vidéo. |
publishedUrlProxy |
URL à partir de laquelle diffuser la vidéo en continu sur les appareils Apple. |
viewToken |
Jeton d’affichage de courte durée pour le streaming de la vidéo. |
sourceLanguage |
Langue source de la vidéo. |
language |
Langue réelle de la vidéo (traduction). |
indexingPreset |
Présélection utilisée pour indexer la vidéo. |
streamingPreset |
Présélection utilisée pour publier la vidéo. |
linguisticModelId |
Modèle de personnalisation de transcription (CRIS) utilisé pour transcrire la vidéo. |
statistics |
Pour plus d’informations, consultez la section statistics. |
{
"videos": [{
"accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
"id": "142a356aa6",
"state": "Processed",
"privacyMode": "Private",
"processingProgress": "100%",
"failureCode": "General",
"failureMessage": "",
"externalId": null,
"externalUrl": null,
"metadata": null,
"insights": {. . . },
"thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
"publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
"publishedProxyUrl": null,
"viewToken": "Bearer=<token>",
"sourceLanguage": "En-US",
"language": "En-US",
"indexingPreset": "Default",
"linguisticModelId": "00000000-0000-0000-0000-000000000000"
}],
}
insights
Chaque insight (par exemple, lignes de transcription, visages ou marques) contient une liste d’éléments uniques (par exemple face1
, face2
, face3
). À chaque élément correspond des métadonnées et une liste de ses instances, qui sont des intervalles de temps avec des métadonnées supplémentaires.
Un visage peut avoir un ID, un nom, une miniature, d’autres métadonnées et une liste de ses instances temporelles (par exemple, , 00:00:05 – 00:00:10
et 00:01:00 - 00:02:30
00:41:21 – 00:41:49
). Chaque instance temporelle peut compter des métadonnées supplémentaires. Par exemple, les métadonnées peuvent inclure les coordonnées du rectangle du visage (20,230,60,60
).
Version | Version du code |
---|---|
sourceLanguage |
Langue source de la vidéo (à supposer qu’il y a une langue principale), sous la forme d’une chaîne BCP-47. |
language |
Langue des insights (traduction de la langue source), sous la forme d’une chaîne BCP-47. |
transcript |
L’insight transcription. |
ocr |
L’insight OCR. |
keywords |
L’insight mots clés. |
transcripts |
Peut contenir une ou plusieurs transcriptions. |
faces |
L’insight visages. |
labels |
L’insight étiquettes. |
shots |
L’insight captures. |
brands |
L’insight brands. |
audioEffects |
L’insight audioEffects. |
sentiments |
L’insight sentiments. |
visualContentModeration |
L’insight visualContentModeration. |
textualContentModeration |
L’insight textualContentModeration. |
emotions |
L’insight émotions. |
topics |
L’insight rubriques. |
speakers |
L’insight speakers (intervenants). |
Exemple :
{
"version": "0.9.0.0",
"sourceLanguage": "en-US",
"language": "es-ES",
"transcript": ...,
"ocr": ...,
"keywords": ...,
"faces": ...,
"labels": ...,
"shots": ...,
"brands": ...,
"audioEffects": ...,
"sentiments": ...,
"visualContentModeration": ...,
"textualContentModeration": ...
}
transcription
Nom | Description |
---|---|
id |
ID de la ligne. |
text |
La transcription proprement dite. |
confidence |
Niveau de confiance pour la précision de la transcription. |
speakerId |
ID de l’intervenant. |
language |
La langue de la transcription. Elle est censée prendre en charge les transcriptions affichant une langue différente dans chaque ligne. |
instances |
Liste des intervalles de temps pendant lesquels cette ligne est apparue. Si l’instance se trouve dans une transcription, elle n’a qu’une seule instance. |
Exemple :
"transcript":[
{
"id":1,
"text":"Well, good morning everyone and welcome to",
"confidence":0.8839,
"speakerId":1,
"language":"en-US",
"instances":[
{
"adjustedStart":"0:00:10.21",
"adjustedEnd":"0:00:12.81",
"start":"0:00:10.21",
"end":"0:00:12.81"
}
]
},
{
"id":2,
"text":"ignite 2016. Your mission at Microsoft is to empower every",
"confidence":0.8944,
"speakerId":2,
"language":"en-US",
"instances":[
{
"adjustedStart":"0:00:12.81",
"adjustedEnd":"0:00:17.03",
"start":"0:00:12.81",
"end":"0:00:17.03"
}
]
}
ocr
Nom | Description |
---|---|
id |
ID de ligne de la reconnaissance optique de caractères. |
text |
Texte de la reconnaissance optique de caractères. |
confidence |
Degré de confiance de la reconnaissance. |
language |
Langue de la reconnaissance optique de caractères. |
instances |
Liste des intervalles de temps pendant lesquels cette reconnaissance optique de caractères est apparue. (Une même reconnaissance optique peut apparaître plusieurs fois.) |
height |
Hauteur du rectangle OCR. |
top |
Emplacement du haut, en pixels. |
left |
Emplacement à gauche, en pixels. |
width |
Largeur du rectangle OCR. |
angle |
Angle du rectangle OCR, de -180 à 180 . La valeur 0 signifie « horizontal de gauche à droite ». La valeur 90 signifie « vertical de haut en bas ». La valeur 180 signifie « horizontal de droite à gauche ». La valeur -90 signifie « vertical de bas en haut ». La valeur 30 signifie « d’en haut à gauche vers en bas à droite ». |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 675.971,
"height": 35,
"language": "en-US",
"left": 31,
"top": 97,
"width": 400,
"angle": 30,
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
}
],
mots clés
Nom | Description |
---|---|
id |
ID du mot clé. |
text |
Texte du mot clé. |
confidence |
Degré de confiance de la reconnaissance du mot clé. |
language |
Langue du mot clé (si traduction). |
instances |
Liste des intervalles de temps pendant lesquels cet mot clé est apparu. (Un mot clé peut apparaître plusieurs fois.) |
{
id: 0,
text: "technology",
confidence: 1,
language: "en-US",
instances: [{
adjustedStart: "0:05:15.782",
adjustedEnd: "0:05:16.249",
start: "0:05:15.782",
end: "0:05:16.249"
},
{
adjustedStart: "0:04:54.761",
adjustedEnd: "0:04:55.228",
start: "0:04:54.761",
end: "0:04:55.228"
}]
}
visages
Si des visages sont présents, Azure AI Video Indexer utilise l’API Visage sur toutes les images de la vidéo pour détecter les visages et les célébrités.
Nom | Description |
---|---|
id |
ID du visage. |
name |
Nom du visage. Il peut s’agir de la valeur Unknown #0 , d’une célébrité identifiée ou d’une personne formée par le client. |
confidence |
Niveau de confiance de l’identification des visages. |
description |
Description de la célébrité. |
thumbnailId |
ID de la miniature du visage. |
knownPersonId |
S’il s’agit d’une personne connue, ID interne. |
referenceId |
S’il s’agit d’une célébrité Bing, ID Bing. |
referenceType |
Bing uniquement (pour le moment). |
title |
S’il s’agit d’une célébrité, fonction de la personne. Par exemple : Microsoft's CEO . |
imageUrl |
S’il s’agit d’une célébrité, URL de l’image. |
instances |
Instances où le visage est apparu dans l’intervalle de temps. Chaque instance dispose aussi d’une valeur thumbnailsIds . |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
étiquettes
Nom | Description |
---|---|
id |
ID de l’étiquette. |
name |
Nom de l’étiquette. Par exemple, Computer ou TV . |
language |
Langue du nom de l’étiquette (s’il est traduit), sous la forme d’une chaîne BCP-47. |
instances |
Liste des intervalles de temps pendant lesquels cette étiquette est apparue. (Une étiquette peut apparaître plusieurs fois.) Chaque instance possède un champ de confiance. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
scenes
Nom | Description |
---|---|
id |
ID de la scène. |
instances |
Liste des intervalles de temps de cette scène. (Une scène ne peut avoir qu’une seule instance.) |
"scenes":[
{
"id":0,
"instances":[
{
"start":"0:00:00",
"end":"0:00:06.34",
"duration":"0:00:06.34"
}
]
},
{
"id":1,
"instances":[
{
"start":"0:00:06.34",
"end":"0:00:47.047",
"duration":"0:00:40.707"
}
]
},
]
captures
Nom | Description |
---|---|
id |
ID de la capture. |
keyFrames |
Liste d’images clés (keyframes) dans la capture. Chacune est associée à un ID et à une liste d’intervalles d’instance. Chaque instance d’image clé dispose d’un champ thumbnailId , qui contient l’ID de miniature de l’image clé. |
instances |
Liste des intervalles de temps de cette capture. (Une capture ne peut avoir qu’une seule instance.) |
"shots":[
{
"id":0,
"keyFrames":[
{
"id":0,
"instances":[
{
"thumbnailId":"00000000-0000-0000-0000-000000000000",
"start":"0:00:00.209",
"end":"0:00:00.251",
"duration":"0:00:00.042"
}
]
},
{
"id":1,
"instances":[
{
"thumbnailId":"00000000-0000-0000-0000-000000000000",
"start":"0:00:04.755",
"end":"0:00:04.797",
"duration":"0:00:00.042"
}
]
}
],
"instances":[
{
"start":"0:00:00",
"end":"0:00:06.34",
"duration":"0:00:06.34"
}
]
},
]
brands
Azure AI Video Indexer détecte les noms de marque d’entreprise et de produits dans la transcription de reconnaissance vocale et/ou la reconnaissance optique de caractères vidéo. Ces informations n’incluent pas la reconnaissance visuelle des marques ou de la détection de logo.
Nom | Description |
---|---|
id |
ID de la marque. |
name |
Nom de la marque. |
referenceId |
Suffixe de l’URL Wikipédia de la marque. Par exemple, Target_Corporation est le suffixe de https://en.wikipedia.org/wiki/Target_Corporation. |
referenceUrl |
L’URL Wikipédia de la marque, le cas échéant. Par exemple : https://en.wikipedia.org/wiki/Target_Corporation. |
description |
Description de la marque. |
tags |
Liste des étiquettes prédéfinies qui ont été associées à cette marque. |
confidence |
Valeur de confiance du détecteur de marque Azure AI Video Indexer (0 -1 ). |
instances |
Liste des intervalles de temps de cette marque. Chaque instance possède une valeur brandType , qui indique si cette marque est apparue dans la transcription ou dans la reconnaissance optique de caractères. |
"brands": [
{
"id": 0,
"name": "MicrosoftExcel",
"referenceId": "Microsoft_Excel",
"referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
"referenceType": "Wiki",
"description": "Microsoft Excel is a sprea..",
"tags": [],
"confidence": 0.975,
"instances": [
{
"brandType": "Transcript",
"start": "00: 00: 31.3000000",
"end": "00: 00: 39.0600000"
}
]
},
{
"id": 1,
"name": "Microsoft",
"referenceId": "Microsoft",
"referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
"description": "Microsoft Corporation is...",
"tags": [
"competitors",
"technology"
],
"confidence": 1.0,
"instances": [
{
"brandType": "Transcript",
"start": "00: 01: 44",
"end": "00: 01: 45.3670000"
},
{
"brandType": "Ocr",
"start": "00: 01: 54",
"end": "00: 02: 45.3670000"
}
]
}
]
statistiques
Nom | Description |
---|---|
CorrespondenceCount |
Nombre de correspondances contenues dans la vidéo. |
SpeakerWordCount |
Nombre de mots par intervenant. |
SpeakerNumberOfFragments |
Nombre de fragments associés à l’intervenant dans une vidéo. |
SpeakerLongestMonolog |
Monologue le plus long de l’intervenant. Si le monologue de l’intervenant comporte un silence, il est inclus. Les silences du début et de la fin du monologue sont supprimés. |
SpeakerTalkToListenRatio |
Le calcul est basé sur le temps passé sur le monologue de l’intervenant (sans les silences intermédiaires) divisé par la durée totale de la vidéo. L’heure est arrondie à la troisième décimale. |
audioEffects (préversion)
Nom | Description |
---|---|
id |
ID de l’effet audio. |
type |
Type de l’effet audio. |
name |
Type de l’effet audio dans la langue dans laquelle le fichier JSON a été indexé. |
instances |
Liste des intervalles de temps au cours desquels cet effet audio est apparu. Chaque instance possède un champ de confiance. |
start + end |
L’intervalle de temps dans la vidéo d’origine. |
adjustedStart + adjustedEnd |
Intervalle de temps/intervalle de temps ajusté. |
audioEffects: [{
{
id: 0,
type: "Laughter",
name: "Laughter",
instances: [{
confidence: 0.8815,
adjustedStart: "0:00:10.2",
adjustedEnd: "0:00:11.2",
start: "0:00:10.2",
end: "0:00:11.2"
}, {
confidence: 0.8554,
adjustedStart: "0:00:48.26",
adjustedEnd: "0:00:49.56",
start: "0:00:48.26",
end: "0:00:49.56"
}, {
confidence: 0.8492,
adjustedStart: "0:00:59.66",
adjustedEnd: "0:01:00.66",
start: "0:00:59.66",
end: "0:01:00.66"
}
]
}
],
sentiments
Les sentiments sont agrégés par leur sentimentType
champ (Positive
, Neutral
ou Negative
). Par exemple : 0-0.1
, 0.1-0.2
.
Nom | Description |
---|---|
id |
ID du sentiment. |
averageScore |
Moyenne de tous les scores obtenus pour toutes les instances de ce type de sentiment. |
instances |
Liste des intervalles de temps au cours desquels ce sentiment est apparu. |
sentimentType |
Le type peut être Positive , Neutral ou Negative . |
"sentiments": [
{
"id": 0,
"averageScore": 0.87,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:23",
"end": "00:00:41"
}
]
}, {
"id": 1,
"averageScore": 0.11,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:13",
"end": "00:00:21"
}
]
}
]
visualContentModeration
La visualContentModeration
transcription contient des intervalles de temps que Azure AI Video Indexer a trouvés pour avoir du contenu adulte. Si visualContentModeration
est vide, aucun contenu pour adultes n’a été identifié.
Les vidéos qui comportent du contenu osé ou pour adultes peuvent être disponibles pour un visionnage privé uniquement. Les utilisateurs peuvent soumettre une demande d’examen humain du contenu. Dans ce cas, l’attribut IsAdult
contient le résultat de la révision humaine.
Nom | Description |
---|---|
id |
ID de modération du contenu visuel. |
adultScore |
Score d’évaluation du caractère adulte du contenu (résultant de la modération du contenu). |
racyScore |
Degré du contenu choquant (d’après Content Moderator). |
instances |
Liste des intervalles de temps où cette modération du contenu visuel est affichée. |
En savoir plus sur visualContentModeration
- Documentation Azure AI services
- Note de transparence
- Cas d’utilisation
- Fonctionnalités et limitations
- Conseils pour l’intégration et l’utilisation responsable
- Données, confidentialité et sécurité
"visualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
textualContentModeration
Nom | Description |
---|---|
id |
ID de la modération du contenu textuel. |
bannedWordsCount |
Nombre de mots interdits. |
bannedWordsRatio |
Proportion de mots interdits par rapport au nombre total de mots. |
En savoir plus sur textualContentModeration
- Documentation Azure AI services
- Langues prises en charge
- Fonctionnalités et limitations
- Données, confidentialité et sécurité
émotions
Azure AI Video Indexer identifie les émotions en fonction des signaux vocaux et audio.
Nom | Description |
---|---|
id |
ID de l’émotion. |
type |
Type d’une émotion identifiée : Joy , Sadness , Anger ou Fear . |
instances |
Liste des intervalles de temps pendant lesquels cette émotion est apparue. |
"emotions": [{
"id": 0,
"type": "Fear",
"instances": [{
"adjustedStart": "0:00:39.47",
"adjustedEnd": "0:00:45.56",
"start": "0:00:39.47",
"end": "0:00:45.56"
},
{
"adjustedStart": "0:07:19.57",
"adjustedEnd": "0:07:23.25",
"start": "0:07:19.57",
"end": "0:07:23.25"
}]
},
{
"id": 1,
"type": "Anger",
"instances": [{
"adjustedStart": "0:03:55.99",
"adjustedEnd": "0:04:05.06",
"start": "0:03:55.99",
"end": "0:04:05.06"
},
{
"adjustedStart": "0:04:56.5",
"adjustedEnd": "0:05:04.35",
"start": "0:04:56.5",
"end": "0:05:04.35"
}]
},
{
"id": 2,
"type": "Joy",
"instances": [{
"adjustedStart": "0:12:23.68",
"adjustedEnd": "0:12:34.76",
"start": "0:12:23.68",
"end": "0:12:34.76"
},
{
"adjustedStart": "0:12:46.73",
"adjustedEnd": "0:12:52.8",
"start": "0:12:46.73",
"end": "0:12:52.8"
},
{
"adjustedStart": "0:30:11.29",
"adjustedEnd": "0:30:16.43",
"start": "0:30:11.29",
"end": "0:30:16.43"
},
{
"adjustedStart": "0:41:37.23",
"adjustedEnd": "0:41:39.85",
"start": "0:41:37.23",
"end": "0:41:39.85"
}]
},
{
"id": 3,
"type": "Sad",
"instances": [{
"adjustedStart": "0:13:38.67",
"adjustedEnd": "0:13:41.3",
"start": "0:13:38.67",
"end": "0:13:41.3"
},
{
"adjustedStart": "0:28:08.88",
"adjustedEnd": "0:28:18.16",
"start": "0:28:08.88",
"end": "0:28:18.16"
}]
}
],
topics
Azure AI Video Indexer effectue une inférence des rubriques principales à partir de transcriptions. La taxonomie IPTC de second niveau est incluse lorsque cela est possible.
Nom | Description |
---|---|
id |
ID de la rubrique. |
name |
Nom de la rubrique. Par exemple : Pharmaceuticals . |
referenceId |
Arborescences de navigation qui reflètent la hiérarchie de la rubrique. Par exemple : HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS . |
confidence |
Score de confiance dans la plage 0 -1 . Un score plus élevé est d’une plus grande confiance. |
language |
Langue utilisée dans la rubrique. |
iptcName |
Nom de code multimédia IPTC, si détecté. |
instances |
Actuellement, Azure AI Video Indexer n’indexe pas de rubrique à intervalles de temps. L’intégralité de la vidéo est utilisée comme intervalle. |
"topics": [{
"id": 0,
"name": "INTERNATIONAL RELATIONS",
"referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
"referenceType": "VideoIndexer",
"confidence": 1,
"language": "en-US",
"instances": [{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:03:36.25",
"start": "0:00:00",
"end": "0:03:36.25"
}]
}, {
"id": 1,
"name": "Politics and Government",
"referenceType": "VideoIndexer",
"iptcName": "Politics",
"confidence": 0.9041,
"language": "en-US",
"instances": [{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:03:36.25",
"start": "0:00:00",
"end": "0:03:36.25"
}]
}]
. . .
speakers
Nom | Description |
---|---|
id |
ID de l’intervenant. |
name |
Nom de l’intervenant sous la forme Speaker #<number> . Par exemple : Speaker #1 . |
instances |
Liste des intervalles de temps pendant lesquels cet intervenant est apparu. |
"speakers":[
{
"id":1,
"name":"Speaker #1",
"instances":[
{
"adjustedStart":"0:00:10.21",
"adjustedEnd":"0:00:12.81",
"start":"0:00:10.21",
"end":"0:00:12.81"
}
]
},
{
"id":2,
"name":"Speaker #2",
"instances":[
{
"adjustedStart":"0:00:12.81",
"adjustedEnd":"0:00:17.03",
"start":"0:00:12.81",
"end":"0:00:17.03"
}
]
},
Commentaires
https://aka.ms/ContentUserFeedback.
Prochainement : Tout au long de l'année 2024, nous supprimerons progressivement les GitHub Issues en tant que mécanisme de retour d'information pour le contenu et nous les remplacerons par un nouveau système de retour d'information. Pour plus d’informations, voir:Soumettre et afficher des commentaires pour