Insights d’Azure AI Video Indexer
Lorsqu’une vidéo est indexée, Azure AI Video Indexer analyse la vidéo et le contenu audio en exécutant des modèles IA 30+ et en générant des json contenant les insights vidéo, notamment les transcriptions, les éléments de reconnaissance optique de caractères (OCR), les visages, les rubriques, les émotions, etc. Chaque type d’insight inclut des instances d’intervalles de temps qui indiquent quand l’insight apparaît dans la vidéo.
Utilisez les liens de la table Insights pour apprendre à obtenir chaque réponse JSON d’insight dans le portail web et à l’aide de l’API.
Informations
Insight | Description |
---|---|
Détection faciale | La détection des visages détecte les visages dans un fichier multimédia, puis agrège les instances de visages similaires en groupes. Les insights de détection des visages sont générés sous la forme d’une liste classées dans un fichier JSON qui inclut une miniature et un nom ou un ID pour chaque visage. Dans le portail web, la sélection de la miniature d’un visage affiche des informations telles que le nom de la personne (s’il a été reconnu), le pourcentage de la vidéo que la personne apparaît et la biographie de la personne, s’il s’agit d’une célébrité. Vous pouvez également faire défiler entre les instances de la vidéo où la personne apparaît. |
Identification des étiquettes | L’identification des étiquettes est une fonctionnalité IA d’Azure AI Video Indexer qui identifie des objets visuels tels que des lunettes de soleil ou des actions comme la natation, apparaissant dans la vidéo d’un fichier multimédia. Il existe de nombreuses catégories d’identification d’étiquettes et une fois extraites, les instances d’identification d’étiquettes sont affichées sous l’onglet Insights et peuvent être traduites en plus de 50 langues. Si vous cliquez sur une étiquette, l’instance s’ouvre dans le fichier multimédia, sélectionnez Lire précédent ou Lire en regard de voir d’autres instances. |
Détection d’objet | Azure AI Video Indexer détecte des objets dans des vidéos telles que des voitures, des sacs à main et des sacs à dos, et des ordinateurs portables. |
Détection des personnes observées | La détection des personnes observées et les visages mis en correspondance détectent et correspondent automatiquement aux personnes dans les fichiers multimédias. La détection des personnes observées et les visages mis en correspondance peuvent être définies pour afficher des insights sur les personnes, leurs vêtements et la période exacte de leur apparence.) |
OCR | OCR extrait du texte d’images telles que des images, des panneaux de rue et des produits dans des fichiers multimédias pour créer des insights. |
Postproduction : détection de la carte de clapper | La détection de la carte clapper détecte les panneaux de clapper utilisés pendant le tournage qui fournissent également les informations détectées sur la carte de clapper en tant que métadonnées, par exemple, production, roll, scène, take, etc. Clapper board fait partie des insights post-production que vous pouvez sélectionner dans les paramètres avancés du portail web lorsque vous chargez et indexez le fichier. |
Postproduction : modèles numériques | La détection de modèles numériques détecte les barres de couleur utilisées pendant le tournage. Les modèles numériques font partie des insights post-production que vous pouvez sélectionner dans les paramètres avancés du portail web lorsque vous chargez et indexez le fichier. |
Scènes, images et images clés | La détection de scène détecte lorsqu’une scène change dans une vidéo en fonction des signaux visuels. Une scène représente un événement unique et se compose d’une série de plans, qui sont liés.Les captures sont une série d’images distinguées par des repères visuels tels que des transitions abruptes et progressives dans un jeu de couleurs de cadres adjacents. Les métadonnées de la capture incluent l’heure de début et de fin, ainsi qu’une liste d’images clés incluses dans la capture. Un image clé est un cadre d’une capture qui représente le mieux un coup. |
Insights audio
Insight | Description |
---|---|
Détection des effets audio | La détection des effets audio détecte les événements acoustiques et les classifie en catégories telles que le rire, les réactions de foule, les alarmes et/ou les sirènes. |
Extraction de mots clés | L’extraction de mots clés détecte des insights sur les différents mots clés abordés dans les fichiers multimédias. Il extrait des insights dans des fichiers multimédias à langage unique et en plusieurs langues. |
Entités nommées | L’extraction d’entités nommées utilise le traitement en langage naturel (NLP) pour extraire des insights sur les emplacements, les personnes et les marques apparaissant dans des fichiers audio et images dans des fichiers multimédias. L’insight d’extraction d’entités nommées utilise la transcription et la reconnaissance optique de caractères (OCR). |
Détection des émotions basées sur du texte | La détection des émotions détecte les émotions dans les lignes de transcription de la vidéo. Chaque phrase peut être détectée comme Colère, Peur, Joie, Triste, Aucune si aucune autre émotion n’a été détectée. |
Inférence des rubriques | L’inférence des rubriques crée des insights déduits dérivés de l’audio transcrit, du contenu OCR dans du texte visuel et des célébrités reconnues dans la vidéo à l’aide du modèle de reconnaissance faciale Video Indexer. |
Transcription, traduction et identification linguistique | La transcription, la traduction et l’identification linguistique détecte, transcrit et traduit la parole dans les fichiers multimédias en plus de 50 langues. |