Présentation d’Azure AI Video Indexer

Article
10/09/2024

Azure AI Video Indexer est une application cloud qui fait partie des services Azure AI, qui est basée sur les services Azure AI (au même titre que Visage, Traducteur, Azure AI Vision et Speech). Elle vous permet d’extraire les insights de vos vidéos à l’aide de modèles vidéo et audio Azure AI Video Indexer.

Azure AI Video Indexer analyse le contenu vidéo et audio en exécutant plus de 30 modèles d’IA qui génèrent de riches insights. Voici une illustration de l’analyse audio et vidéo effectuée par Azure AI Video Indexer en arrière-plan :

Pour commencer à extraire des insights avec Azure AI Video Indexer, consultez la section Comment démarrer.

Que puis-je faire avec Azure AI Video Indexer ?

Les insights d’Azure AI Video Indexer peuvent être appliqués à de nombreux scénarios :

Recherche profonde : Utilisez les insights extraits de la vidéo pour améliorer l’expérience de recherche au sein d’une bibliothèque vidéo. Par exemple, l’indexation des visages et des mots prononcés peut permettre de trouver les moments spécifiques d’une vidéo où une personne a prononcé certains mots ou le moment où deux personnes se sont vues. La recherche basée sur de tels aperçus de vidéos s’applique aux agences de presse, aux instituts de formation, aux diffuseurs, aux propriétaires de contenu de divertissement, aux LOB d’entreprise et d’une façon générale à n’importe quel secteur d’activité possédant une bibliothèque vidéo au sein de laquelle les utilisateurs doivent faire des recherches.
Création de contenu : créez des bandes-annonces, des séquences de meilleurs moments, du contenu de réseaux sociaux ou des clips d’actualité basés sur des insights Azure AI Video Indexer extraits de votre contenu. Les images clés, les marqueurs de scènes et les timestamps pour les apparences des étiquettes et des personnes rendent le processus de création beaucoup plus lisse et plus simple, vous permettant d’accéder facilement aux parties de la vidéo dont vous avez besoin lors de la création du contenu.
Accessibilité : si vous souhaitez que votre contenu soit disponible pour les personnes handicapées ou qu’il soit distribué dans différentes régions en différentes langues, vous pouvez utiliser la transcription et la traduction fournies par Azure AI Video Indexer dans plusieurs langues.
Monétisation : Azure AI Video Indexer peut aider à augmenter la valeur des vidéos. Par exemple, les secteurs d’activité s’appuyant sur le chiffre d’affaires publicitaire (es médias d’information, les médias sociaux, et ainsi de suite), peuvent fournir des publicités pertinentes en utilisant les insights extraits en tant que signaux supplémentaires pour le serveur publicitaire.
Modération du contenu : Utilisez des modèles de modération de contenu textuel et visuel afin de protéger vos utilisateurs contre le contenu inapproprié et de vous assurer que le contenu que vous publiez correspond aux valeurs de votre organisation. Vous pouvez bloquer automatiquement certaines vidéos ou alerter vos utilisateurs au sujet du contenu.
Suggestions : les insights vidéo peuvent être utilisés pour améliorer l’engagement utilisateur en soulignant les moments intéressants d’une vidéo. En marquant chaque vidéo avec des métadonnées supplémentaires, vous pouvez recommander aux utilisateurs les vidéos les plus pertinentes et mettre en évidence la partie de la vidéo qui répond à leurs besoins.

Fonctionnalités d’IA vidéo/audio

La liste suivante présente les informations que vous pouvez extraire de vos fichiers vidéo/audio à l’aide des fonctionnalités d’IA vidéo et audio Azure AI Video Indexer (modèles).

Remarque

Compte tenu des exigences en matière de confidentialité et de réglementation, certaines de ces fonctionnalités ont une utilisation restreinte et/ou nécessitent une autorisation d’utilisation complète.

Sauf indication contraire, un modèle est généralement disponible.

Modèles vidéo

Détection de visage : Détecte et regroupe les visages qui apparaissent dans la vidéo.
Identification des célébrités : identifie plus d'un million de célébrités, comme des dirigeants mondiaux, des acteurs, des artistes, des athlètes, des chercheurs, des chefs d'entreprise et des leaders technologiques du monde entier. Les données relatives à ces célébrités figurent également sur plusieurs sites Web (tels que IMDB, Wikipedia, etc.).
Identification des visages basée sur le compte : Effectue l’apprentissage d’un modèle pour un compte spécifique. Il reconnaît ensuite les visages dans la vidéo en fonction du modèle formé. Pour plus d’informations, consultez Personnaliser un modèle de personne depuis le site web Azure AI Video Indexer et Personnaliser un modèle de personne avec l’API Azure AI Video Indexer.
Extraction de miniatures pour les visages : Identifie le meilleur visage capturé dans chaque groupe de visages (en fonction de la qualité, de la taille et de la position frontale) et l’extrait en tant qu’actif d’image.
Reconnaissance optique de caractères (OCR) : extrait du texte à partir d’images telles que des images, des panneaux de rue et des produits dans des fichiers multimédias pour créer des insights.
Modération du contenu visuel : Détecte les contenus choquants et/ou destinés aux adultes.
Identification des étiquettes : Identifie les objets visuels et les actions affichés.
Segmentation de scène : Détermine quand une scène change dans la vidéo via des signaux visuels. Une scène représente un événement unique et est composée d’une série de captures consécutives, qui sont sémantiquement liées.
Détection de plan : Détermine quand un plan change dans la vidéo via des signaux visuels. Un plan est une série d’images prises par la même caméra. Pour plus d’informations, consultez Scènes, plans et images clés.
Détection de cadre noir : Identifie les cadres noirs présents dans la vidéo.
Extraction d’images clés : Détecte les images clés stables dans une vidéo.
Déploiement de crédits : Identifie le début et la fin des crédits à la fin des émissions de télévision et des films.
Détection du type de plan éditorial : Marquage de plans en fonction de leur type (par exemple, plan large, plan moyen, gros plan, très gros plan, deux plans, plusieurs personnes, extérieur et intérieur, etc.). Pour plus d’informations, consultez Détection du type de plan éditorial.
Détection des personnes observées : détecte les personnes observées dans des vidéos et fournit des informations telles que l’emplacement de la personne dans la trame vidéo (à l’aide de zones englobantes) et l’horodatage exact (début, fin) et la confiance lorsqu’une personne apparaît. Pour plus d’informations, consultez Suivre des personnes dans une vidéo.
- Personne correspondante : correspond aux personnes qui ont été observées dans la vidéo avec les visages correspondants détectés. La correspondance entre les personnes observées et les visages contient un niveau de confiance.
- Vêtements détectés : détecte les types de vêtements de personnes apparaissant dans la vidéo et fournit des informations telles que des manches longues ou courtes, des pantalons longs ou courts et jupe ou robe. Les vêtements détectés sont associés aux personnes qui les portent et le timestamp exact (début, fin) ainsi qu’un niveau de confiance pour la détection sont fournis.
- Vêtements proposés : capture des images de vêtements proposées qui apparaissent dans une vidéo. Vous pouvez améliorer vos publicités ciblées à l’aide de l’aperçu sur les vêtements proposés. Pour plus d’informations sur la façon dont les images de vêtements proposées sont classées et comment obtenir les insights, consultez les vêtements proposés.
La détection d’objets détecte des objets uniques qui sont également suivis afin qu’ils retournent au frame qu’ils soient reconnus. Voir détection d’objets Azure AI Video Indexer
Détection d’ardoise : identifie les insights post-production suivants lors de l’indexation d’une vidéo à l’aide de l’option d’indexation avancée :
- Détection de clap avec extraction de métadonnées.
- Détection des modèles numériques, y compris les barres de couleurs.
- Détection d’ardoise sans texte, y compris la correspondance des scènes.
Pour obtenir des détails, consultez Détection d’ardoise.
Détection de logo textuel : correspond à un texte prédéfini spécifique à l’aide de l’OCR d’Azure AI Video Indexer. Par exemple, si un utilisateur a créé un logo textuel « Microsoft », différentes apparences du mot Microsoft seront détectées comme le logo « Microsoft ». Pour plus d’informations, consultez Détecter le logo textuel.

Modèles audio

Transcription audio : procède à la reconnaissance vocale dans 50 langues et permet les extensions. Pour plus d’informations, consultez Prise en charge de la langue dans Azure AI Video Indexer.
Détection de langue automatique : identifie la langue parlée dominante. Pour plus d’informations, consultez Prise en charge de la langue dans Azure AI Video Indexer. Si la langue ne peut pas être identifiée en toute confiance, Azure AI Video Indexer suppose que la langue parlée est l’anglais.
Identification et transcription de discours en plusieurs langues : Identifie la langue parlée dans les segments différents de l’audio. Il envoie chaque segment du fichier multimédia à transcrire, puis regroupe la transcription dans une transcription unifiée. Pour plus d’informations sur la transcription, consultez Transcription
Sous-titrage : Crée un sous-titrage dans trois formats : VTT, TTML, SRT.
Traitement en deux canaux : Détecte automatiquement, sépare la transcription et fusionne en une chronologie unique.
Réduction du bruit : Nettoie les enregistrements contenant du bruit ou de l’audio de téléphonie (en fonction des filtres Skype).
Personnalisation de la transcription (CRIS) : Entraîne des modèles de reconnaissance vocale personnalisés pour créer des transcriptions spécifiques au secteur. Pour plus d’informations, consultez Personnaliser un modèle de langage.
Énumération de l’orateur : Mappe et comprend quel orateur a prononcé tels mots et à quel moment. Seize intervenants peuvent être détectés dans un seul fichier audio.
Statistiques de l’orateur : Fournit des statistiques concernant les ratios de parole des orateurs.
Modération du contenu textuel : Détecte le texte explicite dans la transcription audio.
Détection d’émotions basée sur le texte : émotions telles que la joie, la tristesse, la colère et la peur qui ont été détectées via l’analyse de transcription.
Traduction : crée des traductions de la transcription audio en de nombreuses langues différentes. Pour plus d’informations, consultez Prise en charge de la langue dans Azure AI Video Indexer.
Détection des effets audio : détecte les effets audio suivants dans les segments non vocaux du contenu : alarme ou sirène, aboiement de chien, réactions de foule (acclamation, clapping et boolage), coups de feu ou explosion, rire, verre cassant et silence.

Les événements acoustiques détectés se trouvent dans le fichier de sous-titres. Vous pouvez télécharger le fichier à partir du site web Azure AI Video Indexer. Pour plus d’informations, consultez Détection des effets audio.

Notes

Le jeu complet d’événements est disponible uniquement lorsque vous choisissez Analyse audio avancée lors du chargement d’un fichier, dans la présélection de chargement. Par défaut, seul le silence est détecté.

Modèles audio et vidéo (plusieurs canaux)

Lors de l’indexation d’un canal, les résultats partiels pour ces modèles sont disponibles.

Extraction de mots-clés : Extrait les mots clés du texte visuel ou vocal.
Extraction des entités nommées : extrait des marques, des emplacements et des personnes à partir de la reconnaissance vocale et du texte visuel via le traitement en langage naturel (NLP).
Inférence de rubrique : extrait les rubriques en fonction de divers mots clés (par exemple, les mots clés « Stock Exchange », « Wall Street » retournent la rubrique « Économie »). Le modèle utilise trois ontologies différentes (IPTC, Wikipédia et l’ontologie de rubrique hiérarchique Video Indexer). Le modèle utilise la transcription (mots prononcés), le contenu OCR (texte visuel) et les célébrités reconnus dans la vidéo à l’aide du modèle de reconnaissance faciale Video Indexer.
Artefacts : Extrait un ensemble complet d’artefacts d’un « niveau suivant de détails » pour chacun des modèles.
Analyse des sentiments : Identifie les sentiments positifs, négatifs et neutres à partir de la reconnaissance vocale et visuelle du texte.

Comment bien démarrer avec Azure AI Video Indexer ?

Découvrez comment démarrer avec Azure AI Video Indexer.

Une fois que vous avez configuré, commencez à utiliser des insights et consultez d’autres guides pratiques.

Conformité, confidentialité et sécurité

Remarque

Le 11 juin 2020, Microsoft a annoncé qu’il ne vendra pas de technologie de reconnaissance faciale aux services de police des États-Unis tant qu’un règlement strict fondé sur les droits de l’homme n’aura pas été promulgué. Par conséquent, les clients ne doivent pas utiliser les fonctionnalités de reconnaissance faciale ni les fonctionnalités comprises dans l’offre Azure AI services comme Visage ou Video Indexer, s’ils représentent, ou autorisent l’utilisation de ces services par ou pour, un service de police des États-Unis.

Notes

L’accès aux fonctionnalités d’identification faciale, de personnalisation et de reconnaissance de la notoriété est limité en fonction des critères d’éligibilité et d’utilisation afin de prendre en charge nos principes d’IA responsable. Les fonctionnalités d’identification faciale, de personnalisation et de reconnaissance de la notoriété ne sont disponibles que pour les clients et partenaires managés par Microsoft. Utilisez le Formulaire d’admission de la reconnaissance faciale pour demander l’accès.

Vous devez vous conformer à toutes les lois applicables dans votre utilisation d’Azure AI Video Indexer, et vous ne pouvez pas utiliser Azure AI Video Indexer ou tout service Azure d’une manière qui enfreint les droits d’autres personnes, ou qui peut être dangereux pour d’autres personnes.

Avant de charger une vidéo/image dans Azure AI Video Indexer, vous devez disposer de tous les droits appropriés et juridiques pour utiliser la vidéo/image, y compris, si nécessaire par la loi, tous les consentements nécessaires des personnes (le cas échéant) dans la vidéo/image, pour l’utilisation, le traitement et le stockage de leurs données dans Azure AI Video Indexer et Azure. Certaines juridictions peuvent imposer des obligations légales spéciales pour la collecte, le traitement en ligne et le stockage de catégories de données particulières, comme des données biométriques. Avant d’utiliser Azure AI Video Indexer et Azure pour le traitement et le stockage de toutes les données soumises à des exigences légales particulières, vous devez vous assurer que votre utilisation est conforme à toutes les exigences légales qui peuvent s’appliquer à vous et à votre utilisation prévue.

Pour en savoir plus sur la conformité, la confidentialité et la sécurité dans le service Azure AI Video Indexer, visitez le Centre de confidentialité Microsoft. Pour connaître les obligations de Microsoft relatives à la confidentialité et les bonnes pratiques de gestion et de conservation de vos données, consultez la Déclaration de confidentialité, les Conditions d’utilisation des services en ligne (« OST ») et l’Avenant au traitement des données (« DPA ») de Microsoft. En utilisant le service Azure AI Video Indexer, vous consentez à être lié par les dispositions de l’OST, du DPA et de la Déclaration de confidentialité.

Partage via