Présentation d’Azure AI Video Indexer

Article
03/22/2024

Important

En raison de l’annonce de mise hors service d’Azure Media Services, Azure AI Video Indexer annonce les ajustements des fonctionnalités d’Azure AI Video Indexer. Consultez les modifications relatives à la mise hors service Azure Media Service (AMS) pour comprendre ce que cela signifie pour votre compte Azure AI Video Indexer. Consultez le guide de préparation de la mise hors service AMS : Mise à jour et migration vi.

Azure AI Video Indexer est une application cloud, qui fait partie des services Azure AI, basés sur des services Azure AI (tels que Visage, Traducteur, Azure AI Vision et Speech). Elle vous permet d’extraire les insights de vos vidéos à l’aide de modèles vidéo et audio Azure AI Video Indexer.

Azure AI Video Indexer analyse le contenu vidéo et audio en exécutant plus de 30 modèles d’IA qui génèrent de riches insights. Voici une illustration de l’analyse audio et vidéo effectuée par Azure AI Video Indexer en arrière-plan :

Pour commencer à extraire des insights avec Azure AI Video Indexer, consultez la section Comment démarrer.

Que puis-je faire avec Azure AI Video Indexer ?

Les insights d’Azure AI Video Indexer peuvent être appliqués à de nombreux scénarios :

Recherche profonde : Utilisez les insights extraits de la vidéo pour améliorer l’expérience de recherche au sein d’une bibliothèque vidéo. Par exemple, l’indexation des visages et des mots prononcés peut permettre de trouver les moments spécifiques d’une vidéo où une personne a prononcé certains mots ou le moment où deux personnes se sont vues. La recherche basée sur de tels aperçus de vidéos s’applique aux agences de presse, aux instituts de formation, aux diffuseurs, aux propriétaires de contenu de divertissement, aux LOB d’entreprise et d’une façon générale à n’importe quel secteur d’activité possédant une bibliothèque vidéo au sein de laquelle les utilisateurs doivent faire des recherches.
Création de contenu : créez des bandes-annonces, des séquences de meilleurs moments, du contenu de réseaux sociaux ou des clips d’actualité basés sur des insights Azure AI Video Indexer extraits de votre contenu. Les images clés, les marqueurs de scènes et les timestamps pour les apparences des étiquettes et des personnes rendent le processus de création beaucoup plus lisse et plus simple, vous permettant d’accéder facilement aux parties de la vidéo dont vous avez besoin lors de la création du contenu.
Accessibilité : si vous souhaitez que votre contenu soit disponible pour les personnes handicapées ou qu’il soit distribué dans différentes régions en différentes langues, vous pouvez utiliser la transcription et la traduction fournies par Azure AI Video Indexer dans plusieurs langues.
Monétisation : Azure AI Video Indexer peut aider à augmenter la valeur des vidéos. Par exemple, les secteurs d’activité s’appuyant sur le chiffre d’affaires publicitaire (es médias d’information, les médias sociaux, et ainsi de suite), peuvent fournir des publicités pertinentes en utilisant les insights extraits en tant que signaux supplémentaires pour le serveur publicitaire.
Modération du contenu : Utilisez des modèles de modération de contenu textuel et visuel afin de protéger vos utilisateurs contre le contenu inapproprié et de vous assurer que le contenu que vous publiez correspond aux valeurs de votre organisation. Vous pouvez bloquer automatiquement certaines vidéos ou alerter vos utilisateurs au sujet du contenu.
Suggestions : les insights vidéo peuvent être utilisés pour améliorer l’engagement utilisateur en soulignant les moments intéressants d’une vidéo. En marquant chaque vidéo avec des métadonnées supplémentaires, vous pouvez recommander aux utilisateurs les vidéos les plus pertinentes et mettre en évidence la partie de la vidéo qui répond à leurs besoins.

Fonctionnalités d’IA vidéo/audio

La liste suivante présente les informations que vous pouvez extraire de vos fichiers vidéo/audio à l’aide des fonctionnalités d’IA vidéo et audio Azure AI Video Indexer (modèles).

Sauf indication contraire, un modèle est généralement disponible.

Modèles vidéo

Détection de visage : Détecte et regroupe les visages qui apparaissent dans la vidéo.
Identification des célébrités : identifie plus d'un million de célébrités, comme des dirigeants mondiaux, des acteurs, des artistes, des athlètes, des chercheurs, des chefs d'entreprise et des leaders technologiques du monde entier. Les données relatives à ces célébrités figurent également sur plusieurs sites Web (tels que IMDB, Wikipedia, etc.).
Identification des visages basée sur le compte : Effectue l’apprentissage d’un modèle pour un compte spécifique. Il reconnaît ensuite les visages dans la vidéo en fonction du modèle formé. Pour plus d’informations, consultez Personnaliser un modèle de personne depuis le site web Azure AI Video Indexer et Personnaliser un modèle de personne avec l’API Azure AI Video Indexer.
Extraction de miniatures pour les visages : Identifie le meilleur visage capturé dans chaque groupe de visages (en fonction de la qualité, de la taille et de la position frontale) et l’extrait en tant qu’actif d’image.
Reconnaissance optique de caractères (OCR) : extrait du texte à partir d’images telles que des images, des panneaux de rue et des produits dans des fichiers multimédias pour créer des insights.
Modération du contenu visuel : Détecte les contenus choquants et/ou destinés aux adultes.
Identification des étiquettes : Identifie les objets visuels et les actions affichés.
Segmentation de scène : Détermine quand une scène change dans la vidéo via des signaux visuels. Une scène représente un événement unique et est composée d’une série de captures consécutives, qui sont sémantiquement liées.
Détection de plan : Détermine quand un plan change dans la vidéo via des signaux visuels. Un plan est une série d’images prises par la même caméra. Pour plus d’informations, consultez Scènes, plans et images clés.
Détection de cadre noir : Identifie les cadres noirs présents dans la vidéo.
Extraction d’images clés : Détecte les images clés stables dans une vidéo.
Déploiement de crédits : Identifie le début et la fin des crédits à la fin des émissions de télévision et des films.
Détection du type de plan éditorial : Marquage de plans en fonction de leur type (par exemple, plan large, plan moyen, gros plan, très gros plan, deux plans, plusieurs personnes, extérieur et intérieur, etc.). Pour plus d’informations, consultez Détection du type de plan éditorial.
Suivi des personnes observées (préversion) : détecte les personnes observées dans les vidéos et fournit des informations telle que la position de la personne dans le cadre de la vidéo (en utilisant des zones englobantes) et le timestamp exact (début, fin) ainsi que la confiance quand une personne apparaît. Pour plus d’informations, consultez Suivre des personnes dans une vidéo.
- Vêtements détectés sur les personnes (préversion) : détecte le type de vêtement des personnes apparaissant dans la vidéo et fournit des informations pour décrire, par exemple, s’il s’agit de manches longues ou courtes, de pantalons longs ou courts, et d’une jupe ou d’une robe. Les vêtements détectés sont associés aux personnes qui les portent et le timestamp exact (début, fin) ainsi qu’un niveau de confiance pour la détection sont fournis. Pour plus d’informations, consultez les vêtements détectés.
- Vêtements proposés (préversion) : capture les images de vêtements proposées apparaissant dans une vidéo. Vous pouvez améliorer vos publicités ciblées à l’aide de l’aperçu sur les vêtements proposés. Pour plus d’informations sur la façon dont les images de vêtements proposées sont classées et comment obtenir les insights, consultez les vêtements proposés.
Personne correspondante (préversion) : correspondance entre les personnes observées dans la vidéo et les visages correspondants détectés. La correspondance entre les personnes observées et les visages contient un niveau de confiance.
La détection d’objets détecte des objets uniques qui sont également suivis afin qu’ils retournent au frame qu’ils soient reconnus. Voir détection d’objets Azure AI Video Indexer
Détection d’ardoise (préversion) : identifie les insights post-production suivants lors de l’indexation d’une vidéo à l’aide de l’option d’indexation avancée :
- Détection de clap avec extraction de métadonnées.
- Détection des modèles numériques, y compris les barres de couleurs.
- Détection d’ardoise sans texte, y compris la correspondance des scènes.
Pour obtenir des détails, consultez Détection d’ardoise.
Détection de logo textuel (préversion) : correspond à un texte prédéfini spécifique à l’aide de l’OCR Azure AI Video Indexer. Par exemple, si un utilisateur a créé un logo textuel « Microsoft », différentes apparences du mot Microsoft seront détectées comme le logo « Microsoft ». Pour plus d’informations, consultez Détecter le logo textuel.

Modèles audio

Transcription audio : procède à la reconnaissance vocale dans 50 langues et permet les extensions. Pour plus d’informations, consultez Prise en charge de la langue dans Azure AI Video Indexer.
Détection de langue automatique : identifie la langue parlée dominante. Pour plus d’informations, consultez Prise en charge de la langue dans Azure AI Video Indexer. Si la langue ne peut pas être identifiée en toute confiance, Azure AI Video Indexer suppose que la langue parlée est l’anglais. Pour plus d'informations, voir Modèle d’identification de langues.
Identification et transcription de discours en plusieurs langues : Identifie la langue parlée dans les segments différents de l’audio. Il envoie chaque segment du fichier multimédia à transcrire, puis regroupe la transcription dans une transcription unifiée. Pour plus d’informations, consultez Identifier et transcrire automatiquement un contenu multilingue.
Sous-titrage : Crée un sous-titrage dans trois formats : VTT, TTML, SRT.
Traitement en deux canaux : Détecte automatiquement, sépare la transcription et fusionne en une chronologie unique.
Réduction du bruit : Nettoie les enregistrements contenant du bruit ou de l’audio de téléphonie (en fonction des filtres Skype).
Personnalisation de la transcription (CRIS) : Entraîne des modèles de reconnaissance vocale personnalisés pour créer des transcriptions spécifiques au secteur. Pour plus d’informations, consultez Personnaliser un modèle de langue depuis le site web Azure AI Video Indexer et Personnaliser un modèle de langue avec l’API Azure AI Video Indexer.
Énumération de l’orateur : Mappe et comprend quel orateur a prononcé tels mots et à quel moment. Seize intervenants peuvent être détectés dans un seul fichier audio.
Statistiques de l’orateur : Fournit des statistiques concernant les ratios de parole des orateurs.
Modération du contenu textuel : Détecte le texte explicite dans la transcription audio.
Détection d’émotions basée sur le texte : émotions telles que la joie, la tristesse, la colère et la peur qui ont été détectées via l’analyse de transcription.
Traduction : crée des traductions de la transcription audio en de nombreuses langues différentes. Pour plus d’informations, consultez Prise en charge de la langue dans Azure AI Video Indexer.
Détection des effets audio (préversion) : Détecte les effets audio suivants dans les segments non vocaux du contenu : alarme ou sirène, aboiement de chien, réactions de la foule (acclamations, applaudissements et huées), coup de feu ou explosion, rire, bris de glace et silence.

Les événements acoustiques détectés se trouvent dans le fichier de sous-titres. Vous pouvez télécharger le fichier à partir du site web Azure AI Video Indexer. Pour plus d’informations, consultez Détection des effets audio.

Notes

Le jeu complet d’événements est disponible uniquement lorsque vous choisissez Analyse audio avancée lors du chargement d’un fichier, dans la présélection de chargement. Par défaut, seul le silence est détecté.

Modèles audio et vidéo (plusieurs canaux)

Lors de l’indexation d’un canal, les résultats partiels pour ces modèles sont disponibles.

Extraction de mots-clés : Extrait les mots clés du texte visuel ou vocal.
Extraction des entités nommées : extrait des marques, des emplacements et des personnes à partir de la reconnaissance vocale et du texte visuel via le traitement en langage naturel (NLP).
Inférence de rubrique : extrait les rubriques en fonction de divers mots clés (par exemple, les mots clés « Stock Exchange », « Wall Street » retournent la rubrique « Économie »). Le modèle utilise trois ontologies différentes (IPTC, Wikipédia et l’ontologie de rubrique hiérarchique Video Indexer). Le modèle utilise la transcription (mots prononcés), le contenu OCR (texte visuel) et les célébrités reconnus dans la vidéo à l’aide du modèle de reconnaissance faciale Video Indexer.
Artefacts : Extrait un ensemble complet d’artefacts d’un « niveau suivant de détails » pour chacun des modèles.
Analyse des sentiments : Identifie les sentiments positifs, négatifs et neutres à partir de la reconnaissance vocale et visuelle du texte.

Comment bien démarrer avec Azure AI Video Indexer ?

Découvrez comment démarrer avec Azure AI Video Indexer.

Une fois que vous avez fini la configuration, commencez à utiliser des insights et consultez d’autres guides pratiques.

Conformité, confidentialité et sécurité

Remarque

Le 11 juin 2020, Microsoft a annoncé qu’il ne vendra pas de technologie de reconnaissance faciale aux services de police des États-Unis tant qu’un règlement strict fondé sur les droits de l’homme n’aura pas été promulgué. Par conséquent, les clients ne doivent pas utiliser les fonctionnalités de reconnaissance faciale ni les fonctionnalités comprises dans l’offre Azure AI services comme Visage ou Video Indexer, s’ils représentent, ou autorisent l’utilisation de ces services par ou pour, un service de police des États-Unis.

Notes

L’accès aux fonctionnalités d’identification faciale, de personnalisation et de reconnaissance de la notoriété est limité en fonction des critères d’éligibilité et d’utilisation afin de prendre en charge nos principes d’IA responsable. Les fonctionnalités d’identification faciale, de personnalisation et de reconnaissance de la notoriété ne sont disponibles que pour les clients et partenaires managés par Microsoft. Utilisez le Formulaire d’admission de la reconnaissance faciale pour demander l’accès.

Il est important de vous rappeler que vous devez vous conformer à toutes les lois applicables dans le cadre de votre utilisation du service Azure AI Video Indexer, et que vous n’êtes pas autorisé à utiliser celui-ci ou tout autre service Azure d’une façon qui porte atteinte aux droits d’autrui ou qui soit préjudiciable pour autrui.

Avant de charger une vidéo ou une image vers le service Azure AI Video Indexer, vous devez disposer de tous les droits appropriés pour utiliser la vidéo ou l’image, y compris, lorsque cela est requis par la Loi, avoir obtenu tous les consentements nécessaires de chaque personne (le cas échéant) apparaissant dans la vidéo ou l’image, pour autoriser l’utilisation, le traitement et le stockage de leurs données dans le service Azure AI Video Indexer et Azure. Certaines juridictions peuvent imposer des obligations légales spéciales pour la collecte, le traitement en ligne et le stockage de catégories de données particulières, comme des données biométriques. Avant d’utiliser le service Azure AI Video Indexer et Azure pour le traitement et le stockage de données soumises à des obligations légales spéciales, vous devez vous assurer que vous vous conformez à toutes les obligations légales applicables.

Pour en savoir plus sur la conformité, la confidentialité et la sécurité dans le service Azure AI Video Indexer, visitez le Centre de confidentialité Microsoft. Pour connaître les obligations de Microsoft relatives à la confidentialité et les bonnes pratiques de gestion et de conservation de vos données, consultez la Déclaration de confidentialité, les Conditions d’utilisation des services en ligne (« OST ») et l’Avenant au traitement des données (« DPA ») de Microsoft. En utilisant le service Azure AI Video Indexer, vous consentez à être lié par les dispositions de l’OST, du DPA et de la Déclaration de confidentialité.