Partager via


Obtenez des informations sur la détection de scènes, de plans et d'images clés

La détection de scènes détecte lorsqu’une scène change dans une vidéo en fonction des signaux visuels. Une scène montre un événement unique et a une série de captures connexes. Les captures sont une série d’images qui diffèrent par des repères visuels, comme des changements brusques ou progressifs dans le jeu de couleurs des cadres adjacents. Les métadonnées de capture incluent l’heure de début, l’heure de fin et une liste d’images clés dans la capture. Un image clé est un cadre d’une capture qui représente le mieux la capture.

Détection de scènes, de plans, et d'images clés : cas d'utilisation

  • Parcourez, gérez et modifiez facilement votre contenu vidéo en fonction de granularités variables.
  • Utilisez la détection de type de plan éditorial pour le montage de vidéos en clips ou en bandes-annonces, ou pour rechercher un style spécifique d'image-clé.

Détection de scène

Azure AI Video Indexer détermine quand une scène change dans la vidéo en fonction des signaux visuels. Une scène représente un événement unique composé d’une série de captures consécutives, qui sont sémantiquement liées.

Une miniature de la scène constitue la première image clé de sa capture sous-jacente.

Azure AI Video Indexer segmente une vidéo en scènes en fonction de la cohérence des couleurs entre les captures consécutives et récupère l’heure de début et de fin de chaque scène.

Les vidéos doivent contenir au moins trois scènes.

Détection de plan

Azure AI Video Indexer détermine quand une capture change dans la vidéo en fonction des indications visuelles. Il le fait en détectant les transitions abruptes et progressives dans le jeu de couleurs et d’autres caractéristiques visuelles des cadres adjacents. Les métadonnées de la capture incluent une heure de début et de fin, ainsi que la liste des images clés incluses dans cette capture. Les captures sont des images consécutives prises de la même caméra et en même temps.

Remarque

Il se peut qu'il y ait un espace entre les plans, qui comprend des trames faisant partie de la transition. Par conséquent, ces images ne sont pas considérées comme faisant partie de la capture.

Détection du type de plan éditorial des images clés

Le type de plan est déterminé sur la base de l'analyse de la première image clé de chaque plan. Les plans sont identifiés par l’échelle, la taille et l’emplacement des visages qui apparaissent dans leur première image clé.

La taille et l’échelle du plan sont déterminées en fonction de la distance entre l’appareil photo et les visages apparaissant dans l’image. Azure AI Video Indexer détecte les types de captures suivants à l’aide de ces propriétés :

  • Large : montre le corps tout entier d’une personne.
  • Moyen : montre le haut du corps et le visage d’une personne.
  • Gros plan : montre principalement le visage d’une personne.
  • Très gros plan : montre le visage d’une personne qui remplit l’écran.

Les types de plans peuvent également être déterminés par l’emplacement des personnages par rapport au centre de l’image. Cette propriété définit les types de captures suivants dans Azure AI Video Indexer :

  • Visage à gauche : une personne apparaît sur la gauche de l’image.
  • Visage au centre : une personne apparaît dans la partie centrale de l’image.
  • Visage à droite : une personne apparaît sur la droite de l’image.
  • Extérieur : une personne apparaît dans un décor extérieur.
  • Intérieur : une personne apparaît dans un décor intérieur.

Autres caractéristiques :

  • Deux plans : montre les visages de taille moyenne de deux personnes.
  • Plusieurs visages : plus de deux personnes.

Afficher le JSON d’aperçu via le portail web

Après avoir téléchargé et indexé une vidéo, téléchargez des insights au format JSON à partir du portail web.

  1. Sélectionnez l’onglet Bibliothèque .
  2. Sélectionnez le média souhaité.
  3. Sélectionnez Télécharger, puis sélectionnez Insights (JSON). Le fichier JSON s’ouvre dans un nouvel onglet de navigateur.
  4. Recherchez la paire de clés décrite dans l’exemple de réponse.

Utilisation de l’API

  1. Utilisez une requête Get Video Index . Passez &includeSummarizedInsights=false.
  2. Recherchez les paires de clés décrites dans l’exemple de réponse.

Exemple de réponse

"scenes": [
                    {
                        "id": 1,
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:09.1333333",
                                "start": "0:00:00",
                                "end": "0:00:09.1333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "instances": [
                            {
                                "adjustedStart": "0:00:09.1333333",
                                "adjustedEnd": "0:00:10.8",
                                "start": "0:00:09.1333333",
                                "end": "0:00:10.8"
                            }
                        ]
                    },
                    {
                        "id": 3,
                        "instances": [
                            {
                                "adjustedStart": "0:00:10.8",
                                "adjustedEnd": "0:00:26.9333333",
                                "start": "0:00:10.8",
                                "end": "0:00:26.9333333"
                            }
                        ]
                    }...
                    {
                        "id": 31,
                        "instances": [
                            {
                                "adjustedStart": "0:18:45",
                                "adjustedEnd": "0:18:50.2",
                                "start": "0:18:45",
                                "end": "0:18:50.2"
                            }
                        ]
                    }
                ],
                "shots": [
                    {
                        "id": 1,
                        "tags": [
                            "Wide",
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 1,
                                "instances": [
                                    {
                                        "thumbnailId": "60152925-0e6d-48cf-be33-aa6c00dfb334",
                                        "adjustedStart": "0:00:00.1666667",
                                        "adjustedEnd": "0:00:00.2",
                                        "start": "0:00:00.1666667",
                                        "end": "0:00:00.2"
                                    }
                                ]
                            },
                            {
                                "id": 2,
                                "instances": [
                                    {
                                        "thumbnailId": "f1a09cdf-b42b-45f5-bc69-5292d1216e50",
                                        "adjustedStart": "0:00:00.2333333",
                                        "adjustedEnd": "0:00:00.2666667",
                                        "start": "0:00:00.2333333",
                                        "end": "0:00:00.2666667"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:01.9333333",
                                "start": "0:00:00",
                                "end": "0:00:01.9333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "tags": [
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 3,
                                "instances": [
                                    {
                                        "thumbnailId": "b17774d0-41cf-4174-9c41-6bc2f17c86e2",
                                        "adjustedStart": "0:00:02",
                                        "adjustedEnd": "0:00:02.0333333",
                                        "start": "0:00:02",
                                        "end": "0:00:02.0333333"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:01.9333333",
                                "adjustedEnd": "0:00:02.9666667",
                                "start": "0:00:01.9333333",
                                "end": "0:00:02.9666667"
                            }
                        ]
                    }...

Télécharger les images clés avec l’API

Pour télécharger chaque image clé, utilisez les ID d’images clés avec une requête d’API Get Thumbnails .

Avertissement

N’utilisez pas de données directement à partir du dossier artefacts à des fins de production. Les artefacts sont des sorties intermédiaires du processus d’indexation et sont des sorties brutes de différents moteurs IA qui analysent les vidéos. Le schéma des artefacts peut changer au fil du temps.

Importante

Lisez la vue d’ensemble de la note de transparence pour toutes les fonctionnalités VI. Chaque analyse dispose également de sa propre note de transparence.

Remarques sur la détection des scènes, des plans et des images clés

  • Le détecteur fonctionne le mieux sur les fichiers multimédias qui ont des plans et des scènes dans eux.
  • Si la vidéo est filmée avec une caméra qui ne se déplace jamais, la segmentation de la capture fonctionne mal, et les images clés peuvent ne pas être représentatives.
  • Les images clés sont sélectionnées en tenant compte du niveau de flou des images. Si la plupart du plan est flou, par exemple en raison d'un mouvement, l’image clé peut également être floue.
  • Les vidéos avec une qualité visuelle médiocre produisent des résultats médiocres.
  • L’heure de chaque capture/scène/image clé peut être décalée (moins d’une seconde).

Composants de scène, de plan et d'image clé

Aucun composant défini.

Exemple de code

Voir tous les exemples pour VI