Obtenir des insights sur la détection des personnes observées et les visages mis en correspondance

Article
10/09/2024

Détection des personnes observées, visages mis en correspondance, vêtements détectés

Important

L’accès aux fonctionnalités d’identification faciale, de personnalisation et de reconnaissance de la notoriété est limité en fonction des critères d’éligibilité et d’utilisation afin de prendre en charge nos principes d’IA responsable. Les fonctionnalités d’identification faciale, de personnalisation et de reconnaissance de la notoriété ne sont disponibles que pour les clients et partenaires managés par Microsoft. Utilisez le Formulaire d’admission de la reconnaissance faciale pour demander l’accès.

La détection des personnes observées et les visages mis en correspondance détectent et correspondent automatiquement aux personnes dans les fichiers multimédias. La détection des personnes observées et les visages mis en correspondance peuvent être définies pour afficher des insights sur les personnes, leurs vêtements et la période exacte de leur apparence.

Dans le portail web, les insights résultants sont affichés dans une liste catégorisée sous l’onglet Insights, l’onglet inclut une miniature de chaque personne et de son ID. Le fait de cliquer sur la miniature d’une personne affiche la personne correspondante (visage correspondant dans l’insight Contacts). Les insights sont également générés dans une liste catégorisée dans un fichier JSON qui inclut l’ID miniature de la personne, le pourcentage de temps qui apparaît dans le fichier, le lien Wiki (s’il s’agit d’une célébrité) et le niveau de confiance.

Détection des personnes observées, vêtements détectés et cas d’usage des visages mis en correspondance

Amélioration de l’efficacité en recherchant en profondeur les personnes mises en correspondance dans les archives organisationnelles pour obtenir des informations sur des célébrités spécifiques, par exemple lors de la création de promotions et de bandes-annonces.
Amélioration de l’efficacité lors de la création d’histoires de caractéristiques, par exemple, à la recherche de personnes portant une chemise rouge dans les archives d’un jeu de football à une agence News ou Sports.
Créez un résumé d’une longue vidéo, par exemple pour prouver dans le cadre d’une procédure judiciaire qu’une personne déterminée apparaît bien dans une vidéo, à partir de l’ID de la personne détectée.
Découvrez et analysez des tendances dans le temps, par exemple comment les clients se déplacent dans les allées d’un centre commercial ou leur durée d’attente aux caisses.

Les visages mis en correspondance et les fonctionnalités de vêtements détectées sont disponibles lors de l’indexation de votre fichier en choisissant la présélection d’indexation advanced ->Video + audio.

Afficher le json d’insight avec le portail web

Une fois que vous avez chargé et indexé une vidéo, les insights sont disponibles au format JSON pour téléchargement à l’aide du portail web.

Sélectionnez l’onglet Bibliothèque .
Sélectionnez le média avec lequel vous souhaitez travailler.
Sélectionnez Télécharger et Insights (JSON). Le fichier JSON s’ouvre dans un nouvel onglet de navigateur.
Recherchez la paire de clés décrite dans l’exemple de réponse.

Utilisation de l’API

Utilisez la requête Get Video Index . Nous vous recommandons de passer &includeSummarizedInsights=false.
Recherchez les paires de clés décrites dans l’exemple de réponse.

Exemple de réponse

"observedPeople": [
    {
        "id": 1,
        "thumbnailId": "d09ad62e-e0a4-42e5-8ca9-9a640c686596",
        "clothing": [
            {
                "id": 1,
                "type": "sleeve",
                "properties": {
                    "length": "short"
                }
            },
            {
                "id": 2,
                "type": "pants",
                "properties": {
                    "length": "short"
                }
            }
        ],
        "matchingFace": {
            "id": 1310,
            "confidence": 0.3819
        },
        "instances": [
            {
                "adjustedStart": "0:00:34.8681666",
                "adjustedEnd": "0:00:36.0026333",
                "start": "0:00:34.8681666",
                "end": "0:00:36.0026333"
            },
            {
                "adjustedStart": "0:00:36.6699666",
                "adjustedEnd": "0:00:36.7367",
                "start": "0:00:36.6699666",
                "end": "0:00:36.7367"
            },
            {
                "adjustedStart": "0:00:37.2038333",
                "adjustedEnd": "0:00:39.6729666",
                "start": "0:00:37.2038333",
                "end": "0:00:39.6729666"
            }
        ]
    }
]

Important

Il est important de lire la vue d’ensemble de la note de transparence pour toutes les fonctionnalités vi. Chaque insight a également des notes de transparence de ses propres :

Remarques sur la détection des personnes et les visages mis en correspondance

Les personnes ne sont généralement pas détectées si elles apparaissent petites (la hauteur minimale de la personne est de 100 pixels).
La taille maximale d’images est de haute définition (FHD).
Une vidéo de faible qualité (par exemple, des conditions d’éclairage sombre) peut affecter les résultats de la détection.
La fréquence d’images recommandée est de 30 i/s, au minimum.
Dans une entrée vidéo, une même image ne doit pas contenir plus de 10 personnes. La fonctionnalité peut gérer la présence d’un plus grand nombre de personnes dans une même image, mais la détection ne peut pas extraire plus de 10 personnes d’une image avec le niveau de confiance de détection le plus élevé.
Les personnes ayant des vêtements similaires : (par exemple, les personnes portent des uniformes, des joueurs dans des jeux sportifs) peuvent être détectées comme la même personne avec le même numéro d’identification.
Obstruction : il peut y avoir des erreurs où il y a des obstacles (scène/auto ou obstructions par d’autres personnes).
Pose : Les pistes peuvent être fractionnées en raison de différentes poses (arrière/avant)
Étant donné que la détection des vêtements dépend de la visibilité du corps de la personne, la précision est plus élevée si une personne est entièrement visible. Il peut y avoir des erreurs lorsqu’une personne est sans vêtements. Dans ce scénario ou d’autres personnes d’une mauvaise visibilité, les résultats peuvent être donnés comme des pantalons longs et jupes ou robes.

Détection des personnes observées et composants des visages mis en correspondance

Composant	Définition
Fichier source	L’utilisateur charge le fichier source pour l’indexation.
Détection	Le fichier multimédia est suivi pour détecter les personnes observées et leurs vêtements. Par exemple, chemise avec manches longues, robes ou pantalons longs. Pour être détecté, le corps supérieur complet de la personne doit apparaître dans le média.
Regroupement local	Les visages observés identifiés sont filtrés en groupes locaux. Si une personne est détectée plusieurs fois, plusieurs instances de visages observées sont créées pour cette personne.
Correspondance et classification	Les instances de personnes observées sont mises en correspondance avec les visages. S’il y a une célébrité connue, la personne observée reçoit son nom. N’importe quel nombre d’instances de personnes observées peuvent être mises en correspondance avec le même visage.
Valeur de confiance	Le niveau de confiance estimé de chaque personne observée est calculé sous la forme d’une plage de 0 à 1. Le score de confiance représente la certitude dans la précision du résultat. Par exemple, une certitude de 82 % est représentée sous la forme d’un score de 0,82.

Exemple de code

Voir tous les exemples pour VI

Partager via