Obter insights de detecção facial observada e de rostos correspondentes

2025-06-10

Importante

O acesso a recursos de identificação facial, personalização e reconhecimento de celebridades é limitado com base em critérios de qualificação e uso para dar suporte aos nossos princípios de IA responsável. Os recursos de identificação facial, personalização e reconhecimento de celebridades só estão disponíveis para clientes e parceiros gerenciados da Microsoft. Use o Formulário de admissão de reconhecimento facial para solicitar acesso.

A detecção facial observada e rostos correspondentes detectam e correspondem automaticamente as pessoas em arquivos de mídia. A detecção de pessoas observadas e os rostos correspondentes podem ser configurados para exibir insights sobre as pessoas, suas vestimentas e o intervalo exato em que aparecem.

No portal da Web, os insights resultantes são exibidos em uma lista categorizada na guia Insights. A guia inclui uma miniatura de cada pessoa e sua ID. Ao clicar na miniatura de uma pessoa, é exibida a pessoa correspondente (o rosto correspondente no insight de pessoas). Os insights também são gerados em uma lista categorizada em um arquivo JSON. O arquivo inclui a ID de miniatura da pessoa, a porcentagem de tempo que aparece no arquivo, um link wiki (se for uma celebridade) e o nível de confiança.

Casos de uso de detecção facial observada, roupas detectadas e rostos correspondentes

Melhorar a eficiência por meio da pesquisa profunda de pessoas correspondentes em arquivos organizacionais para obter informações sobre celebridades específicas, por exemplo, ao criar promoções e trailers.
Maior eficiência ao criar reportagens, por exemplo, procurando pessoas vestindo uma camisa vermelha nos arquivos de um jogo de futebol em uma agência de notícias ou esportes.
Criar um resumo de um vídeo longo, como uma prova judicial da aparição de uma pessoa específica em um vídeo, usando a ID da mesma pessoa detectada.
Aprender e analisar tendências ao longo do tempo, por exemplo, como os clientes se movem pelos corredores de um shopping ou quanto tempo passam nas filas do caixa.

Os recursos de rostos correspondentes e roupas detectadas estão disponíveis ao indexar seu arquivo escolhendo a predefinição Avançado ->Indexação de vídeo + áudio.

Exibir o JSON do insight com o portal da Web

Depois de carregar e indexar um vídeo, baixe os insights no formato JSON do portal online.

Selecione a guia Biblioteca.
Selecione a mídia desejada.
Selecione Baixar e selecione Insights (JSON). O arquivo JSON é aberto em uma nova guia do navegador.
Localize o par de chaves descrito na resposta de exemplo.

Usar a API

Use uma solicitação Obter Índice de Vídeo . Passe &includeSummarizedInsights=false.
Localize os pares de chaves descritos na resposta de exemplo.

Exemplo de resposta

"observedPeople": [
    {
        "id": 1,
        "thumbnailId": "d09ad62e-e0a4-42e5-8ca9-9a640c686596",
        "clothing": [
            {
                "id": 1,
                "type": "sleeve",
                "properties": {
                    "length": "short"
                }
            },
            {
                "id": 2,
                "type": "pants",
                "properties": {
                    "length": "short"
                }
            }
        ],
        "matchingFace": {
            "id": 1310,
            "confidence": 0.3819
        },
        "instances": [
            {
                "adjustedStart": "0:00:34.8681666",
                "adjustedEnd": "0:00:36.0026333",
                "start": "0:00:34.8681666",
                "end": "0:00:36.0026333"
            },
            {
                "adjustedStart": "0:00:36.6699666",
                "adjustedEnd": "0:00:36.7367",
                "start": "0:00:36.6699666",
                "end": "0:00:36.7367"
            },
            {
                "adjustedStart": "0:00:37.2038333",
                "adjustedEnd": "0:00:39.6729666",
                "start": "0:00:37.2038333",
                "end": "0:00:39.6729666"
            }
        ]
    }
]

Importante

Leia a visão geral da nota de transparência de todos os recursos VI. Cada insight também tem sua própria nota de transparência.

Notas sobre a detecção facial observada e rostos correspondentes

As pessoas geralmente não são detectadas se parecerem pequenas (a altura mínima da pessoa é de 100 pixels).
O tamanho máximo do quadro é FHD (alta definição).
Vídeo de baixa qualidade (por exemplo, condições de iluminação escura) pode afetar os resultados da detecção.
Taxa de quadros recomendada: pelo menos 30 FPS.
A entrada de vídeo recomendada deve conter até 10 pessoas em um quadro único. O recurso poderia funcionar com mais pessoas em um quadro único, mas o resultado da detecção recupera até 10 pessoas em um quadro com a maior confiança de detecção.
Pessoas com roupas semelhantes: (por exemplo, pessoas usam uniformes, jogadores em jogos esportivos) podem ser detectadas como a mesma pessoa com o mesmo número de identificação.
Obstrução: pode haver erros onde há obstruções (cena/a própria pessoa ou obstruções por outras pessoas).
Pose: as faixas podem ser divididas devido a diferentes poses (de frente/de costas)
Como a detecção de roupas depende da visibilidade do corpo da pessoa, a precisão é maior se a pessoa estiver totalmente visível. Pode haver erros quando uma pessoa está sem roupas. Nesse cenário ou em outros de baixa visibilidade, os resultados podem ser dados como calças longas e saia ou vestido.

Componentes sobre a detecção facial observada e rostos correspondentes

Componente	Definição
Arquivo de origem	O usuário carrega o arquivo de origem para indexação.
Detecção	O arquivo de mídia é rastreado para detectar pessoas observadas e suas roupas. Por exemplo, camisa com mangas compridas, vestido ou calça comprida. Para ser detectado, a parte superior do corpo da pessoa deve aparecer completamente na mídia.
Agrupamento local	Os rostos identificados e observados são filtrados em grupos locais. Se uma pessoa for detectada mais de uma vez, mais instâncias de rostos observados serão criadas para essa pessoa.
Correspondência e classificação	As instâncias de pessoas observadas são correspondentes aos rostos. Se houver uma celebridade conhecida, a pessoa observada recebe seu nome. Qualquer número de instâncias de pessoas observadas pode gerar correspondência ao mesmo rosto.
Valor de confiança	O nível de confiança estimado de cada pessoa observada é calculado como um intervalo de 0 a 1. A pontuação de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82.

Código de exemplo

Veja todas as amostras para VI

Documentação do Video Indexer de IA do Azure

Compartilhar via