Compartilhar via


Obtenha detecção de pessoas observadas e insights de rostos correspondentes

Detecção de pessoas observadas, rostos combinados, roupas detectadas

Importante

O acesso a recursos de identificação facial, personalização e reconhecimento de celebridades é limitado com base em critérios de qualificação e uso para dar suporte aos nossos princípios de IA Responsável. Os recursos de identificação facial, personalização e reconhecimento de celebridades só estão disponíveis para clientes e parceiros gerenciados da Microsoft. Use o Formulário de admissão de reconhecimento facial para solicitar acesso.

A detecção de pessoas observadas e rostos correspondentes detectam e correspondem automaticamente pessoas em arquivos de mídia. A detecção de pessoas observadas e rostos correspondentes podem ser configurados para exibir informações sobre as pessoas, suas roupas e o período exato de sua aparência.

No portal da Web, os insights resultantes são exibidos em uma lista categorizada na guia Insights, a guia inclui uma miniatura de cada pessoa e sua ID. Clicar na miniatura de uma pessoa exibe a pessoa correspondente (o rosto correspondente no insight de pessoas). Os insights também são gerados em uma lista categorizada em um arquivo JSON que inclui o ID da miniatura da pessoa, a porcentagem de tempo que aparece no arquivo, o link do Wiki (se for uma celebridade) e o nível de confiança.

Casos de uso de detecção de pessoas observadas, roupas detectadas e rostos correspondentes

  • Melhorar a eficiência por meio da pesquisa profunda de pessoas correspondentes em arquivos organizacionais para obter informações sobre celebridades específicas, por exemplo, ao criar promoções e trailers.
  • Maior eficiência ao criar reportagens, por exemplo, procurando pessoas vestindo uma camisa vermelha nos arquivos de um jogo de futebol em uma agência de notícias ou esportes.
  • Criar um resumo de um vídeo longo, como uma prova judicial da aparição de uma pessoa específica em um vídeo, usando a ID da mesma pessoa detectada.
  • Aprender e analisar tendências ao longo do tempo, por exemplo, como os clientes se movem pelos corredores de um shopping ou quanto tempo passam nas filas do caixa.

Os rostos correspondentes e os recursos de vestuário detectados estão disponíveis ao indexar seu arquivo escolhendo a predefinição Avançado ->Vídeo + indexação de áudio.

Exibir o JSON do insight com o portal da Web

Depois de carregar e indexar um vídeo, os insights estarão disponíveis no formato JSON para download usando o portal da Web.

  1. Selecione a guia Biblioteca.
  2. Selecione a mídia com a qual deseja trabalhar.
  3. Selecione Baixar e o JSON (Insights). O arquivo JSON é aberto em uma nova guia do navegador.
  4. Procure o par de chaves descrito na resposta de exemplo.

Usar a API

  1. Use a solicitação Obter índice de vídeo. Recomendamos passar &includeSummarizedInsights=false.
  2. Procure os pares de chaves descritos na resposta de exemplo.

Exemplo de resposta

"observedPeople": [
    {
        "id": 1,
        "thumbnailId": "d09ad62e-e0a4-42e5-8ca9-9a640c686596",
        "clothing": [
            {
                "id": 1,
                "type": "sleeve",
                "properties": {
                    "length": "short"
                }
            },
            {
                "id": 2,
                "type": "pants",
                "properties": {
                    "length": "short"
                }
            }
        ],
        "matchingFace": {
            "id": 1310,
            "confidence": 0.3819
        },
        "instances": [
            {
                "adjustedStart": "0:00:34.8681666",
                "adjustedEnd": "0:00:36.0026333",
                "start": "0:00:34.8681666",
                "end": "0:00:36.0026333"
            },
            {
                "adjustedStart": "0:00:36.6699666",
                "adjustedEnd": "0:00:36.7367",
                "start": "0:00:36.6699666",
                "end": "0:00:36.7367"
            },
            {
                "adjustedStart": "0:00:37.2038333",
                "adjustedEnd": "0:00:39.6729666",
                "start": "0:00:37.2038333",
                "end": "0:00:39.6729666"
            }
        ]
    }
]

Importante

É importante ler a visão geral da nota de transparência para todos os recursos do VI. Cada insight também tem suas próprias notas de transparência:

Detecção de pessoas observadas e notas de rostos correspondentes

  • As pessoas geralmente não são detectadas se parecerem pequenas (a altura mínima da pessoa é de 100 pixels).
  • O tamanho máximo do quadro é FHD (alta definição).
  • Vídeo de baixa qualidade (por exemplo, condições de iluminação escura) pode afetar os resultados da detecção.
  • Taxa de quadros recomendada: pelo menos 30 FPS.
  • A entrada de vídeo recomendada deve conter até 10 pessoas em um quadro único. O recurso poderia funcionar com mais pessoas em um quadro único, mas o resultado da detecção recupera até 10 pessoas em um quadro com a maior confiança de detecção.
  • Pessoas com roupas semelhantes: (por exemplo, pessoas usam uniformes, jogadores em jogos esportivos) podem ser detectadas como a mesma pessoa com o mesmo número de identificação.
  • Obstrução – pode haver erros onde há obstruções (cena/si mesmo ou obstruções de outras pessoas).
  • Pose: As faixas podem ser divididas devido a poses diferentes (traseira/frontal)
  • Como a detecção de roupas depende da visibilidade do corpo da pessoa, a precisão é maior se a pessoa estiver totalmente visível. Pode haver erros quando uma pessoa está sem roupas. Neste cenário ou em outros de baixa visibilidade, podem ser dados resultados como calças compridas e saia ou vestido.

Detecção de pessoas observadas e componentes de rostos correspondentes

Componente Definição
Arquivo de origem O usuário carrega o arquivo de origem para indexação.
Detecção O arquivo de mídia é rastreado para detectar pessoas observadas e suas roupas. Por exemplo, camisa com mangas compridas, vestido ou calça comprida. Para ser detectado, a parte superior do corpo da pessoa deve aparecer na mídia.
Agrupamento local Os rostos observados identificados são filtrados em grupos locais. Se uma pessoa for detectada mais de uma vez, mais instâncias de rostos observados serão criadas para essa pessoa.
Correspondência e classificação As instâncias de pessoas observadas são correspondidas a rostos. Se houver uma celebridade conhecida, a pessoa observada recebe seu nome. Qualquer número de instâncias de pessoas observadas pode ser correspondido ao mesmo rosto.
Valor de confiança O nível de confiança estimado de cada pessoa observada é calculado como um intervalo de 0 a 1. A pontuação de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82.

Código de exemplo

Veja todas as amostras para VI