Obtenha detecção de pessoas observadas e insights de rostos correspondentes
Detecção de pessoas observadas, rostos combinados, roupas detectadas
Importante
O acesso a recursos de identificação facial, personalização e reconhecimento de celebridades é limitado com base em critérios de qualificação e uso para dar suporte aos nossos princípios de IA Responsável. Os recursos de identificação facial, personalização e reconhecimento de celebridades só estão disponíveis para clientes e parceiros gerenciados da Microsoft. Use o Formulário de admissão de reconhecimento facial para solicitar acesso.
A detecção de pessoas observadas e rostos correspondentes detectam e correspondem automaticamente pessoas em arquivos de mídia. A detecção de pessoas observadas e rostos correspondentes podem ser configurados para exibir informações sobre as pessoas, suas roupas e o período exato de sua aparência.
No portal da Web, os insights resultantes são exibidos em uma lista categorizada na guia Insights, a guia inclui uma miniatura de cada pessoa e sua ID. Clicar na miniatura de uma pessoa exibe a pessoa correspondente (o rosto correspondente no insight de pessoas). Os insights também são gerados em uma lista categorizada em um arquivo JSON que inclui o ID da miniatura da pessoa, a porcentagem de tempo que aparece no arquivo, o link do Wiki (se for uma celebridade) e o nível de confiança.
Casos de uso de detecção de pessoas observadas, roupas detectadas e rostos correspondentes
- Melhorar a eficiência por meio da pesquisa profunda de pessoas correspondentes em arquivos organizacionais para obter informações sobre celebridades específicas, por exemplo, ao criar promoções e trailers.
- Maior eficiência ao criar reportagens, por exemplo, procurando pessoas vestindo uma camisa vermelha nos arquivos de um jogo de futebol em uma agência de notícias ou esportes.
- Criar um resumo de um vídeo longo, como uma prova judicial da aparição de uma pessoa específica em um vídeo, usando a ID da mesma pessoa detectada.
- Aprender e analisar tendências ao longo do tempo, por exemplo, como os clientes se movem pelos corredores de um shopping ou quanto tempo passam nas filas do caixa.
Os rostos correspondentes e os recursos de vestuário detectados estão disponíveis ao indexar seu arquivo escolhendo a predefinição Avançado ->Vídeo + indexação de áudio.
Exibir o JSON do insight com o portal da Web
Depois de carregar e indexar um vídeo, os insights estarão disponíveis no formato JSON para download usando o portal da Web.
- Selecione a guia Biblioteca.
- Selecione a mídia com a qual deseja trabalhar.
- Selecione Baixar e o JSON (Insights). O arquivo JSON é aberto em uma nova guia do navegador.
- Procure o par de chaves descrito na resposta de exemplo.
Usar a API
- Use a solicitação Obter índice de vídeo. Recomendamos passar
&includeSummarizedInsights=false
. - Procure os pares de chaves descritos na resposta de exemplo.
Exemplo de resposta
"observedPeople": [
{
"id": 1,
"thumbnailId": "d09ad62e-e0a4-42e5-8ca9-9a640c686596",
"clothing": [
{
"id": 1,
"type": "sleeve",
"properties": {
"length": "short"
}
},
{
"id": 2,
"type": "pants",
"properties": {
"length": "short"
}
}
],
"matchingFace": {
"id": 1310,
"confidence": 0.3819
},
"instances": [
{
"adjustedStart": "0:00:34.8681666",
"adjustedEnd": "0:00:36.0026333",
"start": "0:00:34.8681666",
"end": "0:00:36.0026333"
},
{
"adjustedStart": "0:00:36.6699666",
"adjustedEnd": "0:00:36.7367",
"start": "0:00:36.6699666",
"end": "0:00:36.7367"
},
{
"adjustedStart": "0:00:37.2038333",
"adjustedEnd": "0:00:39.6729666",
"start": "0:00:37.2038333",
"end": "0:00:39.6729666"
}
]
}
]
Importante
É importante ler a visão geral da nota de transparência para todos os recursos do VI. Cada insight também tem suas próprias notas de transparência:
Detecção de pessoas observadas e notas de rostos correspondentes
- As pessoas geralmente não são detectadas se parecerem pequenas (a altura mínima da pessoa é de 100 pixels).
- O tamanho máximo do quadro é FHD (alta definição).
- Vídeo de baixa qualidade (por exemplo, condições de iluminação escura) pode afetar os resultados da detecção.
- Taxa de quadros recomendada: pelo menos 30 FPS.
- A entrada de vídeo recomendada deve conter até 10 pessoas em um quadro único. O recurso poderia funcionar com mais pessoas em um quadro único, mas o resultado da detecção recupera até 10 pessoas em um quadro com a maior confiança de detecção.
- Pessoas com roupas semelhantes: (por exemplo, pessoas usam uniformes, jogadores em jogos esportivos) podem ser detectadas como a mesma pessoa com o mesmo número de identificação.
- Obstrução – pode haver erros onde há obstruções (cena/si mesmo ou obstruções de outras pessoas).
- Pose: As faixas podem ser divididas devido a poses diferentes (traseira/frontal)
- Como a detecção de roupas depende da visibilidade do corpo da pessoa, a precisão é maior se a pessoa estiver totalmente visível. Pode haver erros quando uma pessoa está sem roupas. Neste cenário ou em outros de baixa visibilidade, podem ser dados resultados como calças compridas e saia ou vestido.
Detecção de pessoas observadas e componentes de rostos correspondentes
Componente | Definição |
---|---|
Arquivo de origem | O usuário carrega o arquivo de origem para indexação. |
Detecção | O arquivo de mídia é rastreado para detectar pessoas observadas e suas roupas. Por exemplo, camisa com mangas compridas, vestido ou calça comprida. Para ser detectado, a parte superior do corpo da pessoa deve aparecer na mídia. |
Agrupamento local | Os rostos observados identificados são filtrados em grupos locais. Se uma pessoa for detectada mais de uma vez, mais instâncias de rostos observados serão criadas para essa pessoa. |
Correspondência e classificação | As instâncias de pessoas observadas são correspondidas a rostos. Se houver uma celebridade conhecida, a pessoa observada recebe seu nome. Qualquer número de instâncias de pessoas observadas pode ser correspondido ao mesmo rosto. |
Valor de confiança | O nível de confiança estimado de cada pessoa observada é calculado como um intervalo de 0 a 1. A pontuação de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82. |