Compartilhar via


Obtenha insights de detecção de objetos

Detecção de objetos

O Azure AI Video Indexer detecta objetos em vídeos, como carros, bolsas e mochilas e laptops.

Objetos com suporte

  • airplane
  • apple
  • mochila
  • banana
  • luva de beisebol
  • cama
  • banco
  • bicicleta
  • barco
  • agendar
  • garrafa
  • Excel
  • brócolis
  • ônibus
  • bolo
  • car
  • cenoura
  • cell phone
  • cadeira
  • relógio
  • mouse de computador
  • sofá
  • chávena
  • mesa de jantar
  • donut
  • hidrante
  • fork
  • frisbee
  • secador
  • bolsa
  • cachorro-quente
  • teclado
  • pipa
  • knife
  • notebook
  • microondas
  • motocicleta
  • mouse de computador
  • gravata
  • orange
  • forno
  • parquímetro
  • pizza
  • planta em vaso
  • sandwich
  • tesoura
  • coletor
  • skateboard
  • Esquis
  • Snowboard
  • colher
  • bola esportiva
  • placa de pare
  • mala
  • prancha
  • urso de pelúcia
  • raquete de tênis
  • torradeira
  • toalete
  • escova de dentes
  • semáforo
  • treinar
  • guarda-chuva
  • vaso
  • taça

Exibir o JSON do insight com o portal da Web

Depois de carregar e indexar um vídeo, os insights estarão disponíveis no formato JSON para download usando o portal da Web.

  1. Selecione a guia Biblioteca.
  2. Selecione a mídia com a qual deseja trabalhar.
  3. Selecione Baixar e o JSON (Insights). O arquivo JSON é aberto em uma nova guia do navegador.
  4. Procure o par de chaves descrito na resposta de exemplo.

Usar a API

  1. Use a solicitação Obter índice de vídeo. Recomendamos passar &includeSummarizedInsights=false.
  2. Procure os pares de chaves descritos na resposta de exemplo.

Exemplo de resposta

Os objetos detectados e rastreados aparecem em "Objetos detectados" no arquivo insights.json baixado. Toda vez que um objeto exclusivo é detectado, ele recebe um ID. Esse objeto também é rastreado, o que significa que o modelo observa o objeto detectado retornar ao quadro. Em caso afirmativo, outra instância será adicionada às instâncias do objeto com horários de início e término diferentes.

Neste exemplo, o primeiro carro foi detectado e recebeu uma ID de 1, pois também foi o primeiro objeto detectado. Então, um carro diferente foi detectado e esse carro recebeu a identificação de 23, pois foi o 23º objeto detectado. Mais tarde, o primeiro carro apareceu novamente e outra instância foi adicionada ao JSON. Aqui está o JSON resultante:

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]
Chave Definição
ID Número incremental de IDs dos objetos detectados no arquivo de mídia
Tipo Tipo de objetos, por exemplo, Carro
ID da miniatura GUID que representa uma única detecção do objeto
displayName Nome a ser exibido na experiência do portal VI
WikiDataID Um identificador único na estrutura do WikiData
Instâncias Lista de todas as instâncias que foram rastreadas
Confiança Uma pontuação entre 0 e 1 indicando a confiança na detecção de objetos
ajustadoStart Ajustada a hora de início do vídeo ao usar o editor
fim ajustado Ajustado o tempo de término do vídeo ao usar o editor
iniciar a hora em que o objeto aparece no quadro
end o tempo em que o objeto não aparece mais no quadro

Componentes

Nenhum componente é definido para detecção de objetos.

Observações de transparência

Importante

É importante ler a visão geral da nota de transparência para todos os recursos do VI. Cada insight também tem suas próprias notas de transparência:

  • Há até 20 detecções por quadro para processamento padrão e avançado e 35 faixas por classe.
  • O tamanho do objeto não deve ser maior que 90% do quadro. Objetos muito grandes que se estendem consistentemente por uma grande parte do quadro podem não ser reconhecidos.
  • Objetos pequenos ou borrados podem ser difíceis de detectar. Eles podem ser perdidos ou classificados incorretamente (copo de vinho, copo).
  • Objetos transitórios e que aparecem em poucos quadros podem não ser reconhecidos.
  • Outros fatores que podem afetar a precisão da detecção de objetos incluem condições de pouca luz, movimento da câmera e oclusões.
  • O Azure AI Video Indexer dá suporte apenas a objetos do mundo real. Não há suporte para animação ou CGI. Gráficos gerados por computador (como adesivos de notícias) podem produzir resultados estranhos.
  • Fichários, brochuras e outros materiais escritos tendem a ser detectados como "livro".

Código de exemplo

Veja todas as amostras para VI