Insights do Azure AI Video Indexer
Quando um vídeo é indexado, o Azure AI Video Indexer analisa o conteúdo de vídeo e áudio executando 30+ modelos de IA, gerando JSON contendo os insights de vídeo, incluindo transcrições, OCRs (elementos de reconhecimento óptico de caracteres), rosto, tópicos, emoções etc. Cada tipo de insight inclui instâncias de intervalos de tempo que mostram quando o insight aparece no vídeo.
Use os links na tabela de insights para saber como obter cada resposta JSON de insight no portal da Web e usando a API.
Insights
Insight | Descrição |
---|---|
Detecção facial | A detecção facial detecta rostos em um arquivo de mídia e, em seguida, agrega instâncias de rostos semelhantes em grupos. Os insights de detecção facial são gerados como uma lista categorizada em um arquivo JSON que inclui uma miniatura e um nome ou uma ID para cada rosto. No portal da Web, selecionar a miniatura de um rosto exibe informações como o nome da pessoa (se ela foi reconhecida), a porcentagem do vídeo em que a pessoa aparece e a biografia da pessoa, se ela for uma celebridade. Você também pode rolar entre as instâncias do vídeo em que a pessoa aparece. |
Identificação de etiquetas | A identificação de rótulos é um recurso de IA do Azure AI Video Indexer que identifica objetos visuais, como óculos de sol ou ações, como natação, que aparecem nas imagens de vídeo de um arquivo de mídia. Existem muitas categorias de identificação de rótulos e, uma vez extraídas, as instâncias de identificação de rótulos são exibidas na guia Insights e podem ser traduzidas para mais de 50 idiomas. Clicar em um rótulo abre a instância no arquivo de mídia, selecione Reproduzir anterior ou Reproduzir em seguida para ver mais instâncias. |
Detecção de objetos | O Azure AI Video Indexer detecta objetos em vídeos, como carros, bolsas e mochilas e laptops. |
Detecção de pessoas observadas | A detecção de pessoas observadas e rostos correspondentes detectam e correspondem automaticamente pessoas em arquivos de mídia. A detecção de pessoas observadas e rostos correspondentes podem ser configurados para exibir informações sobre pessoas, suas roupas e o período exato de sua aparência.) |
OCR | O OCR extrai texto de imagens como imagens, placas de rua e produtos em arquivos de mídia para criar insights. |
Pós-produção: detecção de claquete | A detecção de claquete detecta claquetes usadas durante a filmagem que também fornece as informações detectadas na claquete como metadados, por exemplo, produção, rolo, cena, tomada etc. A claquete faz parte dos insights de pós-produção que você pode selecionar nas configurações avançadas do portal da Web ao carregar e indexar o arquivo. |
Pós-produção: padrões digitais | A detecção digital de padrões detecta barras de cores usadas durante as filmagens. Os padrões digitais fazem parte dos insights de pós-produção que você pode selecionar nas configurações avançadas do portal da Web ao carregar e indexar o arquivo. |
Cenas, tomadas e quadros-chave | A detecção de cena detecta quando uma cena muda em um vídeo com base em dicas visuais. Uma cena retrata um único evento e é composta por uma série de tomadas, que estão relacionadas.As tomadas são uma série de quadros que se distinguem por dicas visuais, como transições abruptas e graduais no esquema de cores de quadros adjacentes. Os metadados da tomada incluem a hora de início e término, bem como uma lista de quadros-chave incluídos na tomada. Um quadro-chave é um quadro de uma captura que melhor representa uma captura. |
Insights de áudio
Insight | Descrição |
---|---|
Detecção de efeitos de áudio | A detecção de efeitos sonoros detecta eventos acústicos e os classifica em categorias como risos, reações da multidão, alarmes e/ou sirenes. |
Extração de palavras-chave | A extração de palavras-chave detecta insights sobre as diferentes palavras-chave discutidas em arquivos de mídia. Ele extrai insights em arquivos de mídia de um único idioma e de vários idiomas. |
Entidades nomeadas | A extração de entidades nomeadas usa o NLP (Processamento de Linguagem Natural) para extrair insights sobre os locais, pessoas e marcas que aparecem em áudio e imagens em arquivos de mídia. O insight de extração de entidades nomeadas usa transcrição e OCR (reconhecimento óptico de caracteres). |
Detecção de emoções baseada em texto | A detecção de emoções detecta emoções nas linhas de transcrição do vídeo. Cada frase pode ser detectada como Raiva, Medo, Alegria, Tristeza, Nenhum se nenhuma outra emoção for detectada. |
Inferência de tópicos | A inferência de tópicos cria insights inferidos derivados do áudio transcrito, do conteúdo de OCR no texto visual e das celebridades reconhecidas no vídeo usando o modelo de reconhecimento facial do Video Indexer. |
Transcrição, tradução e identificação de idioma | A transcrição, tradução e identificação de idioma detecta, transcreve e traduz a fala em arquivos de mídia em mais de 50 idiomas. |