Insights do Azure AI Video Indexer

2025-06-09

Quando um vídeo é indexado, o Video Indexer de IA do Azure analisa o conteúdo de vídeo e áudio executando mais de 30 modelos de IA. Ele gera JSON contendo os insights de vídeo, incluindo transcrições, OCRs (elementos ópticos de reconhecimento de caracteres), rosto, tópicos, emoções e assim por diante. Cada tipo de insight inclui exemplos de intervalos de tempo que mostram quando o insight aparece no vídeo.

Siga os links na tabela de insights para saber como obter cada resposta JSON de insight no portal da web ou usando a API.

Inspirações

Insights	Descrição
Detecção facial	A detecção facial encontra rostos em um arquivo de mídia e agrupa rostos semelhantes. O sistema gera insights de detecção facial como uma lista categorizada em um arquivo JSON. Cada entrada inclui uma miniatura e um nome ou uma ID para cada rosto. No portal da Web, ao selecionar a miniatura de um rosto, você verá detalhes como o nome da pessoa (se reconhecido), a porcentagem do vídeo em que a pessoa aparece e a biografia da pessoa se ela for uma celebridade. Você pode navegar entre os momentos no vídeo onde a pessoa aparece.
Identificação de etiquetas	A identificação de rótulos é um recurso do Video Indexer de IA do Azure que identifica objetos visuais, como óculos de sol ou ações, como natação, nas imagens de vídeo de um arquivo de mídia. O recurso inclui muitas categorias de rótulo. Após a extração, você vê instâncias de etiquetas na guia Insights e pode traduzi-las para mais de cinquenta idiomas. Selecione um rótulo para abrir a instância no arquivo de mídia. Selecione Reproduzir Anterior ou Reproduzir Próximo para ver mais instâncias.
Detecção de objetos	O Video Indexer de IA do Azure detecta objetos em vídeos como carros, bolsas, mochilas e laptops.
Detecção facial observada	A detecção facial observada e o reconhecimento facial correspondem e detectam automaticamente pessoas em arquivos de mídia. A detecção de pessoas observadas e os rostos correspondentes podem ser configurados para exibir insights sobre as pessoas, suas vestimentas e o intervalo exato em que aparecem.
OCR	O OCR (reconhecimento óptico de caracteres) extrai texto de imagens, como imagens, placas de rua e produtos em arquivos de mídia para criar insights.
Pós-produção: detecção de claquete	A detecção de claquetes encontra as claquetes usadas durante as filmagens e fornece as informações na claquete como metadados, como produção, rolo, cena e tomada. O painel Clapper faz parte dos insights pós-produção selecionados nas configurações avançadas do portal da Web ao carregar e indexar o arquivo.
Pós-produção: padrões digitais	A detecção de padrões digitais localiza as barras de cores usadas durante as filmagens. Os padrões digitais fazem parte dos insights pós-produção selecionados nas configurações avançadas do portal da Web quando você carrega e indexa o arquivo.
Cenas, capturas e quadros de chaves	A detecção de cena localiza quando uma cena é alterada em um vídeo com base em indicações visuais. Uma cena mostra um único evento e tem uma série de fotos relacionadas. As cenas são uma série de quadros que diferem por pistas visuais, como mudanças abruptas ou graduais no esquema de cores de quadros adjacentes. Os metadados da cena incluem a hora de início, a hora de término e uma lista de quadros-chave na cena. Um quadro-chave é um quadro de uma cena que melhor representa a cena.

Análises de áudio

Insights	Descrição
Detecção de efeitos de áudio	A detecção de efeitos de áudio detecta eventos acústicos e os classifica em categorias como risos, reações da multidão, alarmes ou sirenes.
Extração de palavras-chave	A extração de palavras-chave localiza palavras-chave importantes em arquivos de mídia e fornece insights em arquivos de mídia de linguagem única e de vários idiomas.
Entidades nomeadas	A extração de entidades nomeadas usa o NLP (processamento de linguagem natural) para localizar locais, pessoas e marcas em áudio e imagens em arquivos de mídia. A extração de entidades nomeadas usa transcrição e OCR (reconhecimento óptico de caracteres).
Detecção de emoções baseada em texto	A detecção de emoções encontra emoções nas linhas de transcrição de um vídeo. Cada frase é detectada como raiva, medo, alegria, triste ou nenhuma se nenhuma outra emoção for encontrada.
Inferência de tópicos	A inferência de tópicos cria insights inferidos de áudio transcrito, conteúdo OCR em texto visual e celebridades que o modelo de reconhecimento facial do Video Indexer reconhece no vídeo.
Transcrição, tradução e identificação de idioma	Os recursos de transcrição, tradução e identificação de idioma detectam, transcrevem e traduzem fala em arquivos de mídia em mais de 50 idiomas.

Documentação do Video Indexer de IA do Azure

Compartilhar via

Insights do Azure AI Video Indexer

Inspirações

Análises de áudio

Conteúdo relacionado

Comentários

Recursos adicionais