Partilhar via


Soluções de vídeo do Azure AI Content Understanding (pré-visualização)

Importante

  • O Entendimento de Conteúdo do Azure AI está disponível na visualização. As versões de visualização pública fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem mudar ou ter recursos limitados antes da Disponibilidade Geral (GA).
  • Para obter mais informações, consulte Termos de uso suplementares para visualizações do Microsoft Azure.

O Entendimento de Conteúdo da IA do Azure permite gerar um conjunto padrão de metadados de vídeo e criar campos personalizados para seu caso de uso específico usando o poder dos modelos generativos. A Compreensão de Conteúdo ajuda a gerenciar, categorizar, recuperar e criar fluxos de trabalho para ativos de vídeo de forma eficiente. Ele aprimora sua biblioteca de ativos de mídia, suporta fluxos de trabalho como geração de destaque, categoriza conteúdo e facilita aplicativos como geração aumentada de recuperação (RAG).

Ilustração do fluxo de processamento de vídeo de Compreensão de Conteúdo.

O analisador de vídeo pré-construído produz Markdown pronto para RAG que inclui:

  • Transcrição: Transcrições em linha no formato WEBVTT padrão
  • Descrição: Descrições de segmentos em linguagem natural com contexto visual e de fala
  • Segmentação: Segmentação automática de cena dividindo o vídeo em partes lógicas
  • Quadros-chave: Miniaturas de quadros-chave ordenadas que permitem uma análise mais profunda

Esse formato pode ser inserido diretamente em um armazenamento vetorial para habilitar fluxos de trabalho de agentes ou RAG, sem necessidade de pós-processamento.

A partir daí, você pode personalizar o analisador para um controle mais refinado da saída. Você pode definir campos personalizados, segmentos ou habilitar a identificação facial. A personalização permite que você use todo o poder dos modelos generativos para extrair insights profundos dos detalhes visuais e de áudio do vídeo.

Por exemplo, a personalização permite:

  • Definir campos personalizados: para identificar quais produtos e marcas são vistos ou mencionados no vídeo.
  • Gerar segmentos personalizados: para segmentar uma transmissão de notícias em capítulos com base nos tópicos ou notícias discutidas.
  • Identificar pessoas usando um diretório de pessoas , permitindo que um cliente rotule os palestrantes da conferência em imagens usando a identificação facial, por exemplo, CEO John Doe, CFO Jane Smith.

Por que usar o Content Understanding para vídeo?

A compreensão de conteúdo para vídeo tem amplos usos potenciais. Por exemplo, você pode personalizar metadados para marcar cenas específicas em um vídeo de treinamento, tornando mais fácil para os funcionários localizar e revisitar seções importantes. Você também pode usar a personalização de metadados para identificar o posicionamento do produto em vídeos promocionais, o que ajuda as equipes de marketing a analisar a exposição da marca. Outros casos de utilização incluem:

  • Meios de difusão e entretenimento: Gerencie grandes bibliotecas de shows, filmes e clipes gerando metadados detalhados para cada ativo.
  • Educação e e-Learning: Indexe e recupere momentos específicos em vídeos educativos ou palestras.
  • Formação corporativa: Organize vídeos de treinamento por tópicos-chave, cenas ou momentos importantes.
  • Marketing e publicidade: Analise vídeos promocionais para extrair posicionamentos de produtos, aparências de marca e mensagens-chave.

Exemplo de analisador de vídeo pré-construído

Com o analisador de vídeo pré-construído (prebuilt-videoAnalyzer), você pode carregar um vídeo e obter um ativo de conhecimento imediatamente utilizável. O serviço empacota cada clipe em Markdown e JSON ricamente formatados. Esse processo permite que seu índice de pesquisa ou agente de bate-papo ingira sem código de cola personalizado.

  • Por exemplo, criando a base prebuilt-videoAnalyzer da seguinte maneira:

    {
      "config": {},
      "BaseAnalyzerId": "prebuilt-videoAnalyzer",
    }
    
  • Em seguida, analisando um vídeo de publicidade de 30 segundos, resultaria na seguinte saída:

       # Video: 00:00.000 => 00:30.000
       Width: 1280
       Height: 720
    
       ## Segment 1: 00:00.000 => 00:06.000
       A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Get new years ready.
    
       Key Frames
       - 00:00.600 ![](keyFrame.600.jpg)
       - 00:01.200 ![](keyFrame.1200.jpg)
    
       ## Segment 2: 00:06.000 => 00:10.080
       The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Go team!
    
       Key Frames
       - 00:06.200 ![](keyFrame.6200.jpg)
       - 00:07.080 ![](keyFrame.7080.jpg)
    
          *…additional data omitted for brevity…*
    

Passo a passo

Recentemente, publicamos um passo a passo para o RAG em Vídeo usando o Entendimento de Conteúdo. https://www.youtube.com/watch?v=fafneWnT2kw& lc=Ugy2XXFsSlm7PgIsWQt4AaABAg

Capacidades

  1. Extração de conteúdo
  2. Extração de campo
  3. Identificação facial

Sob o capô, dois estágios transformam pixels brutos em insights prontos para os negócios. O diagrama abaixo mostra como a extração alimenta a geração, garantindo que cada etapa a jusante tenha o contexto necessário.

Captura de tela do fluxo do analisador de vídeo.

O serviço funciona em duas fases. A primeira etapa, a extração de conteúdo, envolve a captura de metadados fundamentais, como transcrições, fotos e rostos. A segunda etapa, extração de campo, usa um modelo generativo para produzir campos personalizados e realizar segmentação. Além disso, você pode, opcionalmente, ativar um complemento Face para identificar indivíduos e descrevê-los no vídeo.

Recursos de extração de conteúdo

O primeiro processo é sobre identificar um primeiro conjunto de detalhes – quem fala, onde estão os cortes e quais rostos aparecem repetidamente. Cria uma estrutura sólida de metadados que pode ser utilizada por passos seguintes.

  • Transcrição: Converte áudio conversacional em transcrições baseadas em texto pesquisáveis e analisáveis no formato WebVTT. Os carimbos de data/hora no nível da frase estão disponíveis se "returnDetails": true estiver definido. O Entendimento de Conteúdo dá suporte ao conjunto completo de linguagens de fala para texto do Azure AI Speech. Os detalhes do suporte a idiomas para vídeo são os mesmos que o áudio, consulteTratamento de idioma de áudio para obter detalhes. Os seguintes detalhes de transcrição são importantes a considerar:

    • Diarização: Distingue entre oradores numa conversa no output, atribuindo partes da transcrição a oradores específicos.

    • Transcrição multilingue: Gera transcrições multilingues. O idioma/localidade é aplicado por frase na transcrição. Frases apresentadas quando "returnDetails": true é definido. Desviando-se da deteção de idioma, esse recurso é habilitado quando nenhum idioma/localidade é especificado ou o idioma está definido como auto.

      Observação

      Quando a transcrição multilíngue é usada, todos os arquivos com localidades sem suporte produzem um resultado com base na localidade suportada mais próxima, o que provavelmente está incorreto. Este resultado é um comportamento conhecido. Evite problemas de qualidade de transcrição, garantindo que você configure localidades quando não estiver usando uma localidade com suporte de transcrição multilíngue!

    • Extração do quadro-chave: Extrai quadros-chave de vídeos para representar cada foto completamente, garantindo que cada foto tenha quadros-chave suficientes para permitir que a extração de campo funcione de forma eficaz.

    • Deteção de corte: Identifica segmentos do vídeo alinhados com os limites de corte sempre que possível, permitindo a edição precisa e o reempacotamento do conteúdo com interrupções exatamente onde existem edições. A saída é uma lista de timestamps em milissegundos no formato cameraShotTimesMs. A saída só é retornada quando "returnDetails": true é definida.

Extração e segmentação de campo

Em seguida, o modelo generativo coloca camadas de significado — marcando cenas, resumindo ações e dividindo imagens em segmentos de acordo com sua solicitação. Essa ação é onde os prompts se transformam em dados estruturados.

Campos personalizados

Molde o resultado para adequar-se ao vocabulário do seu negócio. Use um fieldSchema objeto onde cada entrada define o nome, o tipo e a descrição de um campo. Em tempo de execução, o modelo generativo preenche esses campos para cada segmento.

Exemplos:

  • Gestão de ativos de mídia:

    • Categoria de Vídeo: Ajuda editores e produtores a organizar conteúdos, classificando-os como Notícias, Esportes, Entrevistas, Documentários, Anúncios, etc. Útil para marcação de metadados e filtragem e recuperação de conteúdo mais rápidas.
    • Esquema de cores: Transmite humor e atmosfera, essenciais para a consistência narrativa e o envolvimento do espectador. A identificação de temas de cores ajuda a encontrar clipes correspondentes para edição de vídeo acelerada.
  • Publicidade:

    • Marca: Identifica a presença da marca, essencial para analisar o impacto do anúncio, a visibilidade da marca e a associação com os produtos. Esse recurso permite que os anunciantes avaliem a proeminência da marca e garantam a conformidade com as diretrizes da marca.
    • Categorias de anúncios: Categoriza os tipos de anúncios por setor, tipo de produto ou segmento de público-alvo, o que oferece suporte a estratégias de publicidade direcionada, categorização e análise de desempenho.

Exemplo:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Modo de segmentação

Observação

A definição de segmentação aciona a extração de campos mesmo que nenhum campo esteja definido.

O Entendimento de Conteúdo oferece três maneiras de fatiar um vídeo, permitindo que você obtenha a saída necessária para vídeos inteiros ou clipes curtos. Você pode usar essas opções definindo a SegmentationMode propriedade em um analisador personalizado.

  • Vídeo completosegmentationMode : noSegmentation O serviço trata todo o arquivo de vídeo como um único segmento e extrai metadados em toda a sua duração.

    Exemplo:

    • Verificações de conformidade que procuram problemas específicos de segurança de marca em qualquer parte de um anúncio
    • resumos descritivos completos
  • Segmentação automáticasegmentationMode = auto O serviço analisa a linha do tempo e a divide para você. Agrupa planos sucessivos em cenas coerentes, limitadas a um minuto cada.

    Exemplo:

    • Criar storyboards a partir de um programa
    • Inserção de anúncios no meio do conteúdo em pausas lógicas.
  • Segmentação personalizadasegmentationMode : custom Você descreve a lógica em linguagem natural e o modelo cria segmentos para corresponder. Defina segmentationDefinition com uma cadeia de caracteres descrevendo como você gostaria que o vídeo fosse segmentado. Custom permite segmentos de duração variável de segundos a minutos, dependendo do prompt.

    Exemplo:

    • Transforme uma notícia em histórias.
    {
      "segmentationMode": "custom",
      "segmentationDefinition": "news broadcasts divided by individual stories"
    }
    

Plug-in de identificação e descrição facial

Observação

Este recurso é de acesso limitado e envolve identificação facial e agrupamento; os clientes precisam se cadastrar para acesso no Reconhecimento Facial. As características faciais incorrem em custos adicionais.

A descrição de identificação facial é um complemento que fornece contexto para extração de conteúdo e extração de campo usando informações faciais.

Extração de conteúdo - Agrupamento e identificação

O complemento facial permite o agrupamento e a identificação como saída da seção de extração de conteúdo. Para habilitar as funcionalidades de face, defina "enableFace":true na configuração do analisador.

  • Agrupamento: Rostos agrupados que aparecem em um vídeo para extrair uma imagem de rosto representativa para cada pessoa e fornece segmentos onde cada um está presente. Os dados de face agrupados estão disponíveis como metadados e podem ser usados para gerar campos de metadados personalizados quando returnDetails: true para o analisador.
  • Identificação: Rotula indivíduos no vídeo com nomes baseados em um diretório de pessoas da API do Face. Os clientes podem habilitar esta funcionalidade fornecendo um nome para um diretório na API de Reconhecimento Facial no recurso atual na propriedade personDirectoryId do analisador. Para usar esse recurso, primeiro você deve criar um personDirectory e, em seguida, fazer referência a ele no analisador. Para obter detalhes sobre como fazer isso, confira Como criar um diretório de pessoas

Extração de Campo – Descrição do rosto

A capacidade de extração de campo é aprimorada fornecendo descrições detalhadas de rostos identificados no vídeo. Esta capacidade inclui atributos como pelos faciais, emoções e a presença de celebridades, que podem ser cruciais para vários fins analíticos e de indexação. Para habilitar os recursos de descrição facial, defina disableFaceBlurring : true na configuração do analisador.

Exemplos:

  • Campo de exemplo: emotionDescription: Fornece uma descrição do estado emocional da pessoa principal neste clipe (por exemplo, happy, sad, angry)
  • Campo de exemplo: facialHairDescription: Descreve o tipo de pelos faciais (por exemplo, beard, mustache, clean-shaven)

Principais benefícios

O Content Understanding oferece vários benefícios importantes quando comparado a outras soluções de análise de vídeo:

  • Análise multi-frame baseada em segmentos: Identifique ações, eventos, tópicos e temas analisando vários quadros de cada segmento de vídeo, em vez de quadros individuais.
  • Personalização: Personalize os campos e a segmentação gerados modificando o esquema de acordo com seu caso de uso específico.
  • Modelos generativos: Descreva em linguagem natural qual conteúdo você deseja extrair e o Content Understanding usa modelos generativos para extrair esses metadados.
  • Pré-processamento otimizado: Execute várias etapas de pré-processamento de extração de conteúdo, como transcrição e deteção de cena, otimizadas para fornecer contexto rico para modelos generativos de IA.

Limitações e condicionalismos técnicos

Limitações específicas do processamento de vídeo a ter em mente:

  • Amostragem de quadros (~ 1 FPS): O analisador inspeciona cerca de um quadro por segundo. Movimentos rápidos ou eventos de frames individuais podem não ser capturados.
  • Resolução de quadros (512 × 512 px): Os quadros amostrados são redimensionados para 512 pixels quadrados. Pequenos textos ou objetos distantes podem ser perdidos.
  • Discurso: Apenas as palavras faladas são transcritas. Música, efeitos sonoros e ruído ambiente são ignorados.

Requisitos de entrada

Para formatos suportados, consulte Cotas e limites de serviço.

Idiomas e regiões suportados

Consulte Suporte a idiomas e regiões.

Privacidade e segurança dos dados

Tal como acontece com todos os serviços de IA do Azure, consulte a documentação de Dados, proteção e privacidade da Microsoft.

Importante

Se processar Dados Biométricos (por exemplo, ativar o Agrupamento Facial ou a Identificação Facial), tem de cumprir todos os requisitos de notificação, consentimento e eliminação ao abrigo do RGPD ou de outras leis aplicáveis. Consulte Dados e Privacidade para Face.

Próximos passos