Azure AI Video Indexer com prompts de LLM

2025-06-09

O Azure AI Video Indexer se integra a LLMs (Grandes Modelos de Linguagem). LLMs são modelos de IA de linguagem natural que você pode usar para fazer perguntas sobre conteúdo de vídeo e muito mais. Extraia os insights do Azure AI Video Indexer em um formato pronto para prompt que pode ser facilmente usado com LLMs. Não é necessário reindexar vídeos para criar o formato pronto para prompt dos vídeos.

Você pode usar prompts de LLM com o Azure AI Video Indexer na nuvem ou em seu datacenter usando o Azure AI Video Indexer habilitado pelo Arc.

Casos de uso

Gerar um resumo de vídeo: Você pode pedir ao modelo LLM para gerar resumos de vídeos inteiros ou segmentos de vídeo. Esses segmentos podem ser combinados para criar vários tipos de resumos, como um resumo informativo, um teaser ou outro resumo, dependendo de suas necessidades.

Capacidade de pesquisa: ao converter o conteúdo de vídeo em um formato baseado em texto e pronto para prompt, você pode realizar pesquisas detalhadas em linguagem natural em seu conteúdo de vídeo. Ele pode melhorar significativamente a capacidade de descoberta em grandes bibliotecas de vídeo com base em consultas específicas.

Criação de conteúdo: Você pode consultar sua biblioteca de vídeos para momentos específicos em seus vídeos associados a certas emoções ou eventos. Por exemplo, você pode recuperar momentos engraçados ou tristes de uma série de vídeos e usá-los para criar um vídeo promocional ou um destaque. Da mesma forma, você pode recuperar momentos relacionados a eventos específicos de interesse, como "terremotos passados durante a última década".

Fins educacionais: Crie resumos de vídeos de palestras para facilitar a revisão e a compreensão do material pelos alunos. Os alunos também podem fazer perguntas específicas relacionadas ao material da palestra. Você pode consultar a parte exata do vídeo em que o artigo é discutido, tornando a experiência de aprendizado mais eficiente.

Experiências interativas: você pode criar experiências interativas, como chatbots baseados em vídeo ou assistentes virtuais, que podem responder às perguntas do usuário com base no conteúdo do vídeo.

Como ele funciona

Para que a saída esteja pronta para o prompt, o vídeo é dividido em seções coerentes que refletem tanto a essência do vídeo quanto o tamanho do prompt. As seções são divididas com base na segmentação de cena do Azure AI Video Indexer e em outros insights. Os resultados do conteúdo do prompt são consolidados e gerados por segmento separadamente. Por exemplo:

Inspirações

A tabela a seguir contém os insights usados para geração de prompt.

VI Insight	Tag e formato
Título do vídeo	[Título do vídeo] <Título do vídeo>
Detecção de objetos	[Objetos detectados] <objeto 1>, <objeto 2>, ...
Rótulos	[Rótulos visuais] <rótulo 1>, <rótulo 2>, ...
OCR (Reconhecimento Óptico de Caracteres)	[OCR] <cluster ocr1><cluster ocr2> ...
Transcrição e palestrantes	[Transcrição] <Nome> do alto-falante: <Linhas> de transcrição\n<Nome> do alto-falante: <Linhas> de transcrição\n ...
Rostos	[Pessoas conhecidas] <rosto 1>, <rosto 2>, ...
Efeitos de áudio (AED)	[Efeitos de áudio] < efeito 1>, <efeito 2>, ...
Posição do segmento no vídeo	[Tags] [Início, meio, fim, créditos contínuos]

Criar conteúdo de prompt para um vídeo

Use a API de Conteúdo do Prompt em seu vídeo indexado para obter o formato Pronto para Prompt em cada segmento.

Observação

Os insights de conteúdo do prompt são submetidos à predefinição específica que está sendo usada para indexar o vídeo.

Para gerar a API de Conteúdo do Prompt, use uma solicitação de API POST Create Prompt Content.
Para exibir o conteúdo do prompt, use uma solicitação da API Get PromptContent .

Solicitação de exemplo

Use o ID da sua conta AVI e o ID do vídeo.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Exemplo de resposta

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Verificar o status do trabalho

Leva alguns minutos para o trabalho de solicitação ser concluído. Se você quiser verificar o status do trabalho, poderá usar uma solicitação da API Obter Status do Trabalho .

Use quadros-chave para introduzir uma LLM por meio de elementos visuais

A solicitação de Conteúdo do Prompt dá suporte a modelos de linguagem que podem usar a entrada visual em prompts. Ao selecionar o modelo GPT-4V, você pode incluir quadros-chave como parte do prompt fornecido para o modelo. Os quadros retornados na resposta de conteúdo do prompt representam os quadros-chave do vídeo. Esse recurso é recomendado para vídeos com transcrição limitada ou nenhuma transcrição no vídeo ou quando se deseja fornecer mais contexto ao modelo de linguagem para melhorar seus resultados.

Criar e enviar uma solicitação de conteúdo imediato

Conforme descrito anteriormente, o conteúdo textual do prompt está na resposta JSON. Cada string na parte "frames" da resposta JSON é o identificador do quadro-chave. Use Obter Miniatura de Vídeo O ThumbnailId é o FrameId do conteúdo do prompt. Depois de ter o conteúdo textual e os artefatos de quadro-chave (keyframe), você pode combiná-los como prompts para um modelo de IA de sua escolha.

Limitações

O recurso de prompt é otimizado para vídeos que contêm o maior número possível de insights.

Documentação do Video Indexer de IA do Azure