Compartilhar via


Azure AI Video Indexer com prompts do LLM

Visão geral

O Azure AI Video Indexer se integra a LLMs (Modelos de Linguagem Grande). LLMs são modelos de IA de linguagem natural que você pode usar para fazer perguntas sobre conteúdo de vídeo e muito mais. Extraia os insights do Azure AI Video Indexer em um formato pronto para prompt que pode ser facilmente usado com LLMs. Não há necessidade de reindexar vídeos para criar o formato pronto para prompt dos vídeos.

Casos de uso

Gerar um resumo de vídeo: Você pode pedir ao modelo LLM para gerar resumos de vídeos inteiros ou segmentos de vídeo. Esses segmentos podem ser combinados para criar vários tipos de resumos, como um resumo informativo, um teaser ou outro resumo, dependendo de suas necessidades.

Capacidade de pesquisa: ao converter o conteúdo de vídeo em um formato baseado em texto e pronto para prompt, você pode realizar pesquisas detalhadas em linguagem natural em seu conteúdo de vídeo. Isso pode melhorar significativamente a capacidade de descoberta em grandes bibliotecas de vídeo com base em consultas específicas.

Criação de conteúdo: Você pode consultar sua biblioteca de vídeos para momentos específicos em seus vídeos associados a certas emoções ou eventos. Por exemplo, você pode recuperar momentos "engraçados" ou "tristes" de uma série de vídeos e usá-los para criar uma promoção ou destaque. Da mesma forma, você pode recuperar momentos relacionados a eventos específicos de interesse, como "terremotos passados durante a última década".

Fins educacionais: Crie resumos de vídeos de palestras para facilitar a revisão e a compreensão do material pelos alunos. Os alunos também podem fazer perguntas específicas relacionadas ao material da palestra. Você pode consultar a parte exata do vídeo em que o artigo é discutido, tornando a experiência de aprendizado mais eficiente.

Experiências interativas: você pode criar experiências interativas, como chatbots baseados em vídeo ou assistentes virtuais, que podem responder às perguntas do usuário com base no conteúdo do vídeo.

Como ele funciona

Para que a saída esteja pronta para prompt, o vídeo é dividido em seções coerentes que se encaixam na essência do vídeo e no tamanho do prompt. As seções são divididas com base na segmentação de cena do Azure AI Video Indexer e em outros insights. Os resultados do conteúdo do prompt são consolidados e gerados por segmento separadamente. Por exemplo:

Insights

A tabela a seguir contém os insights usados para geração de prompt.

VI Insight Tag e formato
Título do vídeo [Título do vídeo] <Título do vídeo>
Detecção de objetos [Objetos detectados] <objeto 1>, <objeto 2>, ...
Rótulos [Rótulos visuais] <rótulo 1>, <rótulo 2>, ...
OCR [OCR] <cluster ocr1><cluster ocr2> ...
Transcrição e palestrantes [Transcrição] <Nome> do alto-falante: <Linhas> de transcrição\n<Nome> do alto-falante: <Linhas> de transcrição\n ...
Faces [Pessoas conhecidas] <rosto 1>, <rosto 2>, ...
Efeitos de áudio (DEA) [Efeitos de áudio] < efeito 1>, <efeito 2>, ...
Posição do segmento no vídeo [Tags] [Início, meio, fim, créditos contínuos]

Criar conteúdo de prompt para um vídeo

Use a API Prompt Content no seu vídeo indexado para obter o formato Prompt-Ready para cada segmento.

Observação

Os insights de conteúdo do prompt estão sujeitos à predefinição específica que está sendo usada para indexar o vídeo.

Solicitação de exemplo

Use o ID da sua conta AVI e o ID do vídeo.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Exemplo de resposta

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Verificar o status do trabalho

Leva alguns minutos para que o trabalho de prompt seja concluído. Se você quiser verificar o status do trabalho, poderá usar a solicitação Obter Status do Trabalho.

Usar quadros-chave para solicitar visualmente um modelo de linguagem grande

A solicitação de Conteúdo de Prompt dá suporte a modelos de linguagem que podem usar a entrada visual em prompts. Ao selecionar o modelo GPT-4V, você pode incluir quadros-chave como parte do prompt fornecido ao modelo. Os quadros retornados na resposta de conteúdo do prompt representam os quadros-chave do vídeo. Esse recurso é recomendado para vídeos com transcrição limitada ou nenhuma transcrição no vídeo ou quando se deseja fornecer mais contexto ao modelo de linguagem para melhorar seus resultados.

Criar e enviar uma solicitação de conteúdo de prompt

Conforme descrito acima, o conteúdo textual do prompt está na resposta JSON. Cada string na parte "frames" da resposta JSON é a ID do quadro-chave. Usar Obter miniatura de vídeo O ThumbnailId é o FrameId do conteúdo do prompt. Depois de ter o conteúdo textual e os artefatos de quadro-chave, você pode combiná-los como prompts para um modelo de IA de sua escolha.

Limitações

O recurso de prompt é otimizado para vídeos que contêm o maior número possível de insights.