Condividi tramite


Video Indexer di Intelligenza artificiale di Azure con richieste LLM

Video Indexer di Intelligenza artificiale di Azure si integra con modelli di linguaggio di grandi dimensioni. I modelli di linguaggio di grandi dimensioni (LLMs) sono modelli di intelligenza artificiale in linguaggio naturale che si possono utilizzare per porre domande sul contenuto video e molto altro ancora. Estrarre gli approfondimenti di Azure AI Video Indexer in un formato adatto che può essere facilmente usato con LLM. Non è necessario reindicizzare i video per creare il formato pronto per l'uso dei video.

È possibile usare i prompt LLM con Azure AI Video Indexer nel cloud o nel data center usando Azure AI Video Indexer abilitato da Arc.

Casi d'uso

Generare un riepilogo video: È possibile chiedere al modello LLM di generare riepiloghi di interi video o segmenti video. Questi segmenti possono essere combinati per creare diversi tipi di riepiloghi, ad esempio un riepilogo informativo, un teaser o un altro riepilogo a seconda delle esigenze.

Ricercabilità: Convertendo il contenuto video in un formato basato su testo e pronto per la richiesta, è possibile eseguire ricerche in linguaggio naturale dettagliate all'interno del contenuto video. Può migliorare significativamente l'individuabilità all'interno di librerie video di grandi dimensioni in base a query specifiche.

Creazione di contenuti: è possibile eseguire query sulla raccolta video per alcuni momenti specifici nei video associati a determinate emozioni o eventi. Ad esempio, è possibile recuperare momenti divertenti o tristi da una serie di video e usarlo per creare un promo o evidenziare. Analogamente, è possibile recuperare momenti correlati a eventi specifici di interesse, ad esempio "terremoti passati durante l'ultimo decennio".

Scopi didattici: creare riepiloghi dai video delle lezioni per semplificare la revisione e la comprensione del materiale da parte degli studenti. Gli studenti possono anche porre domande specifiche relative al materiale della lezione. È possibile fare riferimento alla parte esatta del video in cui viene discusso l'articolo rendendo più efficiente l'esperienza di apprendimento.

Esperienze interattive: è possibile creare esperienze interattive, ad esempio chatbot basati su video o assistenti virtuali, in grado di rispondere alle query utente in base al contenuto del video.

Funzionamento

Affinché l'output sia pronto per il prompt, il video viene suddiviso in sezioni coerenti che soddisfano sia l'essenza del video che le dimensioni del prompt. Le sezioni sono suddivise in base alla segmentazione della scena di Video Indexer per intelligenza artificiale di Azure e ad altre informazioni dettagliate. I risultati del contenuto della richiesta vengono consolidati e generati separatamente per ogni segmento. Ad esempio:

Approfondimenti

La tabella seguente contiene gli spunti utilizzati per la generazione di prompt.

VI Insight Tag e formato
Titolo video [Titolo video] <titolo video>
Rilevamento oggetti [Oggetti rilevati] <oggetto 1>, <oggetto 2>, ...
Etichette [Etichette visive] <etichetta 1>, <etichetta 2>, ...
OCR (Riconoscimento Ottico dei Caratteri) [OCR] <ocr cluster1><ocr cluster2> ...
Trascrizione e altoparlanti [Trascrizione] <nome del parlante>: <righe di trascrizione>\n<nome del parlante>: <righe di trascrizione>\n ...
Visi [Persone note] <faccia 1>, <faccia 2>, ...
Effetti audio (AED) [Effetti audio] < effetto 1>, <effetto 2>, ...
Posizione del segmento all'interno del video [Tag] [Inizio, Metà, Fine, Titoli di coda]

Creare il contenuto dello spunto per un video

Usare l'API Prompt Content nel video indicizzato per ottenere il formato Prompt-Ready per ogni segmento.

Nota

Le informazioni approfondite del contenuto del prompt sono soggette alle impostazioni predefinite specifiche usate per indicizzare il video.

Richiesta di esempi

Utilizzare l'ID account AVI e l'ID video.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Esempio di risposta

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Controllare lo stato dell'attività

Il lavoro rapido richiede alcuni minuti per essere completato. Se si vuole controllare lo stato del processo, è possibile usare una richiesta API Get Job Status (Ottieni stato processo).

Usare i fotogrammi chiave per richiedere visivamente un LLM

La richiesta di Contenuto del Prompt supporta modelli linguistici che possono usare l'input visivo nei prompt. Quando si seleziona il modello GPT-4V, è possibile includere fotogrammi chiave come parte della richiesta fornita al modello. I fotogrammi restituiti nella risposta al contenuto della richiesta rappresentano i fotogrammi chiave del video. Questa funzionalità è consigliata per i video con trascrizioni limitate o senza trascrizioni nel video o quando si vuole fornire più contesto al modello linguistico per migliorarne i risultati.

Creare e inviare una richiesta immediata di contenuto

Come descritto in precedenza, il contenuto testuale per il prompt si trova nella risposta JSON. Ogni stringa nella parte "frames" della risposta JSON è l'ID del fotogramma chiave. Usa Get Video Thumbnail. ThumbnailId è il FrameId del contenuto del prompt. Dopo aver ottenuto sia il contenuto testuale che gli artefatti del fotogramma chiave, è possibile combinarli come prompt per un modello di intelligenza artificiale a propria scelta.

Limiti

La funzionalità di richiesta è ottimizzata per i video che contengono il maggior numero possibile di informazioni dettagliate.