Azure AI Video Indexer mit LLM-Eingabeaufforderungen
Übersicht
Azure AI Video Indexer ist in große Sprachmodelle (LLMs) integriert. LLMs sind KI-Modelle in natürlicher Sprache, mit denen Sie Fragen zu Videoinhalten und vieles mehr stellen können. Extrahieren Sie die Einblicke von Azure AI Video Indexer in ein sofort einsatzbereites Format, das problemlos mit LLMs verwendet werden kann. Es ist nicht erforderlich, Videos neu indizieren, um das sofort einsatzbereite Format der Videos zu erstellen.
Anwendungsfälle
Generieren Sie eine Videozusammenfassung: Sie können das LLM-Modell bitten, Zusammenfassungen von ganzen Videos oder Videosegmenten zu generieren. Diese Segmente können kombiniert werden, um verschiedene Arten von Zusammenfassungen wie eine informative Zusammenfassung, einen Teaser oder eine andere Zusammenfassung je nach Ihren Anforderungen zu erstellen.
Durchsuchbarkeit: Indem Sie Videoinhalte in ein textbasiertes, sofort einsatzbereites Format konvertieren, können Sie detaillierte Suchvorgänge in natürlicher Sprache innerhalb Ihres Videoinhalts durchführen. Dies kann die Auffindbarkeit in großen Videobibliotheken auf der Grundlage bestimmter Abfragen erheblich verbessern.
Inhaltserstellung: Sie können Ihre Videobibliothek nach bestimmten Momenten in Ihren Videos abfragen, die bestimmten Emotionen oder Ereignissen zugeordnet sind. Sie können z. B. "lustig" oder "traurige" Momente aus einer Videoreihe abrufen und diese verwenden, um eine Promotion oder ein Highlight zu erstellen. Ebenso können Sie Momente im Zusammenhang mit bestimmten Ereignissen von Interesse abrufen, z. B. "vergangene Erdbeben während des letzten Jahrzehnts".
Bildungszwecke: Erstellen Sie Zusammenfassungen aus Vorlesungsvideos, damit Die Studierenden das Überprüfen und Verstehen des Materials erleichtern. Die Studierenden können auch spezifische Fragen im Zusammenhang mit dem Vorlesungsmaterial stellen. Sie können sich auf den genauen Teil des Videos beziehen, in dem der Artikel diskutiert wird, um die Lernerfahrung effizienter zu gestalten.
Interaktive Erfahrungen: Sie können interaktive Erfahrungen erstellen, z. B. videobasierte Chatbots oder virtuelle Assistenten, die Benutzerabfragen basierend auf dem Inhalt des Videos beantworten können.
Funktionsweise
Damit die Ausgabe eingabeaufforderungsbereit ist, wird das Video in kohärente Abschnitte aufgeteilt, die sowohl die Essenz des Videos als auch die Promptgröße passen. Die Abschnitte werden basierend auf azure AI Video Indexer Scene Segmentation und anderen Erkenntnissen unterteilt. Die Ergebnisse des Aufforderungsinhalts werden separat konsolidiert und pro Segment generiert. Zum Beispiel:
Erkenntnisse
Die folgende Tabelle enthält die Erkenntnisse, die für die Generierung von Aufforderungen verwendet werden.
VI Einblick | Tag und Format |
---|---|
Videotitel | [Videotitel] <Videotitel> |
Objekterkennung | [Erkannte Objekte] <Objekt 1>, <Objekt 2>, ... |
Beschriftungen | [Visuelle Beschriftungen] <Etikett 1>, <Etikett 2>, ... |
OCR | [OCR] <ocr cluster1><ocr cluster2> ... |
Transkription und Sprecher | [Transkript] <Sprechername>: <Transkriptzeilen>\n<Sprechername>: <Transkriptzeilen>\n ... |
Gesichtserkennung | [Bekannte Personen] <Gesicht 1>, <Gesicht 2>, ... |
Audioeffekte (AED) | [Audioeffekte] < Effekt 1>, <Effekt 2>, ... |
Segmentposition innerhalb des Videos | [Tags] [Anfang, Mitte, Ende, Rollguthaben] |
Erstellen von Eingabeaufforderungsinhalten für ein Video
Verwenden Sie die Aufforderungsinhalts-API für Ihr indiziertes Video, um das Prompt-Ready-Format pro Segment abzurufen.
Hinweis
Die Eingabeaufforderungsinhalte unterliegen den spezifischen Voreinstellungen, die zum Indizieren des Videos verwendet werden.
- Verwenden Sie die POST Create Prompt Content Request-Anforderung, um die Aufforderungsinhalts-API zu generieren.
- Verwenden Sie zum Anzeigen des Eingabeaufforderungsinhalts die Anforderung "Get PromptContent ".
Beispielanforderung
Verwenden Sie Ihre AVI-Konto-ID und die Video-ID.
POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent
Beispielantwort
index
{
"algoVersion": "2.0.0",
"schemaVersion": "0.0.1",
"partition": null,
"name": "10_best_dressed_grammy",
"sections": [
{
"id": 0,
"start": "0:00:00",
"end": "0:00:40.915875",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY
CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
},
{
"id": 1,
"start": "0:00:40.915875",
"end": "0:01:17.202125",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
},
}
Auftragsstatus überprüfen
Es dauert ein paar Minuten, bis der Aufforderungsauftrag abgeschlossen ist. Wenn Sie den Auftragsstatus überprüfen möchten, können Sie die Anforderung " Auftragsstatus abrufen" verwenden.
Verwenden von Keyframes zum visuellen Auffordern eines großen Sprachmodells
Die Aufforderungsinhaltsanforderung unterstützt Sprachmodelle, die visuelle Eingabe in Eingabeaufforderungen verwenden können. Wenn Sie das GPT-4V-Modell auswählen, können Sie Keyframes als Teil der aufforderung einschließen, die dem Modell bereitgestellt wird. Die in der Eingabeaufforderungsinhaltsantwort zurückgegebenen Frames stellen die Keyframes aus dem Video dar. Dieses Feature wird für Videos mit eingeschränkter oder ohne Transkription im Video empfohlen oder wenn Sie mehr Kontext für das Sprachmodell bereitstellen möchten, um die Ergebnisse zu verbessern.
Erstellen und Senden einer Aufforderungsinhaltsanforderung
Wie oben beschrieben, befindet sich der Textinhalt für die Eingabeaufforderung in der JSON-Antwort. Jede Zeichenfolge im Teil "frames" der JSON-Antwort ist die ID des Keyframes. Verwenden Sie "Videominiaturansicht abrufen". Die ThumbnailId ist die FrameId aus dem Eingabeaufforderungsinhalt. Sobald Sie sowohl über den Textinhalt als auch über die Keyframeartefakte verfügen, können Sie diese als Aufforderungen zu einem KI-Modell Ihrer Wahl kombinieren.
Begrenzungen
Die Eingabeaufforderungsfunktion ist für Videos optimiert, die so viele Einblicke wie möglich enthalten.