Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure AI Video Indexer ist in große Sprachmodelle (LLMs) integriert. LLMs sind KI-Modelle in natürlicher Sprache, mit denen Sie Fragen zu Videoinhalten und vieles mehr stellen können. Extrahieren Sie die Einblicke von Azure AI Video Indexer in ein sofort einsatzbereites Format, das problemlos mit LLMs verwendet werden kann. Es ist nicht erforderlich, Videos neu indizieren, um das sofort einsatzbereite Format der Videos zu erstellen.
Sie können LLM-Eingabeaufforderungen mit Azure AI Video Indexer in der Cloud oder in Ihrem Rechenzentrum verwenden, indem Sie azure AI Video Indexer verwenden, der von Arc aktiviert ist.
Anwendungsfälle
Generieren sie eine Videozusammenfassung: Sie können das LLM-Modell bitten, Zusammenfassungen von ganzen Videos oder Videosegmenten zu generieren. Diese Segmente können kombiniert werden, um verschiedene Arten von Zusammenfassungen zu erstellen, z. B. eine informative Zusammenfassung, einen Teaser oder eine andere Zusammenfassung je nach Ihren Anforderungen.
Durchsuchbarkeit: Wenn Sie Videoinhalte in ein textbasiertes, sofort einsatzbereites Format konvertieren, können Sie detaillierte, natürliche Sprachsuchen innerhalb Ihrer Videoinhalte durchführen. Sie kann die Auffindbarkeit in großen Videobibliotheken auf der Grundlage bestimmter Abfragen erheblich verbessern.
Inhaltserstellung: Sie können Ihre Videobibliothek nach bestimmten Momenten in Ihren Videos abfragen, die bestimmten Emotionen oder Ereignissen zugeordnet sind. Sie können beispielsweise lustige oder traurige Momente aus einer Videoserie abrufen und diese verwenden, um eine Promotion oder ein Highlight zu erstellen. Ebenso können Sie Momente im Zusammenhang mit bestimmten Ereignissen von Interesse abrufen, z. B. "vergangene Erdbeben während des letzten Jahrzehnts".
Bildungszwecke: Erstellen Sie Zusammenfassungen aus Vorlesungsvideos, damit Die Studierenden das Überprüfen und Verstehen des Materials erleichtern. Die Studierenden können auch spezifische Fragen im Zusammenhang mit dem Vorlesungsmaterial stellen. Sie können sich auf den genauen Teil des Videos beziehen, in dem der Artikel diskutiert wird, um die Lernerfahrung effizienter zu gestalten.
Interaktive Erfahrungen: Sie können interaktive Erfahrungen erstellen, z. B. videobasierte Chatbots oder virtuelle Assistenten, die Benutzerabfragen basierend auf dem Inhalt des Videos beantworten können.
Funktionsweise
Damit die Ausgabe für Prompts bereit ist, wird das Video in zusammenhängende Abschnitte unterteilt, die sowohl dem Inhalt des Videos als auch der Größe des Prompts entsprechen. Die Abschnitte sind auf der Basis von Azure KI Video Indexer Scene Segmentation und anderen Insights unterteilt. Die Ergebnisse des Prompt-Inhalts werden konsolidiert und separat pro Segment generiert. Zum Beispiel:
Erkenntnisse
Die folgende Tabelle enthält die Insights, die für die Prompt-Generierung verwendet werden.
VI Einblick | Tag und Format |
---|---|
Videotitel | [Videotitel] <Videotitel> |
Objekterkennung | [Erkannte Objekte] <Objekt 1>, <Objekt 2>, ... |
Beschriftungen | [Visuelle Beschriftungen] <Etikett 1>, <Etikett 2>, ... |
OCR (Optische Zeichenerkennung) | [OCR] <ocr cluster1><ocr cluster2> ... |
Transkription und Sprecher | [Transkript] <Sprechername>: <Transkriptzeilen>\n<Sprechername>: <Transkriptzeilen>\n ... |
Gesichter | [Bekannte Personen] <Gesicht 1>, <Gesicht 2>, ... |
Audioeffekte (AED) | [Audioeffekte] < Effekt 1>, <Effekt 2>, ... |
Segmentposition innerhalb des Videos | [Tags] [Anfang, Mitte, Ende, Mitwirkende] |
Erstellen von Eingabeaufforderungsinhalten für ein Video
Verwenden Sie die Prompt-Content-API auf Ihrem indizierten Video, um das Prompt-Ready-Format für jedes Segment abzurufen.
Hinweis
Die Prompt-Inhalts-Insights werden den spezifischen Voreinstellungen unterworfen, die zum Indizieren des Videos verwendet werden.
- Verwenden Sie eine POST Create Prompt Content API-Anforderung, um die Aufforderungsinhalts-API zu generieren.
- Verwenden Sie zum Anzeigen des Eingabeaufforderungsinhalts eine Get PromptContent-API-Anforderung .
Beispielanforderung
Verwenden Sie Ihre AVI-Konto-ID und die Video-ID.
POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent
Beispielantwort
index
{
"algoVersion": "2.0.0",
"schemaVersion": "0.0.1",
"partition": null,
"name": "10_best_dressed_grammy",
"sections": [
{
"id": 0,
"start": "0:00:00",
"end": "0:00:40.915875",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY
CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
},
{
"id": 1,
"start": "0:00:40.915875",
"end": "0:01:17.202125",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
},
}
Auftragsstatus überprüfen
Es dauert ein paar Minuten, bis die Prompt-Aufgabe abgeschlossen ist. Wenn Sie den Auftragsstatus überprüfen möchten, können Sie eine API-Anforderung zum Abrufen des Auftragsstatus verwenden.
Verwenden Sie Keyframes, um ein LLM visuell anzusteuern.
Die Aufforderungsinhaltsanforderung unterstützt Sprachmodelle, die visuelle Eingabe in Eingabeaufforderungen verwenden können. Wenn Sie das Modell GPT-4V auswählen, können Sie Keyframes als Teil des Prompts für das Modell hinzufügen. Die in der Promptinhaltsantwort zurückgegebenen Frames stellen die Keyframes aus dem Video dar. Dieses Feature wird für Videos mit eingeschränkter oder ohne Transkription im Video empfohlen oder wenn Sie mehr Kontext für das Sprachmodell bereitstellen möchten, um die Ergebnisse zu verbessern.
Erstellen und Senden einer Aufforderungsinhaltsanforderung
Wie zuvor beschrieben, befindet sich der Textinhalt für die Eingabeaufforderung in der JSON-Antwort. Jede Zeichenfolge im Teil "frames" der JSON-Antwort ist die ID des Keyframes. Verwenden Sie Videominiaturansicht abrufen. Der ThumbnailId
ist der FrameId
aus dem Inhalt der Eingabeaufforderung. Sobald Sie sowohl über den Textinhalt als auch über die Keyframeartefakte verfügen, können Sie diese als Aufforderungen zu einem KI-Modell Ihrer Wahl kombinieren.
Begrenzungen
Die Eingabeaufforderungsfunktion ist für Videos optimiert, die so viele Einblicke wie möglich enthalten.