Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Usługa Azure AI Video Indexer integruje się z dużymi modelami językowymi (LLMs). LLMs to modele sztucznej inteligencji języka naturalnego, których można użyć do zadawania pytań dotyczących zawartości wideo i wiele innych. Wyodrębnij informacje z usługi Azure AI Video Indexer w formacie gotowym do użycia z LLM. Nie ma potrzeby ponownego indeksowania filmów wideo w celu utworzenia formatu wideo gotowego do wyświetlenia monitu.
Możesz użyć monitów LLM z usługą Azure AI Video Indexer w chmurze lub w swoim centrum danych, korzystając z usługi Azure AI Video Indexer aktywowanej przez Arc.
Przypadki użycia
Generowanie podsumowania wideo: możesz poprosić model LLM o wygenerowanie podsumowań całych filmów wideo lub segmentów wideo. Te segmenty można połączyć, aby utworzyć kilka typów podsumowań, takich jak podsumowanie informacyjne, teaser lub inne podsumowanie w zależności od potrzeb.
Możliwość wyszukiwania: konwertując zawartość wideo na format tekstowy gotowy do przetwarzania zapytań w języku naturalnym, można wykonywać szczegółowe wyszukiwania w treści wideo. Może znacznie poprawić odnajdywanie w dużych bibliotekach wideo na podstawie określonych zapytań.
Tworzenie zawartości: możesz wysyłać zapytania do biblioteki wideo o określone momenty w klipach wideo skojarzonych z określonymi emocjami lub zdarzeniami. Na przykład możesz pobrać zabawne lub smutne chwile z serii wideo i użyć ich do utworzenia promo lub wyróżnienia. Podobnie możesz pobrać momenty związane z konkretnymi wydarzeniami, które są interesujące, takimi jak "trzęsienia ziemi w ciągu ostatniej dekady".
Cele edukacyjne: twórz podsumowania z filmów wykładowych, aby ułatwić uczniom przeglądanie i zrozumienie materiału. Uczniowie mogą również zadawać konkretne pytania związane z materiałem wykładowym. Możesz zapoznać się z dokładną częścią filmu wideo, w której omówiono artykuł, co zwiększa efektywność nauki.
Interaktywne środowiska: możesz tworzyć interaktywne środowiska, takie jak czatboty wideo lub asystentów wirtualnych, które mogą odpowiadać na zapytania użytkowników na podstawie zawartości filmu wideo.
Jak to działa
Aby dane wyjściowe były gotowe do wyświetlania polecenia, wideo jest podzielone na spójne sekcje, które odpowiadają zarówno istocie wideo, jak i rozmiarowi polecenia. Sekcje są podzielone na podstawie segmentacji sceny usługi Azure AI Video Indexer i innych szczegółowych informacji. Wyniki zawartości monitu są konsolidowane i generowane osobno dla poszczególnych segmentów. Na przykład:
Wyniki analiz
Poniższa tabela zawiera spostrzeżenia używane do generowania podpowiedzi.
Szczegółowe informacje VI | Oznaczenie i formatowanie |
---|---|
Tytuł wideo | [Tytuł wideo] <tytuł wideo> |
Wykrywanie obiektów | [Wykryte obiekty] <obiekt 1>, <obiekt 2>, ... |
Etykiety | [Etykiety wizualne] <etykieta 1>, <etykieta 2>, ... |
Rozpoznawanie Znaków (OCR) | [OCR] <ocr cluster1><ocr cluster2> ... |
Transkrypcja i prelegenci | [Transkrypcja] <imię mówcy>: <linia transkrypcji>\n<imię mówcy>: <linia transkrypcji>\n ... |
Twarze | [Znane osoby] <twarz 1>, <twarz 2>, ... |
Efekty dźwiękowe (AED) | [Efekty dźwiękowe] < efekt 1>, <efekt 2>, ... |
Pozycja segmentu w filmie wideo | [Tagi] [Początek, Środek, Koniec, Napisy końcowe] |
Tworzenie zawartości dla wideo
Użyj interfejsu API Prompt Content przy indeksowanym wideo, aby uzyskać format Prompt-Ready dla każdego segmentu.
Uwaga
Spostrzeżenia dotyczące zawartości promptu są poddawane określonym ustawieniom wstępnym używanym do indeksowania wideo.
- Aby wygenerować interfejs API monitu zawartości, użyj żądania POST Create Prompt Content API.
- Aby wyświetlić zawartość monitu, użyj żądania interfejsu API Get PromptContent .
Przykładowe żądanie
Użyj identyfikatora konta AVI i identyfikatora wideo.
POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent
Przykładowa odpowiedź
index
{
"algoVersion": "2.0.0",
"schemaVersion": "0.0.1",
"partition": null,
"name": "10_best_dressed_grammy",
"sections": [
{
"id": 0,
"start": "0:00:00",
"end": "0:00:40.915875",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY
CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
},
{
"id": 1,
"start": "0:00:40.915875",
"end": "0:01:17.202125",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
},
}
Sprawdzanie stanu zadania
Ukończenie operacji zajmuje kilka minut. Jeśli chcesz sprawdzić stan zadania, możesz użyć żądania interfejsu API Pobierania stanu zadania .
Użyj ramek kluczowych, aby wizualnie pobudzić LLM
Żądanie dotyczące zawartości monitów obsługuje modele językowe, które mogą wykorzystywać wizualne elementy jako dane wejściowe w monitach. Podczas wybierania modelu GPT-4V można uwzględnić ramki kluczowe w ramach monitu dostarczonego do modelu. Klatki zwrócone w odpowiedzi zawartości monitu reprezentują klatki kluczowe z filmu wideo. Ta funkcja jest zalecana w przypadku filmów wideo z ograniczoną liczbą lub brakiem transkrypcji w filmie wideo lub gdy chcesz udostępnić więcej kontekstu modelowi językowemu, aby poprawić jego wyniki.
Utwórz i wyślij prośbę o treść.
Jak opisano wcześniej, tekstowa zawartość monitu znajduje się w odpowiedzi JSON. Każdy ciąg w części "ramki" odpowiedzi JSON jest identyfikatorem klatki kluczowej. Użyj Pobierz miniaturę wideoThumbnailId
to FrameId
z zawartości monitu. Gdy masz zarówno zawartość tekstową, jak i artefakty klatek kluczowych, możesz połączyć je jako monity dla wybranego modelu sztucznej inteligencji.
Ograniczenia
Funkcja monitu jest zoptymalizowana pod kątem filmów wideo zawierających jak najwięcej szczegółowych informacji.