Udostępnij za pośrednictwem


Omówienie modelu sztucznej inteligencji usługi Azure AI Video Indexer Bring Your Own (BYO)

Ten artykuł zawiera omówienie funkcji Azure AI Video Indexer skonfiguruj własny model AI.

Wprowadzenie

Możesz połączyć szczegółowe informacje z innych źródeł, w tym modeli klasyfikacji i wykrywania innych firm, aby utworzyć szczegółową analizę danych multimedialnych. Możesz użyć co najmniej jednego modelu oferowanego przez firmę Microsoft, zewnętrznego modelu niestandardowego lub dostosowanego modelu osoby, marki, mowy lub języka oferowanego przez usługę Azure Video Indexer.

Ta funkcja jest również dostępna dla funkcji VI włączonej przez usługę Arc.

Uwaga / Notatka

ZASTRZEŻENIE: Kodeks postępowania firmy Microsoft dla usługi Azure OpenAI ma zastosowanie do korzystania z funkcji Bring Your Own Model, która obejmuje prawo firmy Microsoft do zaprzestania dostępu i korzystania z tej funkcji w przypadku niezgodności.

Cennik

Model BYO usługi Video Indexer pozwala na dodawanie niestandardowych informacji do obiektów analizy wideo bez ponoszenia dodatkowych kosztów, poza wymienionymi kosztami procesu indeksowania. Jednak wszelkie koszty związane ze środowiskiem zewnętrznym i modelem nie powinny być traktowane jako część ceny rozliczeniowej usługi Video Indexer. Zdecydowanie zalecamy przejrzenie naszej sekcji najlepszych rozwiązań, aby zoptymalizować logikę zewnętrzną i zmniejszyć koszty.

Ogólny przepływ pracy

  1. Wideo jest przekazywane i indeksowane za pomocą usługi Azure AI Video Indexer.
  2. Po zakończeniu procesu indeksowania zostanie utworzone zdarzenie.
  3. Własny kod nasłuchuje zdarzenia i uruchamia proces postprodukcji wideo.
    1. Uzyskaj szczegółowe informacje wyodrębnione przez usługę Video Indexer.
    2. Pobierz ramkę kluczową dla sekcji wideo.
    3. Wyślij ramkę kluczową do niestandardowego modelu sztucznej inteligencji.
    4. Prześlij niestandardowe wnioski do usługi Video Indexer.
      Diagram przedstawiający ogólny proces przepływu pracy w modelu BYOD (Bring Your Own Device).

Wymagania wstępne

Aby rozpocząć korzystanie z funkcji modelu BYO w usłudze Azure AI Video Indexer, musisz:

  1. Trenowanie lub sprowadzenie zewnętrznego modelu sztucznej inteligencji, który odbiera zasoby wideo i zwraca wnioski.
  2. Utwórz kod niestandardowy, który:
    1. Nasłuchuje zdarzeń usługi Event Hubs.
    2. Wyodrębnia element video id ze zdarzeń.
    3. Pobiera odpowiednie zasoby, wywołując interfejsy API VI. W tym scenariuszu, zażądaj Get Video Index i uzyskaj SAS URLs ramek.
    4. Wysyła zasoby do zewnętrznego modelu sztucznej inteligencji.
    5. Tworzy obiekt JSON na podstawie szczegółowych informacji pobranych z niestandardowego modelu sztucznej inteligencji.
    6. Żądania aktualizacji łatki indeksu wideo.

Schemat

Wartości wypełniania danych niestandardowych są następujące:

Nazwa/nazwisko Opis Wymagane
nazwa Nazwa modelu sztucznej inteligencji zewnętrznej prawda
WyświetlanaNazwa Nazwa grupy Insight, wyświetlana w Video Indexer prawda
TypWyświetlania Definiuje typ reprezentacji interfejsu użytkownika dla tej konkretnej grupy analiz. Wartość domyślna: Kapsułki
Możliwe typy:
Kapsuła — tylko jeden poziom tekstu
CapsuleAndTags -Two poziomów tekstu tylko więcej zostanie dodanych w przyszłości.
fałsz
Wyniki Tablica obiektów reprezentujących szczegółowe informacje wykryte przez zewnętrzny model sztucznej inteligencji prawda
wyniki.id Identyfikator podanego przez użytkownika obiektu wyniku powinien być unikatowy w zakresie wyników prawda
wyniki.typ To pole reprezentuje typ szczegółowych informacji, który został skategoryzowany przez zewnętrzny model sztucznej inteligencji. Służy do reprezentowania ogólnej kategorii szczegółowych informacji, co oznacza, że może istnieć wiele szczegółowych informacji tego typu zidentyfikowanych w określonej ramce. Przykłady typów szczegółowych informacji to: basketball, crowd clapping, white shirt. prawda
results.subType To pole reprezentuje typ szczegółowych informacji, który został skategoryzowany przez zewnętrzny model sztucznej inteligencji. Służy do reprezentowania określonej kategorii wglądu, co oznacza, że w określonej ramce można zidentyfikować tylko jeden wgląd tego typu. Przykłady typów szczegółowych informacji to: basketball #23, John clapping, Dana’s white shirt. fałsz
results.metaData Więcej danych na temat wglądu fałsz
wyniki.instancje Tablica reprezentująca okna czasowe, w których wykryto wnioski. prawda
wyniki.instancje.pewność Ustaw przy użyciu wyniku ufności zwróconego przez model zewnętrzny fałsz
wyniki.instancje.start Godzina rozpoczęcia wystąpienia w filmie wideo. Format: hh.mm.ss.ff fałsz
wyniki.instancje.koniec Godzina zakończenia wystąpienia w filmie wideo. Format: hh.mm.ss.ff fałsz
wyniki.instancje.skorygowanyStart Używany podczas wyświetlania w interfejsie użytkownika, ustawiany z wartością startu fałsz
wyniki.instancje.skorygowaneZakonczenie Używany podczas wyświetlania w interfejsie użytkownika, ustawiany z wartością z End fałsz

Liczba klatek na sekundę

Usługa Azure AI Video Indexer obsługuje jedną liczbę klatek na sekundę dla poziomu wideo w warstwie Podstawowa/Standardowa i cztery jednostki FPS na poziomie zaawansowanym. Wyższa szybkość klatek nie jest obsługiwana. Indeksowanie można zoptymalizować, wykonując następujące czynności:

  • Przetwarzanie tylko określonych segmentów, które są interesujące, takich jak ramki, które zawierają wykryty dźwięk, obiekt lub osobę lub
  • Z próbkuj niższą liczbę klatek na sekundę, na przykład co 5 sekund.

Wybór ramki

Do wyboru czasu można użyć parametrów pomijania ramek i rozmiaru strony. Formuła jest sumą wartości pominięcia ramek pomnożonej przez liczbę klatek na sekundę oraz wartości rozmiaru strony pomnożonej przez liczbę klatek na sekundę, co można wykorzystać do określenia zakresu czasu.

Adres URL:https://api.videoindexer.ai/{location}/Accounts/{accountId}/Videos/{videoId}/FramesFilePaths[?urlsLifetimeSeconds][&pageSize][&skip][&accessToken]

Parametry:

Nazwa/nazwisko Opis Wymagane
videoId Identyfikator wideo prawda
urlsLifetimeSeconds Okres istnienia adresów URL w sekundach prawda
Pagesize Maksymalna liczba ramek, które mają być zwracane dla każdego wywołania fałsz
pominąć Liczba ramek do pominięcia fałsz
accessToken Należy podać jako parametr w zapytaniu URL lub w nagłówku Authorization jako token Bearer. Zakres tokenu dostępu powinien być ustawiony na Konto, a uprawnienie ustawione na Odczyt. prawda

Odpowiedź:FrameFilePathsResult

Nazwa/nazwisko Opis Wymagane
Wyniki Lista parametrów FrameUriData Fałsz
NextPage Dane stronicowania (pomiń, rozmiar strony, zakończono) Fałsz

FrameFilePathData

Nazwa/nazwisko Opis
nazwa Nazwa pliku ramki
frameIndex Indeks ramki
Godzina rozpoczęcia Godzina rozpoczęcia ramki w filmie wideo
Godzina zakończenia Godzina zakończenia ramki w filmie wideo
filePath Identyfikator SAS ramki w środowisku chmurowym lub ścieżka pliku w środowiskach brzegowych

Przykładowe dane wysyłane z aplikacji niestandardowej w formacie schematu

"customInsights": [
    {
        "Name": "tattoo",  
        "displayName": "Tattoo’s model",
        "displayType": "CapsuleAndTag",
        "Results": [   
            {   
                "id": 1,   
                "Type": "Dragon",   
                "WikiDataId": "57F",   
                "SubType": "Leg tattoo",   
                "Metadata": "",   
                "Instances": [
                    {
                        "Confidence": 0.49,
                        "AdjustedStart": "0:00:32.72", 
                        "AdjustedEnd": "0:00:42.72",
                        "start": "0:00:32.72",
                        "end": "0:00:42.72",
                    }
                ]
            }
        ]
    }... 

Przykłady modelu Bring Your Own