Omówienie modelu AI AI Video Indexer Bring Your Own (BYO) AI Model (wersja zapoznawcza)

Artykuł
03/23/2024

Ten artykuł zawiera omówienie usługi Azure AI Video Indexer bring your own AI model( Bring Your Own AI model).

Wprowadzenie

Usługa Azure AI Video Indexer oferuje zestaw sztucznej inteligencji zoptymalizowany pod kątem zawartości wideo i audio, która może być stosowana do wielu typów zawartości. Możesz połączyć więcej szczegółowych informacji ze źródeł firmy Microsoft, źródeł niestandardowych lub źródeł innych firm za pomocą wbudowanych szczegółowych informacji usługi Azure AI Video Indexer w bezproblemowym środowisku.

Ta funkcja jest wystarczająco elastyczna, aby pomieścić wszystkie formularze i typy szczegółowych informacji, w tym zorientowane na wykrywanie i zorientowane na klasyfikację sztuczną inteligencję. Masz swobodę wybierania danych, na których działa model zewnętrzny, takich jak ramki wideo, cały film wideo lub tylko ścieżka dźwiękowa. Możesz również użyć innych szczegółowych informacji utworzonych już dla wideo, takich jak wykryte obiekty, twarze i etykiety. Dzięki temu można uruchomić analizę zewnętrzną tylko w powiązanej sekcji filmu wideo, poprawiając wydajność i zmniejszając koszty.

Funkcja jest dostępna zarówno dla przypadków użycia chmury, jak i krawędzi.

ZASTRZEŻENIE: Kodeks postępowania firmy Microsoft dla usługi Azure OpenAI ma zastosowanie do korzystania z funkcji Bring Your Own Model, która obejmuje prawo firmy Microsoft do zaprzestania dostępu i korzystania z tej funkcji w przypadku niezgodności.

Cennik

Dzięki modelowi BYO usługi Video Indexer użytkownicy mogą dodawać niestandardowe szczegółowe informacje do obiektów szczegółowych informacji wideo bez ponoszenia dodatkowych kosztów poza wymieniony koszt procesu indeksowania. Jednak wszelkie koszty związane ze środowiskiem zewnętrznym i modelem nie powinny być traktowane jako część ceny rozliczeniowej usługi Video Indexer. Zdecydowanie zalecamy przejrzenie naszej sekcji najlepszych rozwiązań, aby zoptymalizować logikę zewnętrzną i zmniejszyć koszty.

Ogólny przepływ pracy

Wideo jest przekazywane i indeksowane za pomocą usługi Azure AI Video Indexer.
Po zakończeniu procesu indeksowania zostanie utworzone zdarzenie.
Kod niestandardowy nasłuchuje zdarzenia i uruchamia proces przetwarzania końcowego wideo.
1. Uzyskaj szczegółowe informacje wyodrębnione przez usługę Video Indexer.
2. Pobierz ramkę kluczową dla sekcji wideo.
3. Wyślij ramkę kluczową do niestandardowego modelu sztucznej inteligencji.
4. Poprawianie niestandardowych szczegółowych informacji z powrotem do usługi Video Indexer.

Wymagania wstępne

Aby rozpocząć korzystanie z funkcji modelu BYO w usłudze Azure AI Video Indexer, musisz:

Trenowanie lub przenoszenie zewnętrznego modelu sztucznej inteligencji, który odbiera zasoby wideo i zwraca szczegółowe informacje.
Utwórz kod niestandardowy, który:
1. Nasłuchuje zdarzeń usługi Event Hubss.
2. Wyodrębnia element video id ze zdarzeń.
3. Pobiera odpowiednie zasoby, wywołując interfejsy API VI. W tym scenariuszu zażądaj pobierania indeksu wideo i uzyskiwania adresów URL sygnatur dostępu współdzielonego ramek.
4. Wysyła zasoby do zewnętrznego modelu sztucznej inteligencji.
5. Tworzy obiekt JSON na podstawie szczegółowych informacji pobranych z niestandardowego modelu sztucznej inteligencji.
6. Żądania aktualizacji poprawki indeksu wideo.

Schemat

Wartości wypełniania danych niestandardowych są następujące:

Nazwa/nazwisko	Opis	Wymagane
name	Nazwa modelu sztucznej inteligencji zewnętrznej	prawda
displayName	Nazwa grupy szczegółowych informacji, która ma być wyświetlana w usłudze Video Indexer	prawda
displayType	Definiuje typ reprezentacji interfejsu użytkownika dla tej konkretnej grupy szczegółowych informacji. Wartość domyślna: Kapsułki Możliwe typy: Kapsuła — tylko jeden poziom tekstu CapsuleAndTags — w przyszłości zostanie dodany tekst tylko na dwóch poziomach .	fałsz
wyników	Tablica obiektów reprezentujących szczegółowe informacje wykryte przez zewnętrzny model sztucznej inteligencji	prawda
results.id	Identyfikator podanego przez użytkownika obiektu wyniku powinien być unikatowy w zakresie wyników	prawda
results.type	To pole reprezentuje typ szczegółowych informacji, który został skategoryzowany przez zewnętrzny model sztucznej inteligencji. Służy do reprezentowania ogólnej kategorii szczegółowych informacji, co oznacza, że może istnieć wiele szczegółowych informacji tego typu zidentyfikowanych w określonej ramce. Przykłady typów szczegółowych informacji to: "koszykówka", "tłum klaskanie", "biała koszula".	prawda
results.subType	To pole reprezentuje typ szczegółowych informacji, który został skategoryzowany przez zewnętrzny model sztucznej inteligencji. Służy do reprezentowania określonej kategorii szczegółowych informacji, co oznacza, że w określonej ramce może istnieć tylko jeden wgląd w ten typ. Przykłady typów szczegółowych informacji to: "koszykówka #23", "John clapping", "Biała koszula Dana".	fałsz
results.metaData	Więcej danych na temat szczegółowych informacji	fałsz
results.instances	Tablica reprezentująca okna czasowe wykryto szczegółowe informacje.	prawda
results.instances.confidence	Ustaw z wynikiem ufności zwróconym z modelu zewnętrznego	fałsz
results.instances.start	Godzina rozpoczęcia wystąpienia w filmie wideo. Formacie: `hh.mm.ss.ff`	fałsz
results.instances.end	Godzina zakończenia wystąpienia w filmie wideo. Formacie: `hh.mm.ss.ff`	fałsz
results.instances.adjustedStart	Używany podczas wyświetlania w interfejsie użytkownika, ustawiany z wartością startu	fałsz
results.instances.adjustedEnd	Używany podczas wyświetlania w interfejsie użytkownika, ustawiany z wartością z End	fałsz

Framerate

Usługa Azure AI Video Indexer obsługuje jedną liczbę klatek na sekundę dla poziomu wideo w warstwie Podstawowa/Standardowa i cztery jednostki FPS na poziomie zaawansowanym. Wyższa szybkość klatek nie jest obsługiwana. Indeksowanie można zoptymalizować, wykonując następujące czynności:

Przetwarzanie tylko określonych segmentów, które są interesujące, takich jak ramki, które zawierają wykryty dźwięk, obiekt lub osobę lub
próbka niższej liczby klatek na sekundę, na przykład co 5 sekund.

Wybór ramki

Do wyboru czasu można użyć parametrów pomijania ramek i rozmiaru strony. Formuła to wartość pominięcia ramek pomnożona przez liczbę klatek na sekundę oraz wartość rozmiaru strony pomnożona przez liczbę klatek na sekundę w celu określenia zakresu czasu.

URL:https://api.videoindexer.ai/{location}/Accounts/{accountId}/Videos/{videoId}/FramesFilePaths[?urlsLifetimeSeconds][&pageSize][&skip][&accessToken]

Parametry:

Nazwa/nazwisko	Opis	Wymagane
videoId	Identyfikator wideo	prawda
urlsLifetimeSeconds	okres istnienia adresów URL w sekundach	prawda
Pagesize	Maksymalna liczba ramek zwracanych przez każde wywołanie	fałsz
Pominąć	Ramki do pominięcia	fałsz
accessToken	Należy podać jako parametr w ciągu zapytania adresu URL lub w nagłówku autoryzacji jako token elementu nośnego. Zakres tokenu dostępu powinien mieć wartość Konto, a uprawnienie powinno mieć wartość Czytelnik.	prawda

Odpowiedź:FrameFilePathsResult

Nazwa/nazwisko	Opis	Wymagane
wyników	Lista parametrów FrameUriData	Fałsz
Nextpage	Dane stronicowania (pomiń, pageSize, isDone)	Fałsz

FrameFilePathData

Nazwa/nazwisko	Opis
name	Nazwa pliku ramki
frameIndex	Indeks ramki
Starttime	Godzina rozpoczęcia ramki w filmie wideo
Endtime	Godzina zakończenia ramki w filmie wideo
Filepath	Identyfikator URI sygnatury dostępu współdzielonego ramki w środowisku chmury lub ścieżce pliku w środowiskach brzegowych

Przykładowe dane wysyłane z aplikacji niestandardowej w formacie schematu

"customInsights": [
    {
        "Name": "tattoo",  
        "displayName": "Tattoo’s model",
        "displayType": "CapsuleAndTag",
        "Results": [   
            {   
                "id": 1,   
                "Type": "Dragon",   
                "WikiDataId": "57F",   
                "SubType": "Leg tattoo",   
                "Metadata": "",   
                "Instances": [
                    {
                        "Confidence": 0.49,
                        "AdjustedStart": "0:00:32.72", 
                        "AdjustedEnd": "0:00:42.72",
                        "start": "0:00:32.72",
                        "end": "0:00:42.72",
                    }
                ]
            }
        ]
    }...

Przykłady modelu Bring Your Own

Przykłady byO

Korzystanie z interfejsu API usługi Azure AI Video Indexer

Udostępnij za pośrednictwem

Omówienie modelu AI AI Video Indexer Bring Your Own (BYO) AI Model (wersja zapoznawcza)

Wprowadzenie

Cennik

Ogólny przepływ pracy

Wymagania wstępne

Schemat

Framerate

Wybór ramki

Przykładowe dane wysyłane z aplikacji niestandardowej w formacie schematu

Przykłady modelu Bring Your Own

Opinia

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Omówienie modelu AI AI Video Indexer Bring Your Own (BYO) AI Model (wersja zapoznawcza)

Wprowadzenie

Cennik

Ogólny przepływ pracy

Wymagania wstępne

Schemat

Framerate

Wybór ramki

Przykładowe dane wysyłane z aplikacji niestandardowej w formacie schematu

Przykłady modelu Bring Your Own

Powiązana zawartość

Opinia

Opinia

Dodatkowe zasoby