Przewodnik konfiguracji indeksowania

Artykuł
09/03/2024

Ważne jest, aby efektywnie indeksować opcje konfiguracji, zapewniając jednocześnie spełnienie celów indeksowania. Podczas indeksowania filmów wideo użytkownicy mogą używać ustawień domyślnych lub dostosowywać wiele ustawień. Usługa Azure AI Video Indexer umożliwia wybór między różnymi językami, indeksowaniem, niestandardowymi modelami i ustawieniami przesyłania strumieniowego, które mają wpływ na wygenerowane, koszt i wydajność szczegółowych informacji.

W tym artykule opisano poszczególne opcje i wpływ każdej opcji na włączenie świadomych decyzji podczas indeksowania. W tym artykule omówiono środowisko witryny internetowej usługi Azure AI Video Indexer, ale te same opcje mają zastosowanie podczas przesyłania zadań za pośrednictwem interfejsu API (zobacz przewodnik po interfejsie API). Podczas indeksowania dużych woluminów postępuj zgodnie z przewodnikiem dotyczącym skalowania.

Początkowy ekran przekazywania przedstawia opcje definiowania nazwy wideo, języka źródłowego i ustawień prywatności.

Zrzut ekranu przedstawia opcje definiowania nazwy wideo, języka źródłowego i ustawień prywatności.

Wszystkie inne opcje ustawień są wyświetlane, jeśli wybierzesz pozycję Opcje zaawansowane.

Zrzut ekranu przedstawia zaawansowane opcje definiowania nazwy wideo, języka źródłowego i ustawień prywatności.

Ustawienia domyślne

Domyślnie usługa Azure AI Video Indexer jest skonfigurowana do języka źródłowego wideo w języku angielskim, prywatności ustawień prywatnych, standardowych audio i wideo oraz jakości transmisji strumieniowej pojedynczej szybkości transmisji bitów.

Napiwek

W tym temacie opisano szczegółowo każdą opcję indeksowania.

Poniżej przedstawiono kilka przykładów użycia ustawienia domyślnego, które może nie być dobrym rozwiązaniem:

Jeśli potrzebujesz szczegółowych informacji obserwowanych osób lub dopasowanej osoby, która jest dostępna tylko za pośrednictwem zaawansowanego wideo.
Jeśli używasz tylko usługi Azure AI Video Indexer do transkrypcji i tłumaczenia, indeksowanie zarówno audio, jak i wideo nie jest wymagane, podstawowa dla dźwięku powinna wystarczyć.
Jeśli korzystasz ze szczegółowych informacji usługi Azure AI Video Indexer, ale nie musisz generować nowego pliku multimedialnego, przesyłanie strumieniowe nie jest konieczne i nie należy wybierać żadnego przesyłania strumieniowego , aby uniknąć zadania kodowania i powiązanego z nim kosztu.
Jeśli wideo jest głównie w języku, który nie jest angielski.

Język źródłowy wideo

Jeśli znasz język używany w filmie wideo, wybierz język z listy języków źródłowych wideo. Jeśli nie masz pewności co do języka filmu wideo, wybierz pozycję Automatycznie wykrywaj pojedynczy język. Podczas przekazywania i indeksowania wideo usługa Azure AI Video Indexer będzie używać identyfikacji języka (LID) do wykrywania języka wideo i generowania transkrypcji i szczegółowych informacji za pomocą wykrytego języka.

Jeśli wideo może zawierać wiele języków i nie masz pewności, które z nich są dostępne, wybierz pozycję Automatycznie wykrywaj wiele języków. W takim przypadku podczas przekazywania i indeksowania wideo zostanie zastosowane wykrywanie wielu języków (MLID).

Chociaż funkcja automatycznego wykrywania jest doskonałym rozwiązaniem, gdy język w filmach wideo różni się, podczas korzystania z LID lub MLID należy wziąć pod uwagę dwa punkty:

LID/MLID nie obsługują wszystkich języków obsługiwanych przez usługę Azure AI Video Indexer.
Transkrypcja jest wyższa jakością podczas wstępnego wybierania odpowiedniego języka filmu wideo.

Dowiedz się więcej o obsłudze języków i obsługiwanych językach.

Prywatność

Ta opcja umożliwia określenie, czy szczegółowe informacje powinny być dostępne tylko dla użytkowników na koncie usługi Azure AI Video Indexer, czy też dla każdej osoby z linkiem.

Opcje indeksowania

Podczas indeksowania wideo przy użyciu ustawień domyślnych należy pamiętać, że każda z opcji indeksowania audio i wideo może być wyceniona inaczej. Aby uzyskać szczegółowe informacje, zobacz Cennik usługi Azure AI Video Indexer.

Poniżej przedstawiono opcje typu indeksowania ze szczegółowymi informacjami. Aby zmodyfikować typ indeksowania, wybierz pozycję Ustawienia zaawansowane.

Tylko dźwięk	Tylko wideo	Dźwięk i wideo
Podstawowy	Podstawowy	Podstawowa
Standardowa (Standard)	Standardowa	Standardowa
Zaawansowani	Zaawansowani	Zaawansowani

Ustawienia zaawansowane

Tylko dźwięk

Podstawowe: Indeksy i wyodrębnianie szczegółowych informacji przy użyciu tylko audio (ignorowanie wideo) i zapewnia następujące szczegółowe informacje: transkrypcja, tłumaczenie, formatowanie podpisów wyjściowych i napisów (napisy zamknięte).
Standardowa: Indeksy i wyodrębnianie szczegółowych informacji przy użyciu tylko audio (ignorowanie wideo) i udostępniają następujące szczegółowe informacje: transkrypcja, tłumaczenie, formatowanie podpisów wyjściowych i napisów (napisów), automatyczne wykrywanie języka, emocje, słowa kluczowe, nazwane jednostki (marki, lokalizacje, osoby), tonacje, prelegenci, wyodrębnianie tematów i konwersja tekstowa tryb namiotu ration.
Zaawansowane: indeksy i wyodrębnianie szczegółowych informacji przy użyciu tylko dźwięku (ignorowanie wideo) i udostępniają następujące szczegółowe informacje: transkrypcja, tłumaczenie, formatowanie podpisów wyjściowych i napisów (napisów), automatyczne wykrywanie języka, wykrywanie zdarzeń audio, emocje, słowa kluczowe, nazwane jednostki (marki, lokalizacje, osoby), tonacje, prelegenci, wyodrębnianie tematów i konwersja tekstowa tryb namiotu ration.

Tylko wideo

Podstawowe: indeksy i wyodrębnianie szczegółowych informacji przy użyciu tylko wideo (ignorowanie dźwięku) i udostępniają następujące szczegółowe informacje: etykiety, wykrywanie obiektów, OCR, sceny (klatki kluczowe i zdjęcia) oraz wykrywanie czarnej ramki.
Standardowa: Indeksy i wyodrębnianie szczegółowych informacji przy użyciu tylko wideo (ignorowanie dźwięku) i udostępniają następujące szczegółowe informacje: etykiety (OCR), nazwane jednostki (OCR — marki, lokalizacje, osoby), OCR, osoby, sceny (klatki kluczowe i zdjęcia), czarne ramki, con tryb namiotu ration i wyodrębnianie tematów (OCR).
Zaawansowane: Indeksy i wyodrębnianie szczegółowych informacji przy użyciu tylko wideo (ignorowanie dźwięku) i zapewnia następujące szczegółowe informacje: etykiety (OCR), dopasowane osoby, nazwane jednostki (OCR — marki, lokalizacje, osoby), OCR, obserwowane osoby, osoby, sceny (klatki kluczowe i zdjęcia), wykrywanie tablicy clapperboard, wykrywanie wzorców cyfrowych, polecane szczegółowe informacje o ubraniach, wykrywanie bez tekstu łupków, wykrywanie logo tekstowego, czarne ramki, wizualne con tryb namiotu ration i wyodrębnianie tematów (OCR).

Dźwięk i wideo

Podstawowe: Indeksy i wyodrębnianie szczegółowych informacji przy użyciu audio i wideo oraz zapewnia następujące szczegółowe informacje: transkrypcja, tłumaczenie, formatowanie podpisów wyjściowych i napisów (napisy zamknięte), wykrywanie obiektów, OCR, sceny (klatki kluczowe i zdjęcia) oraz czarne ramki.
Standardowa: Indeksy i wyodrębnianie szczegółowych informacji przy użyciu audio i wideo oraz zapewnia następujące szczegółowe informacje: transkrypcja, tłumaczenie, formatowanie podpisów wyjściowych i napisów (napisy), automatyczne wykrywanie języka, emocje, słowa kluczowe, nazwane jednostki (marki, lokalizacje, osoby), OCR, sceny (klatki kluczowe i zdjęcia), czarne ramki, wizualizacja con tryb namiotu ration, ludzie, tonacje, prelegenci, wyodrębnianie tematów i tekstowy conual contryb namiotu ration.
Zaawansowane: Indeksy i wyodrębnianie szczegółowych informacji przy użyciu dźwięku i wideo oraz udostępniają następujące szczegółowe informacje: transkrypcja, tłumaczenie, formatowanie podpisów wyjściowych i napisów (napisy), automatyczne wykrywanie języka, con tryb namiotu ration, wykrywanie zdarzeń audio, emocje, słowa kluczowe, dopasowane osoby, nazwane jednostki (marki, lokalizacje, osoby), OCR, obserwowane osoby, wykrywanie klapperboardów, wykrywanie wzorców cyfrowych, polecane ubrania szczegółowe informacje, wykrywanie bez tekstu łupków, tonacje, głośniki, sceny (klatki kluczowe i zdjęcia), wykrywanie logo tekstowego, czarne ramki, kon tryb namiotu ration wizualizacji i wyodrębnianie tematów.

Opcje jakości przesyłania strumieniowego

Istnieją dwie opcje przesyłania strumieniowego indeksowanych wideo:

Pojedyncza szybkość transmisji bitów: jeśli wysokość wideo jest większa lub równa 720p HD, usługa Azure AI Video Indexer koduje ją z rozdzielczością 1280 x 720. W przeciwnym razie kodowany jest jako 640 x 468.
Brak przesyłania strumieniowego: szczegółowe informacje nie są generowane, ale nie jest wykonywana żadna operacja przesyłania strumieniowego, a wideo nie jest dostępne w witrynie internetowej usługi Azure AI Video Indexer. Po wybraniu opcji Bez przesyłania strumieniowego nie są naliczane opłaty za kodowanie.

Dostosowywanie modeli zawartości

Usługa Azure AI Video Indexer umożliwia dostosowanie niektórych modeli do konkretnego przypadku użycia. Modele te obejmują marki, język i osobę. Jeśli masz dostosowane modele, ta sekcja portalu internetowego umożliwia skonfigurowanie, czy jeden z utworzonych modeli powinien być używany do indeksowania.

Udostępnij za pośrednictwem