Omówienie usługi Azure AI Video Indexer

2025-06-05

Azure AI Video Indexer to aplikacja w chmurze, część usług Azure AI, oparta na usługach azure AI (takich jak rozpoznawanie twarzy, translator, usługa Azure AI Vision i mowa). Umożliwia wyodrębnianie szczegółowych informacji z filmów wideo przy użyciu modeli wideo i audio usługi Azure AI Video Indexer.

Usługa Azure AI Video Indexer analizuje zawartość wideo i audio, uruchamiając modele 30+ AI, generując szczegółowe informacje. Oto ilustracja przedstawiająca analizę audio i wideo wykonywaną przez usługę Azure AI Video Indexer w tle:

Aby rozpocząć wyodrębnianie szczegółowych informacji za pomocą usługi Azure AI Video Indexer, zobacz sekcję jak rozpocząć pracę .

Co mogę zrobić za pomocą usługi Azure AI Video Indexer?

Szczegółowe informacje usługi Azure AI Video Indexer można zastosować do wielu scenariuszy:

Głębokie wyszukiwanie: aby poprawić doświadczenie wyszukiwania w bibliotece wideo, wykorzystaj wnioski wyodrębnione z nagrania. Na przykład indeksowanie wypowiedzianych słów i twarzy może umożliwić wyszukiwanie momentów w filmie wideo, w którym dana osoba mówiła pewne słowa lub kiedy dwie osoby były postrzegane razem. Wyszukiwanie na podstawie takich szczegółowych informacji z filmów ma zastosowanie do agencji informacyjnych, instytutów edukacyjnych, nadawców, właścicieli zawartości rozrywki, aplikacji biznesowych dla przedsiębiorstw i ogólnie dla każdej branży, która ma bibliotekę wideo, którą użytkownicy muszą wyszukiwać.
Tworzenie treści: tworzenie zwiastunów, skrótów wideo, treści w mediach społecznościowych lub klipów informacyjnych na podstawie danych wyodrębnianych z zawartości przez usługę Azure AI Video Indexer. Ramki kluczowe, znaczniki scen i znaczniki czasowe pojawiania się osób i etykiet sprawiają, że proces tworzenia jest płynniejszy i łatwiejszy, dzięki czemu można łatwo uzyskać dostęp do potrzebnych części wideo podczas tworzenia treści.
Ułatwienia dostępu: niezależnie od tego, czy chcesz udostępnić zawartość osobom niepełnosprawnym, czy też chcesz, aby zawartość została rozpowszechniona w różnych regionach przy użyciu różnych języków, możesz użyć transkrypcji i tłumaczenia dostarczonego przez usługę Azure AI Video Indexer w wielu językach.
Zarabianie: usługa Azure AI Video Indexer może pomóc zwiększyć wartość filmów wideo. Na przykład branże korzystające z przychodów z reklam (mediów informacyjnych, mediów społecznościowych itd.) mogą dostarczać odpowiednie reklamy przy użyciu wyodrębnionych szczegółowych informacji jako dodatkowych sygnałów do serwera reklam.
Moderacja treści: Użyj modeli moderacji treści tekstowych i wizualnych, aby chronić użytkowników przed nieodpowiednią zawartością i weryfikować, czy publikowane treści są zgodne z wartościami Twojej organizacji. Możesz automatycznie zablokować niektóre filmy wideo lub powiadomić użytkowników o zawartości.
Zalecenia: Szczegółowe informacje wideo mogą służyć do poprawy zaangażowania użytkowników, podkreślając odpowiednie momenty wideo dla użytkowników. Tagując każdy film wideo z większą częścią metadanych, możesz polecić użytkownikom najbardziej odpowiednie filmy wideo i wyróżnić części wideo, które odpowiadają ich potrzebom.

Funkcje AI dla wideo i audio

Na poniższej liście przedstawiono wgląd, który można uzyskać z plików wideo/audio przy użyciu funkcji AI wideo i audio usługi Azure AI Video Indexer (modele).

Uwaga

Biorąc pod uwagę wymagania dotyczące prywatności i przepisów, niektóre z tych funkcji są ograniczone do użytku i/lub wymagają autoryzacji do pełnego wykorzystania.

Jeśli nie określono inaczej, model jest ogólnie dostępny.

Modele wideo

Wykrywanie twarzy: wykrywa i grupuje twarze wyświetlane w filmie wideo.
Identyfikacja osobistości: identyfikuje ponad 1 milion gwiazd — takich jak światowi liderzy, aktorzy, artyści, sportowcy, naukowcy, biznes i liderzy technologii na całym świecie. Dane o tych celebrytach można również znaleźć na różnych stronach internetowych (IMDB, Wikipedia itd.).
Identyfikacja twarzy na podstawie konta: Trenuje model dla określonego konta. Następnie rozpoznaje twarze w filmie wideo na podstawie wytrenowanego modelu. Aby uzyskać więcej informacji, zobacz Dostosowywanie modelu osoby z witryny internetowej usługi Azure AI Video Indexer i Dostosowywanie modelu osoby przy użyciu interfejsu API usługi Azure AI Video Indexer.
Wyodrębnianie miniatur dla twarzy: identyfikuje najlepszą przechwyconą twarz w każdej grupie twarzy (na podstawie jakości, rozmiaru i pozycji przedniej) i wyodrębnia ją jako element zawartości obrazu.
Optyczne rozpoznawanie znaków (OCR): wyodrębnia tekst z obrazów, takich jak obrazy, znaki uliczne i produkty w plikach multimedialnych, aby tworzyć szczegółowe informacje.
Moderowanie zawartości wizualnej: wykrywa wizualizacje dla dorosłych i/lub wizualizacji erotycznych.
Identyfikacja etykiet: identyfikuje wyświetlane obiekty wizualne i akcje.
Segmentacja sceny: określa, kiedy scena zmienia się w wideo na podstawie podpowiedzi wizualnych. Scena przedstawia pojedyncze zdarzenie i składa się z serii kolejnych zdjęć, które są semantycznie powiązane.
Wykrywanie ujęć: określa, kiedy ujęcie wideo zmienia się na podstawie podpowiedzi wizualnych. Ujęcie jest serią klatek wykonanych z tego samego aparatu fotograficznego. Aby uzyskać więcej informacji, zobacz Sceny, zdjęcia i ramki kluczowe.
Wykrywanie czarnej ramki: identyfikuje czarne ramki przedstawione w filmie wideo.
Wyodrębnianie ramek kluczowych: wykrywa stabilne ramki kluczowe w filmie.
Napisy końcowe przewijane: określa początek i koniec napisów końcowych przewijanych na końcu programów telewizyjnych i filmów.
Wykrywanie typu ujęć redakcyjnych: Taguje ujęcia na podstawie ich typu (takie jak szerokie ujęcie, średnie ujęcie, zbliżenie, ekstremalne zbliżenie, ujęcie dwóch osób, wiele osób, plenerowe i w pomieszczeniach, itd.). Aby uzyskać więcej informacji, zobacz Wykrywanie typów zdjęć redakcyjnych.
Wykrywanie obecności osób: identyfikuje osoby na filmach wideo i udostępnia informacje, takie jak lokalizacja osoby w ramce wideo (przy użyciu ramek ograniczających) oraz dokładny znacznik czasu (początek, koniec) i pewność, kiedy dana osoba się pojawi. Aby uzyskać więcej informacji, zobacz Śledzenie obserwowanych osób w filmie wideo.
- Dopasowana osoba: Dopasowuje osoby obserwowane w materiale wideo do odpowiednich wykrytych twarzy. Dopasowanie obserwowanych ludzi z twarzami zawiera informację o poziomie ufności.
- Wykryta odzież: Wykrywa typy odzieży osób pojawiających się w filmie i udostępnia informacje, takie jak długie lub krótkie rękawy, długie lub krótkie spodnie i spódnica lub sukienka. Wykryta odzież jest skojarzona z osobami noszącymi ją, a dokładny znacznik czasu (początek, koniec) wraz z poziomem ufności dla wykrywania są podane.
- Polecane ubrania: Rejestruje obrazy polecanych ubrań pojawiające się w filmie. Możesz ulepszyć reklamy docelowe, korzystając z informacji o wyróżnionych ubraniach. Aby uzyskać informacje na temat sposobu klasyfikacji polecanych obrazów odzieży i sposobu uzyskiwania szczegółowych informacji, zobacz polecane ubrania.
Wykrywanie obiektów Wykrywa unikatowe obiekty, które są również śledzone, tak aby w przypadku powrotu do ramki, były rozpoznawane. Zobacz Wykrywanie obiektów usługi Azure AI Video Indexer
Wykrywanie klapsów: identyfikuje następujące informacje dotyczące postprodukcji filmu podczas indeksowania wideo przy użyciu opcji zaawansowanego indeksowania.
- Wykrywanie clapperboard z wyodrębnianiem metadanych.
- Wykrywanie wzorców cyfrowych, w tym pasków kolorów.
- Wykrywanie klapek bez tekstu, w tym dopasowanie scen.
Aby uzyskać więcej informacji, zobacz Slate detection.
Wykrywanie logo tekstowego: pasuje do określonego wstępnie zdefiniowanego tekstu przy użyciu usługi Azure AI Video Indexer OCR. Na przykład, jeśli użytkownik utworzył tekstowe logo: Microsoft, różne wyglądy wyrazu Microsoft są wykrywane jako logo Microsoft. Aby uzyskać więcej informacji, zobacz Wykrywanie logo tekstowego.

Modele audio

Transkrypcja audio: konwertuje mowę na tekst ponad 50 języków i umożliwia rozszerzenia. Aby uzyskać więcej informacji, zobacz Obsługa języka usługi Azure AI Video Indexer.
Automatyczne wykrywanie języka: identyfikuje dominujący język mówiony. Aby uzyskać więcej informacji, zobacz Obsługa języka usługi Azure AI Video Indexer. Jeśli nie można zidentyfikować języka z ufnością, usługa Azure AI Video Indexer zakłada, że język mówiony to angielski.
Identyfikacja i transkrypcja mowy w wielu językach: identyfikuje język mówiony w różnych segmentach od audio. Wysyła każdy segment pliku multimedialnego do transkrypcji, a następnie łączy transkrypcję z powrotem z jedną ujednoliconą transkrypcją. Aby uzyskać więcej informacji na temat transkrypcji, zobacz Transkrypcja
Podpisy zamknięte: tworzy napisy w trzech formatach: VTT, TTML, SRT.
Przetwarzanie dwóch kanałów: Automatycznie wykrywa oddzielne transkrypty i scala je w jedną oś czasu.
Redukcja szumu: Poprawia nagrania telefoniczne lub inne hałaśliwe nagrania (na podstawie filtrów Skype'a).
Dostosowywanie transkrypcji (CRIS): Trenuje niestandardowe modele mowy na tekst w celu tworzenia transkrypcji specyficznych dla branży. Aby uzyskać więcej informacji, zobacz Dostosowywanie modelu językowego.
Rozpoznawanie mówców: mapuje i rozumie, kto wypowiedział które słowa oraz kiedy to się stało. W jednym pliku audio można wykryć szesnaście głośników.
Statystyki osoby mówiącej: udostępnia statystyki dotyczące współczynników mowy osób mówiących.
Moderowanie zawartości tekstowej: wykrywa jawny tekst w transkrypcji audio.
Wykrywanie emocji opartych na tekście: emocje, takie jak radość, smutek, gniew i strach, które zostały wykryte za pośrednictwem analizy transkrypcji.
Tłumaczenie: tworzy tłumaczenia transkrypcji audio w wielu różnych językach. Aby uzyskać więcej informacji, zobacz Obsługa języka usługi Azure AI Video Indexer.
Wykrywanie efektów dźwiękowych: Wykrywa następujące efekty dźwiękowe w niesłownych segmentach treści: alarm lub syrena, szczekanie psa, reakcje tłumu (doping, klaskanie i gwizdy), strzał lub eksplozja, śmiech, rozbijanie szkła i cisza.

Wykryte zdarzenia akustyczne znajdują się w pliku z napisami. Plik można pobrać z witryny internetowej usługi Azure AI Video Indexer. Aby uzyskać więcej informacji, zobacz Wykrywanie efektów dźwiękowych.

Uwaga

Pełny zestaw zdarzeń jest dostępny tylko wtedy, gdy podczas przesyłania pliku wybierzesz Zaawansowana analiza audio w ustawieniach predefiniowanych przesyłania. Domyślnie jest wykrywana tylko cisza.

Modele audio i wideo (wiele kanałów)

W przypadku indeksowania według jednego kanału dostępne są częściowe wyniki dla tych modeli.

Wyodrębnianie słów kluczowych: wyodrębnia słowa kluczowe z mowy i tekstu wizualnego.
Wyodrębnianie nazwanych jednostek: wyodrębnia marki, lokalizacje i osoby z mowy i tekstu wizualnego za pomocą przetwarzania języka naturalnego (NLP).
Wnioskowanie tematu: wyodrębnia tematy na podstawie różnych słów kluczowych (czyli słów kluczowych "Giełda Papierów Wartościowych", "Wall Street" tworzy temat "Ekonomia"). Model używa trzech różnych ontologii (IPTC, Wikipedia oraz hierarchicznej ontologii Video Indexer). Model używa transkrypcji (słów mówionych), zawartości OCR (tekstu wizualnego) i osobistości rozpoznawanych w filmie wideo przy użyciu modelu rozpoznawania twarzy usługi Video Indexer.
Artefakty: wyodrębnia bogaty zestaw artefaktów "następnego poziomu szczegółów" dla każdego z modeli.
Analiza tonacji: identyfikuje pozytywne, negatywne i neutralne tonacje z mowy i tekstu wizualnego.

Jak rozpocząć pracę z usługą Azure AI Video Indexer?

Dowiedz się, jak rozpocząć pracę z usługą Azure AI Video Indexer.

Po skonfigurowaniu zacznij korzystać ze szczegółowych informacji i zapoznaj się z innymi przewodnikami z instrukcjami.

Zgodność, prywatność i zabezpieczenia

Uwaga

11 czerwca 2020 r. firma Microsoft ogłosiła, że nie będzie sprzedawać technologii rozpoznawania twarzy policji w Stanach Zjednoczonych, dopóki nie zostanie uchwalona silna regulacja, zakorzeniona w prawach człowieka. W związku z tym klienci nie mogą korzystać z funkcji rozpoznawania twarzy ani funkcji zawartych w usługach Azure AI, takich jak Face lub Video Indexer, jeśli klient jest departamentem policji w Stanach Zjednoczonych lub zezwala na korzystanie z takich usług przez lub dla departamentu policji w Stanach Zjednoczonych.

Uwaga

Dostęp do funkcji identyfikacji twarzy, dostosowywania i rozpoznawania osobistości jest ograniczony na podstawie kryteriów kwalifikowalności i użycia w celu wspierania zasad odpowiedzialnej sztucznej inteligencji. Funkcje identyfikacji twarzy, dostosowywania i rozpoznawania osobistości są dostępne tylko dla klientów i partnerów zarządzanych przez firmę Microsoft. Użyj formularza zgłoszeniowego rozpoznawania twarzy aby ubiegać się o dostęp.

Musisz przestrzegać wszystkich obowiązujących przepisów w korzystaniu z usługi Azure AI Video Indexer i nie możesz używać usługi Azure AI Video Indexer ani żadnej usługi platformy Azure w sposób naruszający prawa innych osób lub może być szkodliwy dla innych osób.

Przed przekazaniem dowolnego klipu wideo/obrazu do usługi Azure AI Video Indexer musisz mieć wszystkie odpowiednie i prawne prawa do korzystania z wideo/obrazu, w tym, jeśli jest to wymagane przez prawo, wszystkie niezbędne zgody od osób fizycznych (jeśli istnieją) w filmie/obrazie, do korzystania, przetwarzania i przechowywania ich danych w usłudze Azure AI Video Indexer i na platformie Azure. Niektóre jurysdykcje mogą nakładać specjalne wymagania prawne dotyczące zbierania, przetwarzania online i przechowywania niektórych kategorii danych, takich jak dane biometryczne. Przed rozpoczęciem korzystania z usługi Azure AI Video Indexer i platformy Azure do przetwarzania i przechowywania jakichkolwiek danych podlegających specjalnym wymaganiom prawnym należy upewnić się, że twoje użycie jest zgodne ze wszystkimi takimi wymaganiami prawnymi, które mogą mieć zastosowanie do Ciebie i zamierzonego użycia.

Aby dowiedzieć się więcej na temat zgodności, prywatności i zabezpieczeń w usłudze Azure AI Video Indexer, odwiedź Centrum zaufania Firmy Microsoft. W przypadku zobowiązań dotyczących prywatności firmy Microsoft, praktyk dotyczących obsługi danych i przechowywania, w tym sposobu usuwania danych, zapoznaj się z oświadczeniem o ochronie prywatności firmy Microsoft, postanowieniami dotyczącymi usług online ("OST") i dodatkiem do przetwarzania danych ("DPA"). Korzystając z usługi Azure AI Video Indexer, wyrażasz zgodę na przestrzeganie OST, DPA i Oświadczenia o Ochronie Prywatności.

Udostępnij za pośrednictwem

Omówienie usługi Azure AI Video Indexer

Co mogę zrobić za pomocą usługi Azure AI Video Indexer?

Funkcje AI dla wideo i audio

Modele wideo

Modele audio

Modele audio i wideo (wiele kanałów)

Jak rozpocząć pracę z usługą Azure AI Video Indexer?

Zgodność, prywatność i zabezpieczenia

Opinia

Dodatkowe zasoby