Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
- Usługa Azure AI Content Understanding jest dostępna w wersji zapoznawczej. Publiczne wersje zapoznawcze zapewniają wczesny dostęp do funkcji, które są w aktywnym rozwoju.
- Funkcje, podejścia i procesy mogą ulec zmianie lub mieć ograniczone możliwości przed ogólną dostępnością.
- Aby uzyskać więcej informacji, zobacz Dodatkowe warunki użytkowania dla wersji zapoznawczych platformy Microsoft Azure.
Usługa Azure AI Content Understanding umożliwia generowanie standardowego zestawu metadanych wideo i tworzenie niestandardowych pól dla konkretnego przypadku użycia przy użyciu możliwości modeli generujących. Usługa Content Understanding pomaga efektywnie zarządzać, kategoryzować, pobierać i tworzyć przepływy pracy dla zasobów wideo. Rozszerza bibliotekę elementów zawartości multimediów, obsługuje przepływy pracy, takie jak generowanie wyróżnienia, kategoryzowanie zawartości i ułatwia aplikacje, takie jak generowanie rozszerzonej generacji (RAG).
Wstępnie skompilowany analizator wideo generuje kod Markdown gotowy do użycia w języku RAG, który obejmuje:
- Transkrypcja: Wbudowane transkrypcje w standardowym formacie WEBVTT
- Opis: Opisy segmentów języka naturalnego z kontekstem wizualizacji i mowy
- Segmentacja: Automatyczna segmentacja sceny dzieląca wideo na fragmenty logiczne
- Klatki kluczowe: Uporządkowane miniatury klatek kluczowych umożliwiające dokładną analizę
Ten format można wprowadzić bezpośrednio do magazynu wektorów, aby umożliwić działanie agenta lub przepływów pracy RAG — bez konieczności dalszego przetwarzania.
Z tego miejsca możesz dostosować analizator, aby uzyskać bardziej szczegółową kontrolę danych wyjściowych. Możesz zdefiniować pola niestandardowe, segmenty lub włączyć identyfikację twarzy. Dostosowywanie umożliwia wykorzystanie pełnej mocy modeli generatywnych do wydobywania głębokich wglądów z detali wizualnych i dźwiękowych wideo.
Na przykład dostosowywanie umożliwia:
- Definiowanie pól niestandardowych: aby określić, jakie produkty i marki są widoczne lub wymienione w filmie wideo.
- Generowanie segmentów niestandardowych: aby podzielić emisję wiadomości na rozdziały na podstawie omówionych tematów lub wiadomości.
-
Zidentyfikuj osoby korzystające z katalogu osób, które umożliwiają klientowi etykietowanie prelegentów konferencji na nagraniach przy użyciu identyfikacji twarzy, na przykład ,
CEO John Doe
CFO Jane Smith
.
Dlaczego warto używać usługi Content Understanding dla wideo?
Wiedza na temat zawartości wideo ma szerokie możliwości użycia. Można na przykład dostosować metadane, aby oznaczyć określone sceny w filmie szkoleniowym, co ułatwia pracownikom znajdowanie i ponowne wyszukiwanie ważnych sekcji. Możesz również użyć dostosowywania metadanych, aby zidentyfikować umieszczanie produktów w filmach promocyjnych, co ułatwia zespołom marketingowym analizowanie ekspozycji marki. Inne przypadki użycia obejmują:
- Emisja multimediów i rozrywki: Zarządzaj dużymi bibliotekami pokazów, filmów i klipów, generując szczegółowe metadane dla każdego zasobu.
- Edukacja i nauka elektroniczna: Indeksowanie i pobieranie określonych momentów w filmach edukacyjnych lub wykładach.
- Szkolenia firmowe: Organizuj filmy szkoleniowe według kluczowych tematów, scen lub ważnych momentów.
- Marketing i reklama: Analizowanie filmów promocyjnych w celu wyodrębnienia umieszczania produktów, wyglądu marki i kluczowych komunikatów.
Przykład wstępnie utworzonego analizatora wideo
Za pomocą wstępnie skonfigurowanego videoAnalyzera możesz przekazać wideo i uzyskać od razu użytecznego zasobu wiedzy. Usługa pakuje każdy klip zarówno do bogato sformatowanego Markdown, jak i JSON. Ten proces umożliwia integrację indeksu wyszukiwania lub agenta czatu bez niestandardowego kodu łączącego.
Na przykład utworzenie bazy
prebuilt-videoAnalyzer
w następujący sposób:{ "config": {}, "BaseAnalyzerId": "prebuilt-videoAnalyzer", }
Następnie przeanalizowanie 30-sekundowego filmu reklamowego spowoduje wyświetlenie następujących danych wyjściowych:
# Video: 00:00.000 => 00:30.000 Width: 1280 Height: 720 ## Segment 1: 00:00.000 => 00:06.000 A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Get new years ready. Key Frames - 00:00.600  - 00:01.200  ## Segment 2: 00:06.000 => 00:10.080 The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Go team! Key Frames - 00:06.200  - 00:07.080  *…additional data omitted for brevity…*
Bramek
Niedawno opublikowaliśmy szczegółowy przewodnik dotyczący RAG w formie wideo, wykorzystujący Content Understanding. https://www.youtube.com/watch?v=fafneWnT2kw& lc=Ugy2XXFsSlm7PgIsWQt4AaABAg
Możliwości
Pod maską dwa etapy przekształcają nieprzetworzone piksele w gotowe do wykorzystania w biznesie informacje. Na poniższym diagramie przedstawiono, w jaki sposób wyodrębnianie wspomaga generowanie, zapewniając każdemu kolejnemu etapowi wymagany kontekst.
Usługa działa na dwóch etapach. Pierwszy etap wyodrębniania zawartości obejmuje przechwytywanie podstawowych metadanych, takich jak transkrypcje, zdjęcia i twarze. Drugi etap wyodrębniania pól używa modelu generowania do tworzenia pól niestandardowych i wykonywania segmentacji. Ponadto możesz opcjonalnie włączyć dodatek rozpoznawania twarzy w celu identyfikowania osób i opisywania ich w filmie wideo.
Możliwości wyodrębniania zawartości
Pierwsze przejście koncentruje się na wyodrębnieniu pierwszego zestawu szczegółów — kto mówi, gdzie dokonano cięć i które twarze się powtarzają. Tworzy solidny kręgosłup metadanych, do którego późniejsze kroki mogą się odnosić.
Transkrypcja: Przekształca konwersacyjne nagrania audio w przeszukiwalne i analizowalne transkrypcje tekstowe w formacie WebVTT. Znaczniki czasu na poziomie zdania są dostępne, jeśli
"returnDetails": true
jest ustawione. Usługa Content Understanding obsługuje pełny zestaw języków zamiany mowy na tekst w usłudze Azure AI Speech. Szczegóły obsługi języka wideo są takie same jak audio, zobaczObsługa języka audio , aby uzyskać szczegółowe informacje. Należy wziąć pod uwagę następujące szczegóły transkrypcji:Diarization: Rozróżnia mówców w konwersacji, przypisując części transkrypcji określonym osobom.
Transkrypcja wielojęzyczna: Generuje wielojęzyczne transkrypcje. Ustawienia języka/regionu są stosowane dla każdej frazy w transkrypcji. Frazy wyjściowe, gdy ustawiono
"returnDetails": true
. Odstępstwo od wykrywania języka: ta funkcja jest włączona, gdy nie określono języka lub ustawień regionalnych, albo gdy język jest ustawiony naauto
.Uwaga / Notatka
Gdy jest używana transkrypcja wielojęzyczna, wszystkie pliki z nieobsługiwanymi ustawieniami regionalnymi generują wynik na podstawie najbliższych obsługiwanych ustawień regionalnych, co prawdopodobnie jest niepoprawne. Ten wynik jest znanym zachowaniem. Unikaj problemów z jakością transkrypcji, upewniając się, że konfigurujesz ustawienia regionalne, gdy nie korzystasz z ustawień regionalnych wspieranych przez transkrypcję wielojęzyczną!
Wyodrębnianie klatek kluczowych: Wyodrębnia kluczowe klatki z filmów wideo do reprezentowania każdego zdjęcia całkowicie, zapewniając, że każde zdjęcie ma wystarczającą liczbę klatek kluczowych, aby umożliwić efektywne wyodrębnianie pól.
Wykrywanie ujęć: Identyfikuje segmenty filmu wideo dopasowane do granic ujęć tam, gdzie to możliwe, co pozwala na precyzyjne edytowanie i ponowne opracowanie zawartości z podziałami zgodnymi z istniejącymi edycjami. Dane wyjściowe są listą sygnatur czasowych w milisekundach w pliku
cameraShotTimesMs
. Dane wyjściowe są zwracane tylko gdy"returnDetails": true
jest ustawione.
Wyodrębnianie i segmentacja pól
Następnie model generatywny dodaje znaczenie—taguje sceny, podsumowuje akcje i dzieli materiał na segmenty według twoich wytycznych. Ta akcja pozwala na przekształcenie monitów w dane ustrukturyzowane.
Pola niestandardowe
Dopasuj wynik do swojego słownictwa biznesowego. Użyj obiektu, w fieldSchema
którym każdy wpis definiuje nazwę, typ i opis pola. Podczas działania model generatywny wypełnia te pola dla każdego segmentu.
Przykłady:
Zarządzanie zasobami multimedialnymi:
- Kategoria wideo: Pomaga redaktorom i producentom organizować treści, klasyfikując ją jako News, Sports, Interview, Dokumentalny, Reklamy itp. Przydatne w przypadku tagowania metadanych i szybszego filtrowania i pobierania zawartości.
- Schemat kolorów: Przekazuje nastrój i atmosferę, niezbędną dla spójności narracji i zaangażowania widzów. Identyfikowanie motywów kolorów ułatwia znajdowanie pasujących klipów do przyspieszonej edycji wideo.
Reklama:
- Marka: Identyfikuje obecność marki, krytyczne dla analizowania wpływu reklamy, widoczności marki i skojarzenia z produktami. Ta funkcja umożliwia reklamodawcom ocenę znaczenia marki i zapewnienie zgodności z wytycznymi dotyczącymi znakowania.
- Kategorie reklam: Kategoryzuje typy reklam według branży, typu produktu lub segmentu odbiorców, które obsługują ukierunkowane strategie reklamowe, kategoryzacja i analizę wydajności.
Przykład:
"fieldSchema": {
"description": "Extract brand presence and sentiment per scene",
"fields": {
"brandLogo": {
"type": "string",
"method": "generate",
"description": "Brand being promoted in the video. Include the product name if available."
},
"Sentiment": {
"type": "string",
"method": "classify",
"description": "Ad categories",
"enum": [
"Consumer Packaged Goods",
"Groceries",
"Technology"
]
}
}
}
Tryb segmentacji
Uwaga / Notatka
Ustawienie segmentacji wyzwala wyodrębnianie pól, nawet jeśli żadne pola nie są zdefiniowane.
Usługa Content Understanding oferuje trzy sposoby fragmentowania filmu wideo, co pozwala uzyskać potrzebne dane wyjściowe dla całych klipów wideo lub krótkich klipów. Możesz użyć tych opcji, ustawiając właściwość SegmentationMode
na analizatorze niestandardowym.
Cały film wideo —
segmentationMode : noSegmentation
usługa traktuje cały plik wideo jako pojedynczy segment i wyodrębnia metadane w całym czasie trwania.Przykład:
- Sprawdzanie zgodności, które wyszukują konkretne problemy z bezpieczeństwem marki w dowolnym miejscu w reklamie
- pełne podsumowania opisowe
Segmentacja automatyczna —
segmentationMode = auto
usługa analizuje oś czasu i dzieli ją dla Ciebie. Grupuje kolejne ujęcia w spójne sceny, o długości maksymalnej jednej minuty każda.Przykład:
- Tworzenie scenorysów na podstawie pokazu
- Wstawianie reklam w połowie rzutu przy logicznych wstrzymywaniach.
Segmentacja niestandardowa —
segmentationMode : custom
opisujesz logikę w języku naturalnym, a model tworzy segmenty, aby je dopasować. UstawsegmentationDefinition
za pomocą ciągu opisującego sposób segmentowania wideo. Niestandardowe pozwala na segmenty o różnej długości, od sekund do minut, w zależności od wezwania.Przykład:
- Podziel transmisję wiadomości na opowiadania.
{ "segmentationMode": "custom", "segmentationDefinition": "news broadcasts divided by individual stories" }
Dodatek do rozpoznawania i opisywania twarzy
Uwaga / Notatka
Ta funkcja ma ograniczony dostęp i obejmuje identyfikację twarzy i grupowanie twarzy; klienci muszą zarejestrować się w celu uzyskania dostępu w funkcji rozpoznawania twarzy. Funkcje twarzy generują dodatkowe koszty.
Opis identyfikacji twarzy to dodatek, który zapewnia kontekst wyodrębniania zawartości i wyodrębniania pól przy użyciu informacji o twarzy.
Wyodrębnianie zawartości — grupowanie i identyfikacja
Dodatek twarzy umożliwia grupowanie i identyfikację jako dane wyjściowe z sekcji wyodrębniania zawartości. Aby włączyć funkcje związane z twarzą, ustaw "enableFace":true
w konfiguracji analizatora.
-
Grupowanie: Pogrupowane twarze wyświetlane w wideo, aby wyodrębnić jeden reprezentatywny obraz twarzy dla każdej osoby i wskazuje segmenty, w których każda osoba jest obecna. Pogrupowane dane twarzy są dostępne jako metadane i mogą służyć do generowania niestandardowych pól metadanych w przypadku
returnDetails: true
analizatora. -
Identyfikacja: Osoby w filmie wideo są etykietowane z użyciem nazw na podstawie katalogu osób z interfejsu API rozpoznawania twarzy. Klienci mogą włączyć tę funkcję, podając nazwę katalogu Face API w bieżącym zasobie w właściwości analizatora
personDirectoryId
. Aby użyć tej funkcji, najpierw należy utworzyć personDirectory, a następnie odwołać się do niej w analizatorze. Aby uzyskać szczegółowe informacje na temat tego, jak to zrobić, zobacz Jak utworzyć katalog osób
Wyodrębnianie pól — opis twarzy
Możliwość wyodrębniania pól jest rozszerzona o szczegółowe opisy zidentyfikowanych twarzy w filmie wideo. Ta funkcja obejmuje atrybuty, takie jak zarost, emocje i obecność celebrytów, które mogą być kluczowe dla różnych celów analitycznych i indeksowania. Aby włączyć funkcje opisu twarzy, ustaw disableFaceBlurring : true
w konfiguracji analizatora.
Przykłady:
-
Przykładowe pole: emotionDescription: Zawiera opis stanu emocjonalnego osoby podstawowej w tym klipie (na przykład
happy
, ,sad
)angry
-
Przykładowe pole: facialHairDescription: Opisuje typ zarostu (na przykład ,
beard
,mustache
clean-shaven
)
Główne korzyści
Usługa Content Understanding zapewnia kilka kluczowych korzyści w porównaniu z innymi rozwiązaniami do analizy wideo:
- Analiza wieloramowa oparta na segmentach: Identyfikowanie akcji, zdarzeń, tematów i motywów przez analizowanie wielu ramek z poszczególnych segmentów wideo, a nie pojedynczych ramek.
- Dostosowywania: Dostosuj pola i segmentację wygenerowaną przez zmodyfikowanie schematu zgodnie z konkretnym przypadkiem użycia.
- Modele generowania: Opisz w języku naturalnym zawartość, którą chcesz wyodrębnić, a usługa Content Understanding używa modeli generowania do wyodrębniania tych metadanych.
- Zoptymalizowane przetwarzanie wstępne: Wykonaj kilka kroków przetwarzania wstępnego wyodrębniania zawartości, takich jak transkrypcja i wykrywanie scen, zoptymalizowane pod kątem zapewnienia zaawansowanego kontekstu dla modeli generowania sztucznej inteligencji.
Ograniczenia i ograniczenia techniczne
Należy pamiętać o konkretnych ograniczeniach przetwarzania wideo:
- Próbkowanie ramek (~ 1 FPS): Analizator sprawdza około jednej ramki na sekundę. Szybkie ruchy lub zdarzenia z jedną ramką mogą zostać pominięte.
- Rozdzielczość ramki (512 × 512 pikseli): Rozmiar ramek próbkowanych jest zmieniany na 512 pikseli kwadratowych. Można utracić mały tekst lub odległe obiekty.
- Mowa: transkrybowane są tylko słowa mówione. Muzyka, efekty dźwiękowe i hałas otoczenia są ignorowane.
Wymagania dotyczące danych wejściowych
Aby zobaczyć obsługiwane formaty, zobacz Przydziały i limity usług.
Obsługiwane języki i regiony
Zobacz Obsługa języków i regionów.
Prywatność i zabezpieczenia danych
Podobnie jak w przypadku wszystkich usług azure AI, zapoznaj się z dokumentacją Dotyczącą danych, ochrony i prywatności firmy Microsoft.
Ważne
W przypadku przetwarzania danych biometrycznych (na przykład włączenia grupowania twarzy lub identyfikacji twarzy) należy spełnić wszystkie wymagania dotyczące powiadomień, zgody i usuwania zgodnie z RODO lub innymi obowiązującymi przepisami. Zobacz Dane i prywatność na potrzeby rozpoznawania twarzy.
Następne kroki
Przetwarzaj filmy wideo w portalu usługi Azure AI Foundry.
Szybki start: analizowanie zawartości wideo przy użyciu szablonów analizatorów.
Próbki: