Rozwiązania wideo usługi Azure AI Content Understanding (wersja zapoznawcza)

2025-05-20

Ważne

Usługa Azure AI Content Understanding jest dostępna w wersji zapoznawczej. Publiczne wersje zapoznawcze zapewniają wczesny dostęp do funkcji, które są w aktywnym rozwoju.
Funkcje, podejścia i procesy mogą ulec zmianie lub mieć ograniczone możliwości przed ogólną dostępnością.
Aby uzyskać więcej informacji, zobacz Dodatkowe warunki użytkowania dla wersji zapoznawczych platformy Microsoft Azure.

Usługa Azure AI Content Understanding umożliwia generowanie standardowego zestawu metadanych wideo i tworzenie niestandardowych pól dla konkretnego przypadku użycia przy użyciu możliwości modeli generujących. Usługa Content Understanding pomaga efektywnie zarządzać, kategoryzować, pobierać i tworzyć przepływy pracy dla zasobów wideo. Rozszerza bibliotekę elementów zawartości multimediów, obsługuje przepływy pracy, takie jak generowanie wyróżnienia, kategoryzowanie zawartości i ułatwia aplikacje, takie jak generowanie rozszerzonej generacji (RAG).

Ilustracja przepływu przetwarzania wideo Content Understanding.

Wstępnie skompilowany analizator wideo generuje kod Markdown gotowy do użycia w języku RAG, który obejmuje:

Transkrypcja: Wbudowane transkrypcje w standardowym formacie WEBVTT
Opis: Opisy segmentów języka naturalnego z kontekstem wizualizacji i mowy
Segmentacja: Automatyczna segmentacja sceny dzieląca wideo na fragmenty logiczne
Klatki kluczowe: Uporządkowane miniatury klatek kluczowych umożliwiające dokładną analizę

Ten format można wprowadzić bezpośrednio do magazynu wektorów, aby umożliwić działanie agenta lub przepływów pracy RAG — bez konieczności dalszego przetwarzania.

Z tego miejsca możesz dostosować analizator, aby uzyskać bardziej szczegółową kontrolę danych wyjściowych. Możesz zdefiniować pola niestandardowe, segmenty lub włączyć identyfikację twarzy. Dostosowywanie umożliwia wykorzystanie pełnej mocy modeli generatywnych do wydobywania głębokich wglądów z detali wizualnych i dźwiękowych wideo.

Na przykład dostosowywanie umożliwia:

Definiowanie pól niestandardowych: aby określić, jakie produkty i marki są widoczne lub wymienione w filmie wideo.
Generowanie segmentów niestandardowych: aby podzielić emisję wiadomości na rozdziały na podstawie omówionych tematów lub wiadomości.
Zidentyfikuj osoby korzystające z katalogu osób, które umożliwiają klientowi etykietowanie prelegentów konferencji na nagraniach przy użyciu identyfikacji twarzy, na przykład , CEO John DoeCFO Jane Smith.

Dlaczego warto używać usługi Content Understanding dla wideo?

Wiedza na temat zawartości wideo ma szerokie możliwości użycia. Można na przykład dostosować metadane, aby oznaczyć określone sceny w filmie szkoleniowym, co ułatwia pracownikom znajdowanie i ponowne wyszukiwanie ważnych sekcji. Możesz również użyć dostosowywania metadanych, aby zidentyfikować umieszczanie produktów w filmach promocyjnych, co ułatwia zespołom marketingowym analizowanie ekspozycji marki. Inne przypadki użycia obejmują:

Emisja multimediów i rozrywki: Zarządzaj dużymi bibliotekami pokazów, filmów i klipów, generując szczegółowe metadane dla każdego zasobu.
Edukacja i nauka elektroniczna: Indeksowanie i pobieranie określonych momentów w filmach edukacyjnych lub wykładach.
Szkolenia firmowe: Organizuj filmy szkoleniowe według kluczowych tematów, scen lub ważnych momentów.
Marketing i reklama: Analizowanie filmów promocyjnych w celu wyodrębnienia umieszczania produktów, wyglądu marki i kluczowych komunikatów.

Przykład wstępnie utworzonego analizatora wideo

Za pomocą wstępnie skonfigurowanego videoAnalyzera możesz przekazać wideo i uzyskać od razu użytecznego zasobu wiedzy. Usługa pakuje każdy klip zarówno do bogato sformatowanego Markdown, jak i JSON. Ten proces umożliwia integrację indeksu wyszukiwania lub agenta czatu bez niestandardowego kodu łączącego.

Na przykład utworzenie bazy prebuilt-videoAnalyzer w następujący sposób:
```
{
  "config": {},
  "BaseAnalyzerId": "prebuilt-videoAnalyzer",
}
```

Następnie przeanalizowanie 30-sekundowego filmu reklamowego spowoduje wyświetlenie następujących danych wyjściowych:

   # Video: 00:00.000 => 00:30.000
   Width: 1280
   Height: 720

   ## Segment 1: 00:00.000 => 00:06.000
   A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.

   Transcript

   WEBVTT

   00:03.600 --> 00:06.000
   <Speaker 1>Get new years ready.

   Key Frames
   - 00:00.600 ![](keyFrame.600.jpg)
   - 00:01.200 ![](keyFrame.1200.jpg)

   ## Segment 2: 00:06.000 => 00:10.080
   The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.

   Transcript

   WEBVTT

   00:03.600 --> 00:06.000
   <Speaker 1>Go team!

   Key Frames
   - 00:06.200 ![](keyFrame.6200.jpg)
   - 00:07.080 ![](keyFrame.7080.jpg)

      *…additional data omitted for brevity…*

Bramek

Niedawno opublikowaliśmy szczegółowy przewodnik dotyczący RAG w formie wideo, wykorzystujący Content Understanding. https://www.youtube.com/watch?v=fafneWnT2kw& lc=Ugy2XXFsSlm7PgIsWQt4AaABAg

Pod maską dwa etapy przekształcają nieprzetworzone piksele w gotowe do wykorzystania w biznesie informacje. Na poniższym diagramie przedstawiono, w jaki sposób wyodrębnianie wspomaga generowanie, zapewniając każdemu kolejnemu etapowi wymagany kontekst.

Zrzut ekranu przedstawiający przepływ analizatora wideo.

Usługa działa na dwóch etapach. Pierwszy etap wyodrębniania zawartości obejmuje przechwytywanie podstawowych metadanych, takich jak transkrypcje, zdjęcia i twarze. Drugi etap wyodrębniania pól używa modelu generowania do tworzenia pól niestandardowych i wykonywania segmentacji. Ponadto możesz opcjonalnie włączyć dodatek rozpoznawania twarzy w celu identyfikowania osób i opisywania ich w filmie wideo.

Możliwości wyodrębniania zawartości

Pierwsze przejście koncentruje się na wyodrębnieniu pierwszego zestawu szczegółów — kto mówi, gdzie dokonano cięć i które twarze się powtarzają. Tworzy solidny kręgosłup metadanych, do którego późniejsze kroki mogą się odnosić.

Transkrypcja: Przekształca konwersacyjne nagrania audio w przeszukiwalne i analizowalne transkrypcje tekstowe w formacie WebVTT. Znaczniki czasu na poziomie zdania są dostępne, jeśli "returnDetails": true jest ustawione. Usługa Content Understanding obsługuje pełny zestaw języków zamiany mowy na tekst w usłudze Azure AI Speech. Szczegóły obsługi języka wideo są takie same jak audio, zobaczObsługa języka audio , aby uzyskać szczegółowe informacje. Należy wziąć pod uwagę następujące szczegóły transkrypcji:
- Diarization: Rozróżnia mówców w konwersacji, przypisując części transkrypcji określonym osobom.
- Transkrypcja wielojęzyczna: Generuje wielojęzyczne transkrypcje. Ustawienia języka/regionu są stosowane dla każdej frazy w transkrypcji. Frazy wyjściowe, gdy ustawiono "returnDetails": true. Odstępstwo od wykrywania języka: ta funkcja jest włączona, gdy nie określono języka lub ustawień regionalnych, albo gdy język jest ustawiony na auto.
  
  Uwaga / Notatka
  
  Gdy jest używana transkrypcja wielojęzyczna, wszystkie pliki z nieobsługiwanymi ustawieniami regionalnymi generują wynik na podstawie najbliższych obsługiwanych ustawień regionalnych, co prawdopodobnie jest niepoprawne. Ten wynik jest znanym zachowaniem. Unikaj problemów z jakością transkrypcji, upewniając się, że konfigurujesz ustawienia regionalne, gdy nie korzystasz z ustawień regionalnych wspieranych przez transkrypcję wielojęzyczną!
- Wyodrębnianie klatek kluczowych: Wyodrębnia kluczowe klatki z filmów wideo do reprezentowania każdego zdjęcia całkowicie, zapewniając, że każde zdjęcie ma wystarczającą liczbę klatek kluczowych, aby umożliwić efektywne wyodrębnianie pól.
- Wykrywanie ujęć: Identyfikuje segmenty filmu wideo dopasowane do granic ujęć tam, gdzie to możliwe, co pozwala na precyzyjne edytowanie i ponowne opracowanie zawartości z podziałami zgodnymi z istniejącymi edycjami. Dane wyjściowe są listą sygnatur czasowych w milisekundach w pliku cameraShotTimesMs. Dane wyjściowe są zwracane tylko gdy "returnDetails": true jest ustawione.

Wyodrębnianie i segmentacja pól

Następnie model generatywny dodaje znaczenie—taguje sceny, podsumowuje akcje i dzieli materiał na segmenty według twoich wytycznych. Ta akcja pozwala na przekształcenie monitów w dane ustrukturyzowane.

Pola niestandardowe

Dopasuj wynik do swojego słownictwa biznesowego. Użyj obiektu, w fieldSchema którym każdy wpis definiuje nazwę, typ i opis pola. Podczas działania model generatywny wypełnia te pola dla każdego segmentu.

Przykłady:

Zarządzanie zasobami multimedialnymi:
- Kategoria wideo: Pomaga redaktorom i producentom organizować treści, klasyfikując ją jako News, Sports, Interview, Dokumentalny, Reklamy itp. Przydatne w przypadku tagowania metadanych i szybszego filtrowania i pobierania zawartości.
- Schemat kolorów: Przekazuje nastrój i atmosferę, niezbędną dla spójności narracji i zaangażowania widzów. Identyfikowanie motywów kolorów ułatwia znajdowanie pasujących klipów do przyspieszonej edycji wideo.
Reklama:
- Marka: Identyfikuje obecność marki, krytyczne dla analizowania wpływu reklamy, widoczności marki i skojarzenia z produktami. Ta funkcja umożliwia reklamodawcom ocenę znaczenia marki i zapewnienie zgodności z wytycznymi dotyczącymi znakowania.
- Kategorie reklam: Kategoryzuje typy reklam według branży, typu produktu lub segmentu odbiorców, które obsługują ukierunkowane strategie reklamowe, kategoryzacja i analizę wydajności.

Przykład:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Tryb segmentacji

Uwaga / Notatka

Ustawienie segmentacji wyzwala wyodrębnianie pól, nawet jeśli żadne pola nie są zdefiniowane.

Usługa Content Understanding oferuje trzy sposoby fragmentowania filmu wideo, co pozwala uzyskać potrzebne dane wyjściowe dla całych klipów wideo lub krótkich klipów. Możesz użyć tych opcji, ustawiając właściwość SegmentationMode na analizatorze niestandardowym.

Cały film wideo — segmentationMode : noSegmentation usługa traktuje cały plik wideo jako pojedynczy segment i wyodrębnia metadane w całym czasie trwania.

Przykład:
- Sprawdzanie zgodności, które wyszukują konkretne problemy z bezpieczeństwem marki w dowolnym miejscu w reklamie
- pełne podsumowania opisowe
Segmentacja automatyczna — segmentationMode = auto usługa analizuje oś czasu i dzieli ją dla Ciebie. Grupuje kolejne ujęcia w spójne sceny, o długości maksymalnej jednej minuty każda.

Przykład:
- Tworzenie scenorysów na podstawie pokazu
- Wstawianie reklam w połowie rzutu przy logicznych wstrzymywaniach.
Segmentacja niestandardowa — segmentationMode : custom opisujesz logikę w języku naturalnym, a model tworzy segmenty, aby je dopasować. Ustaw segmentationDefinition za pomocą ciągu opisującego sposób segmentowania wideo. Niestandardowe pozwala na segmenty o różnej długości, od sekund do minut, w zależności od wezwania.

Przykład:
- Podziel transmisję wiadomości na opowiadania.
```
{
  "segmentationMode": "custom",
  "segmentationDefinition": "news broadcasts divided by individual stories"
}
```

Dodatek do rozpoznawania i opisywania twarzy

Uwaga / Notatka

Ta funkcja ma ograniczony dostęp i obejmuje identyfikację twarzy i grupowanie twarzy; klienci muszą zarejestrować się w celu uzyskania dostępu w funkcji rozpoznawania twarzy. Funkcje twarzy generują dodatkowe koszty.

Opis identyfikacji twarzy to dodatek, który zapewnia kontekst wyodrębniania zawartości i wyodrębniania pól przy użyciu informacji o twarzy.

Wyodrębnianie zawartości — grupowanie i identyfikacja

Dodatek twarzy umożliwia grupowanie i identyfikację jako dane wyjściowe z sekcji wyodrębniania zawartości. Aby włączyć funkcje związane z twarzą, ustaw "enableFace":true w konfiguracji analizatora.

Grupowanie: Pogrupowane twarze wyświetlane w wideo, aby wyodrębnić jeden reprezentatywny obraz twarzy dla każdej osoby i wskazuje segmenty, w których każda osoba jest obecna. Pogrupowane dane twarzy są dostępne jako metadane i mogą służyć do generowania niestandardowych pól metadanych w przypadku returnDetails: true analizatora.
Identyfikacja: Osoby w filmie wideo są etykietowane z użyciem nazw na podstawie katalogu osób z interfejsu API rozpoznawania twarzy. Klienci mogą włączyć tę funkcję, podając nazwę katalogu Face API w bieżącym zasobie w właściwości analizatora personDirectoryId. Aby użyć tej funkcji, najpierw należy utworzyć personDirectory, a następnie odwołać się do niej w analizatorze. Aby uzyskać szczegółowe informacje na temat tego, jak to zrobić, zobacz Jak utworzyć katalog osób

Wyodrębnianie pól — opis twarzy

Możliwość wyodrębniania pól jest rozszerzona o szczegółowe opisy zidentyfikowanych twarzy w filmie wideo. Ta funkcja obejmuje atrybuty, takie jak zarost, emocje i obecność celebrytów, które mogą być kluczowe dla różnych celów analitycznych i indeksowania. Aby włączyć funkcje opisu twarzy, ustaw disableFaceBlurring : true w konfiguracji analizatora.

Przykłady:

Przykładowe pole: emotionDescription: Zawiera opis stanu emocjonalnego osoby podstawowej w tym klipie (na przykład happy, , sad) angry
Przykładowe pole: facialHairDescription: Opisuje typ zarostu (na przykład , beard, mustacheclean-shaven)

Główne korzyści

Usługa Content Understanding zapewnia kilka kluczowych korzyści w porównaniu z innymi rozwiązaniami do analizy wideo:

Analiza wieloramowa oparta na segmentach: Identyfikowanie akcji, zdarzeń, tematów i motywów przez analizowanie wielu ramek z poszczególnych segmentów wideo, a nie pojedynczych ramek.
Dostosowywania: Dostosuj pola i segmentację wygenerowaną przez zmodyfikowanie schematu zgodnie z konkretnym przypadkiem użycia.
Modele generowania: Opisz w języku naturalnym zawartość, którą chcesz wyodrębnić, a usługa Content Understanding używa modeli generowania do wyodrębniania tych metadanych.
Zoptymalizowane przetwarzanie wstępne: Wykonaj kilka kroków przetwarzania wstępnego wyodrębniania zawartości, takich jak transkrypcja i wykrywanie scen, zoptymalizowane pod kątem zapewnienia zaawansowanego kontekstu dla modeli generowania sztucznej inteligencji.

Ograniczenia i ograniczenia techniczne

Należy pamiętać o konkretnych ograniczeniach przetwarzania wideo:

Próbkowanie ramek (~ 1 FPS): Analizator sprawdza około jednej ramki na sekundę. Szybkie ruchy lub zdarzenia z jedną ramką mogą zostać pominięte.
Rozdzielczość ramki (512 × 512 pikseli): Rozmiar ramek próbkowanych jest zmieniany na 512 pikseli kwadratowych. Można utracić mały tekst lub odległe obiekty.
Mowa: transkrybowane są tylko słowa mówione. Muzyka, efekty dźwiękowe i hałas otoczenia są ignorowane.

Wymagania dotyczące danych wejściowych

Aby zobaczyć obsługiwane formaty, zobacz Przydziały i limity usług.

Obsługiwane języki i regiony

Zobacz Obsługa języków i regionów.

Prywatność i zabezpieczenia danych

Podobnie jak w przypadku wszystkich usług azure AI, zapoznaj się z dokumentacją Dotyczącą danych, ochrony i prywatności firmy Microsoft.