Udostępnij za pośrednictwem


Uzyskaj informacje o wykrywaniu scen, ujęć i klatek kluczowych

Wykrywanie scen wykrywa, gdy następuje zmiana sceny w filmie wideo na podstawie podpowiedzi wizualnych. Scena pokazuje jedno zdarzenie i ma serię powiązanych ujęć. Zdjęcia to seria ramek, które różnią się podpowiedzami wizualnymi, takimi jak nagłe lub stopniowe zmiany schematu kolorów sąsiednich ramek. Metadane ujęcia obejmują czas rozpoczęcia, czas zakończenia oraz listę klatek kluczowych w ujęciu. Klatka kluczowa to klatka z ujęcia, która najlepiej reprezentuje ujęcie.

Przypadki użycia sceny, ujęcia i klatki kluczowej

  • Łatwo przeglądaj, zarządzaj i edytuj swoje treści wideo na podstawie różnych poziomów szczegółowości.
  • Użyj wykrywania typu ujęcia redakcyjnego do edytowania filmów na klipy, zwiastuny lub podczas poszukiwania określonego stylu klatki kluczowej.

Wykrywanie scen

Usługa Azure AI Video Indexer określa, kiedy scena zmienia się w wideo na podstawie podpowiedzi wizualnych. Scena przedstawia pojedyncze zdarzenie składające się z serii kolejnych zdjęć, które są semantycznie powiązane.

Miniatura sceny to pierwszy kluczowy kadr jej podkładowego ujęcia.

Azure AI Video Indexer segmentuje wideo na sceny na podstawie spójności kolorów między kolejnymi ujęciami i odzyskuje czas rozpoczęcia i zakończenia każdej sceny.

Filmy muszą zawierać co najmniej trzy sceny.

Wykrywanie ujęć

Usługa Azure AI Video Indexer określa, kiedy film zmienia się na podstawie wskazówek wizualnych. Robi to, wykrywając zarówno nagłe, jak i stopniowe przejścia w schemacie kolorów i inną wizualną cechę sąsiednich ramek. Metadane ujęcia zawierają informacje o czasie rozpoczęcia i zakończenia oraz liście klatek kluczowych uwzględnionych w tym ujęciu. Zdjęcia to kolejne kadry wykonane z tej samej kamery w tym samym czasie.

Uwaga

Może występować przerwa między ujęciami, która obejmuje klatki będące częścią przejścia. W związku z tym te ramki nie są uważane za część ujęcia.

Wykrywanie typu ujęcia redakcyjnego w klatkach kluczowych

Typ ujęcia jest określany na podstawie analizy pierwszej klatki kluczowej każdego ujęcia. Zdjęcia są identyfikowane przez skalę, rozmiar i lokalizację twarzy wyświetlanych w pierwszej ramce kluczowej.

Rozmiar i skala ujęcia są określane na podstawie odległości między kamerą a twarzami pojawiającymi się w kadrze. Usługa Azure AI Video Indexer wykrywa następujące typy zdjęć przy użyciu następujących właściwości:

  • Szerokie: pokazuje całe ciało osoby.
  • Średni kadr: pokazuje górną część ciała i twarz osoby.
  • Zbliżenie: głównie pokazuje twarz osoby.
  • Ekstremalne zbliżenie: pokazuje twarz osoby wypełniającą ekran.

Rodzaje ujęć można również określić na podstawie położenia postaci względem środka kadru. Właściwość ta definiuje następujące typy ujęć w Azure AI Video Indexer:

  • Lewy profil: osoba pojawia się po lewej stronie kadru.
  • W centrum twarzy: osoba pojawia się w centralnym obszarze kadru.
  • Prawa strona: osoba pojawia się po prawej stronie kadru.
  • Na zewnątrz: osoba pojawia się w otoczeniu zewnętrznym.
  • W pomieszczeniu: osoba pojawia się w środku.

Inne cechy:

  • Dwa ujęcia: pokazują twarze dwóch osób średniej wielkości.
  • Wielość twarzy: więcej niż dwie osoby.

Wyświetl JSON wglądu za pomocą portalu internetowego

Po przesłaniu i zaindeksowaniu wideo pobierz analizy w formacie JSON z portalu internetowego.

  1. Wybierz kartę Biblioteka.
  2. Wybierz żądane media.
  3. Wybierz pozycję Pobierz, a następnie wybierz pozycję Insights (JSON). Plik JSON otwiera się w nowej karcie przeglądarki.
  4. Znajdź parę kluczy opisaną w przykładowej odpowiedzi.

Użyj interfejsu API

  1. Użyj żądania Get Video Index . Przekaż &includeSummarizedInsights=false.
  2. Znajdź pary kluczy opisane w przykładowej odpowiedzi.

Przykładowa odpowiedź

"scenes": [
                    {
                        "id": 1,
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:09.1333333",
                                "start": "0:00:00",
                                "end": "0:00:09.1333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "instances": [
                            {
                                "adjustedStart": "0:00:09.1333333",
                                "adjustedEnd": "0:00:10.8",
                                "start": "0:00:09.1333333",
                                "end": "0:00:10.8"
                            }
                        ]
                    },
                    {
                        "id": 3,
                        "instances": [
                            {
                                "adjustedStart": "0:00:10.8",
                                "adjustedEnd": "0:00:26.9333333",
                                "start": "0:00:10.8",
                                "end": "0:00:26.9333333"
                            }
                        ]
                    }...
                    {
                        "id": 31,
                        "instances": [
                            {
                                "adjustedStart": "0:18:45",
                                "adjustedEnd": "0:18:50.2",
                                "start": "0:18:45",
                                "end": "0:18:50.2"
                            }
                        ]
                    }
                ],
                "shots": [
                    {
                        "id": 1,
                        "tags": [
                            "Wide",
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 1,
                                "instances": [
                                    {
                                        "thumbnailId": "60152925-0e6d-48cf-be33-aa6c00dfb334",
                                        "adjustedStart": "0:00:00.1666667",
                                        "adjustedEnd": "0:00:00.2",
                                        "start": "0:00:00.1666667",
                                        "end": "0:00:00.2"
                                    }
                                ]
                            },
                            {
                                "id": 2,
                                "instances": [
                                    {
                                        "thumbnailId": "f1a09cdf-b42b-45f5-bc69-5292d1216e50",
                                        "adjustedStart": "0:00:00.2333333",
                                        "adjustedEnd": "0:00:00.2666667",
                                        "start": "0:00:00.2333333",
                                        "end": "0:00:00.2666667"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:01.9333333",
                                "start": "0:00:00",
                                "end": "0:00:01.9333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "tags": [
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 3,
                                "instances": [
                                    {
                                        "thumbnailId": "b17774d0-41cf-4174-9c41-6bc2f17c86e2",
                                        "adjustedStart": "0:00:02",
                                        "adjustedEnd": "0:00:02.0333333",
                                        "start": "0:00:02",
                                        "end": "0:00:02.0333333"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:01.9333333",
                                "adjustedEnd": "0:00:02.9666667",
                                "start": "0:00:01.9333333",
                                "end": "0:00:02.9666667"
                            }
                        ]
                    }...

Pobierz klatki kluczowe za pomocą API

Aby pobrać każdą ramkę kluczową, użyj identyfikatorów ramek kluczowych w żądaniu API Get Thumbnails.

Ostrzeżenie

Nie używaj danych bezpośrednio z folderu artifacts w celach produkcyjnych. Artefakty to pośrednie dane wyjściowe procesu indeksowania i są nieprzetworzonymi danymi wyjściowymi różnych aparatów sztucznej inteligencji, które analizują filmy wideo. Schemat artefaktów może ulec zmianie w czasie.

Ważne

Zapoznaj się z przeglądem noty o transparencji dla wszystkich funkcji VI. Każde spostrzeżenie ma również własną uwagę na temat przejrzystości.

Notatki dotyczące wykrywania scen, ujęć i klatek kluczowych

  • Detektor działa najlepiej na plikach multimedialnych, które zawierają ujęcia i sceny.
  • Jeśli wideo jest nagrywane za pomocą jednej kamery, która nigdy się nie porusza, segmentacja ujęć działa słabo, a klatki kluczowe mogą nie być reprezentatywne.
  • Klatki kluczowe są wybierane z uwzględnieniem poziomu rozmycia klatek. Jeśli większość ujęcia jest rozmazana, na przykład z powodu ruchu, kluczowa klatka również może być rozmazana.
  • Filmy o słabej jakości obrazu przynoszą złe wyniki.
  • Czas każdego ujęcia/sceny/klatki kluczowej może się przesunąć (mniej niż sekundę).

Scene, ujęcie i kluczowe ramki komponentów

Brak zdefiniowanych komponentów.

Przykładowy kod

Zobacz wszystkie próbki dla VI