Analizowanie plików wideo i audio za pomocą usługi Azure Media Services

Logo usługi Media Services w wersji 3


Ostrzeżenie

Usługa Azure Media Services zostanie wycofana 30 czerwca 2024 r. Aby uzyskać więcej informacji, zobacz Przewodnik po wycofaniu usługi AMS.

Ważne

Zgodnie ze standardami odpowiedzialnej sztucznej inteligencji firmy Microsoft firma Microsoft zobowiązuje się do uczciwości, prywatności, bezpieczeństwa i przejrzystości w odniesieniu do systemów sztucznej inteligencji. Aby dostosować się do tych standardów, usługa Azure Media Services wycofa ustawienia wstępne usługi Video Analyzer 14 września 2023 r. To ustawienie wstępne umożliwia obecnie wyodrębnianie wielu szczegółowych informacji wideo i audio z pliku wideo. Klienci mogą zastąpić swoje bieżące przepływy pracy przy użyciu bardziej zaawansowanego zestawu funkcji oferowanego przez usługę Azure Video Indexer.

Usługa Media Services umożliwia wyodrębnianie szczegółowych informacji z plików wideo i audio przy użyciu ustawień wstępnych analizatora audio i wideo. W tym artykule opisano ustawienia wstępne analizatora używane do wyodrębniania szczegółowych informacji. Jeśli chcesz uzyskać bardziej szczegółowe informacje z filmów wideo, użyj usługi Azure Video Indexer. Aby dowiedzieć się, kiedy używać ustawień wstępnych analizatora usługi Video Indexer a analizatora usługi Media Services, zapoznaj się z dokumentem porównawczym.

Istnieją dwa tryby ustawień wstępnych analizatora audio, podstawowy i standardowy. Zapoznaj się z opisem różnic w poniższej tabeli.

Aby analizować zawartość przy użyciu ustawień wstępnych usługi Media Services w wersji 3, należy utworzyć przekształcenie i przesłać zadanie, które używa jednego z następujących ustawień wstępnych: VideoAnalyzerPreset lub AudioAnalyzerPreset.

Uwaga

Funkcja AudioAnalyzerPreset nie jest obsługiwana, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Zgodność, prywatność i zabezpieczenia

Użytkownik musi przestrzegać wszystkich obowiązujących przepisów dotyczących korzystania z usługi Video Indexer i nie może korzystać z usługi Video Indexer ani żadnej innej usługi platformy Azure w sposób naruszający prawa innych osób lub może być szkodliwy dla innych osób. Przed przekazaniem jakichkolwiek filmów wideo, w tym wszelkich danych biometrycznych, do usługi Video Indexer w celu przetwarzania i przechowywania, musisz mieć wszystkie odpowiednie prawa, w tym wszelkie odpowiednie zgody, od osób fizycznych w filmie wideo. Aby dowiedzieć się więcej na temat zgodności, prywatności i zabezpieczeń w usłudze Video Indexer, postanowienia dotyczące usług Azure Cognitive Services. W przypadku zobowiązań firmy Microsoft dotyczących prywatności i obsługi Twoich danych zapoznaj się z oświadczeniem o ochronie prywatności firmy Microsoft, postanowieniami dotyczącymi usług online ("OST") i dodatkiem do przetwarzania danych ("DPA"). Więcej informacji o ochronie prywatności, w tym na temat przechowywania danych, usuwania/niszczenia, jest dostępnych w ost. Korzystając z usługi Video Indexer, akceptujesz warunki usług Cognitive Services, OST, DPA i zasady zachowania poufności informacji.

Wbudowane ustawienia wstępne

Usługa Media Services obsługuje obecnie następujące wbudowane ustawienia wstępne analizatora:

Nazwa ustawienia wstępnego Scenariusz/tryb Szczegóły
AudioAnalyzerPreset Analizowanie trybu standardowego audio Ustawienie wstępne stosuje wstępnie zdefiniowany zestaw operacji analizy opartych na sztucznej inteligencji, w tym transkrypcję mowy. Obecnie ustawienie wstępne obsługuje przetwarzanie zawartości za pomocą pojedynczego utworu audio, który zawiera mowę w jednym języku. Określ język ładunku audio w danych wejściowych przy użyciu formatu BCP-47 "language tag-region". Zobacz listę obsługiwanych języków poniżej, aby zapoznać się z dostępnymi kodami języków. Automatyczne wykrywanie języka wybiera pierwszy wykryty język i kontynuuje użyć wybranego języka dla całego pliku, jeśli nie został ustawiony lub ustawiony na wartość null. Funkcja automatycznego wykrywania języka obsługuje obecnie: angielski, chiński, francuski, niemiecki, włoski, japoński, hiszpański, rosyjski i portugalski (Brazylia). Nie obsługuje dynamicznego przełączania między językami po wykryciu pierwszego języka. Funkcja automatycznego wykrywania języka działa najlepiej w przypadku nagrań audio z wyraźnie zauważalną mową. Jeśli automatyczne wykrywanie języka nie znajdzie języka, transkrypcja powraca do języka angielskiego.
AudioAnalyzerPreset Analizowanie trybu podstawowego dźwięku Ten tryb wstępnie ustawiony wykonuje transkrypcję zamiany mowy na tekst i generowanie pliku podtytułu/podpis VTT. Dane wyjściowe tego trybu obejmują plik JSON usługi Insights, w tym tylko słowa kluczowe, transkrypcję i informacje o chronometrażu. Automatyczne wykrywanie języka i diaryzacja osoby mówiącej nie są uwzględniane w tym trybie. Lista obsługiwanych języków jest identyczna z powyższym trybem standardowym.
VideoAnalyzerPreset Analizowanie dźwięku i wideo Wyodrębnia szczegółowe informacje (rozbudowane metadane) zarówno z audio, jak i wideo, i generuje plik formatu JSON. Podczas przetwarzania pliku wideo można określić, czy chcesz wyodrębnić szczegółowe informacje o dźwięku.
FaceDetectorPreset Wykrywanie twarzy obecnych w wideo Opisuje ustawienia, które mają być używane podczas analizowania wideo w celu wykrycia wszystkich obecnych twarzy.

Uwaga

Funkcja AudioAnalyzerPreset nie jest obsługiwana, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Obsługiwane języki

  • Arabski ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' i 'ar-SY')
  • Portugalski ('pt-BR')
  • Chiński ('zh-CN')
  • Duński('da-DK')
  • Angielski ('en-US', 'en-GB' i 'en-AU')
  • Fiński ('fi-FI')
  • Francuski ('fr-FR' i 'fr-CA')
  • Niemiecki ('de-DE')
  • Hebrajski (he-IL)
  • Hindi ('hi-IN'), koreański ('ko-KR')
  • Włoski ('it-IT')
  • Japoński ('ja-JP')
  • Norweski ('nb-NO')
  • Perski ('fa-IR')
  • Portugalski Portugalia ('pt-PT')
  • Rosyjski ('ru-RU')
  • Hiszpański ('es-ES' i 'es-MX')
  • Szwedzki ('sv-SE')
  • Tajski ('th-TH')
  • Turecki ('tr-TR')

Uwaga

Funkcja AudioAnalyzerPreset nie jest obsługiwana, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Tryb standardowy AudioAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio z pliku audio lub wideo.

Dane wyjściowe zawierają plik JSON (ze wszystkimi szczegółowymi informacjami) i plik VTT dla transkrypcji audio. To ustawienie wstępne akceptuje właściwość określającą język pliku wejściowego w postaci ciągu BCP47 . Szczegółowe informacje audio obejmują:

  • Transkrypcja audio: transkrypcja mówionych słów ze znacznikami czasu. Obsługiwanych jest wiele języków.
  • Słowa kluczowe: słowa kluczowe wyodrębnione z transkrypcji audio.

Tryb podstawowy AudioAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio z pliku audio lub wideo.

Dane wyjściowe zawierają plik JSON i plik VTT dla transkrypcji audio. To ustawienie wstępne akceptuje właściwość określającą język pliku wejściowego w postaci ciągu BCP47 . Dane wyjściowe obejmują:

  • Transkrypcja audio: transkrypcja mówionych słów ze znacznikami czasu. Obsługiwanych jest wiele języków, ale automatyczne wykrywanie języka i diaryzacja osoby mówiącej nie są uwzględniane.
  • Słowa kluczowe: słowa kluczowe wyodrębnione z transkrypcji audio.

VideoAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio i wideo z pliku wideo. Dane wyjściowe zawierają plik JSON (ze wszystkimi szczegółowymi informacjami), plik VTT dla transkrypcji wideo i kolekcję miniatur. To ustawienie wstępne akceptuje również ciąg BCP47 (reprezentujący język wideo) jako właściwość. Szczegółowe informacje wideo obejmują wszystkie szczegółowe informacje audio wymienione powyżej i następujące dodatkowe elementy:

  • Śledzenie twarzy: czas, w którym twarze są obecne w filmie wideo. Każda twarz ma identyfikator twarzy i odpowiednią kolekcję miniatur.
  • Tekst wizualny: tekst wykryty za pomocą optycznego rozpoznawania znaków. Tekst jest sygnaturą czasową, a także służy do wyodrębniania słów kluczowych (oprócz transkrypcji audio).
  • Klatki kluczowe: kolekcja klatek kluczowych wyodrębnionych z wideo.
  • Moderowanie zawartości wizualnej: część filmów wideo oflagowanych jako dorosłych lub rasistowskich w naturze.
  • Adnotacja: wynik dodawania adnotacji do filmów wideo na podstawie wstępnie zdefiniowanego modelu obiektów

insights.json elementów

Dane wyjściowe zawierają plik JSON (insights.json) ze wszystkimi szczegółowymi informacjami znajdującymi się w wideo lub audio. Kod JSON może zawierać następujące elementy:

Zapis

Nazwa Opis
identyfikator Identyfikator wiersza.
tekst Sama transkrypcja.
language Język transkrypcji. Przeznaczony do obsługi transkrypcji, w której każdy wiersz może mieć inny język.
Wystąpień Lista zakresów czasu, w których pojawił się ten wiersz. Jeśli wystąpienie jest transkrypcji, będzie miało tylko jedno wystąpienie.

Przykład:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Nazwa Opis
identyfikator Identyfikator wiersza OCR.
tekst Tekst OCR.
ufność Zaufanie do rozpoznawania.
language Język OCR.
Wystąpień Lista zakresów czasu, w których pojawił się ten OCR (ten sam OCR może pojawiać się wiele razy).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Twarze

Nazwa Opis
identyfikator Identyfikator twarzy.
name Nazwa twarzy. Może to być wartość "Unknown #0", zidentyfikowana gwiazda lub osoba wyszkolona przez klienta.
ufność Pewność identyfikacji twarzy.
description (opis) Opis gwiazdy.
thumbnailId Identyfikator miniatury tej twarzy.
knownPersonId Identyfikator wewnętrzny (jeśli jest to znana osoba).
referenceId Identyfikator Bing (jeśli jest to osobistość Bing).
referenceType Obecnie tylko usługa Bing.
tytuł Tytuł (jeśli jest to osobistość— na przykład "Dyrektor generalny firmy Microsoft").
Imageurl Adres URL obrazu, jeśli jest to osobistość.
Wystąpień Wystąpienia, w których twarz pojawiła się w danym zakresie czasu. Każde wystąpienie ma również identyfikator thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Zdjęć

Nazwa Opis
identyfikator Identyfikator strzału.
Klatek kluczowych Lista klatek kluczowych w ramach strzału (każdy ma identyfikator i listę zakresów czasu wystąpień). Wystąpienia klatek kluczowych mają pole thumbnailId z identyfikatorem miniatury elementu keyFrame.
Wystąpień Lista zakresów czasu tego strzału (strzały mają tylko jedno wystąpienie).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statystyki

Nazwa Opis
Konto korespondencji Liczba korespondencji w filmie wideo.
Wordcount Liczba wyrazów na osobę mówiącą.
SpeakerNumberOfFragments Ilość fragmentów osoby mówiącej w filmie wideo.
SpeakerLongestMonolog Najdłuższy monolog osoby mówiącej. Jeśli głośnik ma wyciszenie wewnątrz monologu, jest dołączony. Milczenie na początku i koniec monologu jest usuwany.
SpeakerTalkToListenRatio Obliczenie jest oparte na czasie spędzonym na monologu osoby mówiącej (bez milczenia między) podzielonym przez całkowity czas filmu wideo. Czas jest zaokrąglany do trzeciego punktu dziesiętnego.

Etykiety

Nazwa Opis
identyfikator Identyfikator etykiety.
name Nazwa etykiety (na przykład "Komputer", "TV").
language Język nazw etykiet (po przetłumaczeniu). BCP-47
Wystąpień Lista zakresów czasu, w których pojawiła się ta etykieta (etykieta może pojawiać się wiele razy). Każde wystąpienie ma pole ufności.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

keywords (słowa kluczowe)

Nazwa Opis
identyfikator Identyfikator słowa kluczowego.
tekst Tekst słowa kluczowego.
ufność Pewność rozpoznawania słowa kluczowego.
language Język słowa kluczowego (po przetłumaczeniu).
Wystąpień Lista zakresów czasu, w których pojawiło się to słowo kluczowe (słowo kluczowe może pojawiać się wiele razy).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration zawiera zakresy czasu, które usługa Video Indexer mogła potencjalnie mieć zawartość dla dorosłych. Jeśli element visualContentModeration jest pusty, nie ma zidentyfikowanej zawartości dla dorosłych.

Filmy wideo, które znajdują się w zawartości erotycznej lub dla dorosłych, mogą być dostępne tylko dla widoku prywatnego. Użytkownicy mogą przesłać żądanie przeglądu zawartości przez człowieka, w tym przypadku IsAdult atrybut będzie zawierać wynik przeglądu przez człowieka.

Nazwa Opis
identyfikator Identyfikator moderowania zawartości wizualizacji.
adultScore Wynik dla dorosłych (od moderatora zawartości).
racyScore Wynik rasowy (z moderowania zawartości).
Wystąpień Lista zakresów czasu, w których pojawiła się ta wizualizacja moderowania zawartości.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Uzyskiwanie pomocy i obsługi technicznej

Możesz skontaktować się z usługą Media Services z pytaniami lub postępować zgodnie z naszymi aktualizacjami, korzystając z jednej z następujących metod: