Analizowanie plików wideo i audio za pomocą usługi Azure Media Services

Artykuł
01/22/2024

Ostrzeżenie

Usługa Azure Media Services zostanie wycofana 30 czerwca 2024 r. Aby uzyskać więcej informacji, zobacz Przewodnik po wycofaniu usługi AMS.

Ważne

Zgodnie ze standardami odpowiedzialnej sztucznej inteligencji firmy Microsoft firma Microsoft zobowiązuje się do uczciwości, prywatności, bezpieczeństwa i przejrzystości w odniesieniu do systemów sztucznej inteligencji. Aby dostosować się do tych standardów, usługa Azure Media Services wycofa ustawienia wstępne usługi Video Analyzer 14 września 2023 r. To ustawienie wstępne umożliwia obecnie wyodrębnianie wielu szczegółowych informacji wideo i audio z pliku wideo. Klienci mogą zastąpić swoje bieżące przepływy pracy przy użyciu bardziej zaawansowanego zestawu funkcji oferowanego przez usługę Azure Video Indexer.

Usługa Media Services umożliwia wyodrębnianie szczegółowych informacji z plików wideo i audio przy użyciu ustawień wstępnych analizatora audio i wideo. W tym artykule opisano ustawienia wstępne analizatora używane do wyodrębniania szczegółowych informacji. Jeśli chcesz uzyskać bardziej szczegółowe informacje z filmów wideo, użyj usługi Azure Video Indexer. Aby dowiedzieć się, kiedy używać ustawień wstępnych analizatora usługi Video Indexer a analizatora usługi Media Services, zapoznaj się z dokumentem porównawczym.

Istnieją dwa tryby ustawień wstępnych analizatora audio, podstawowy i standardowy. Zapoznaj się z opisem różnic w poniższej tabeli.

Aby analizować zawartość przy użyciu ustawień wstępnych usługi Media Services w wersji 3, należy utworzyć przekształcenie i przesłać zadanie, które używa jednego z następujących ustawień wstępnych: VideoAnalyzerPreset lub AudioAnalyzerPreset.

Uwaga

Funkcja AudioAnalyzerPreset nie jest obsługiwana, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Zgodność, prywatność i zabezpieczenia

Użytkownik musi przestrzegać wszystkich obowiązujących przepisów dotyczących korzystania z usługi Video Indexer i nie może korzystać z usługi Video Indexer ani żadnej innej usługi platformy Azure w sposób naruszający prawa innych osób lub może być szkodliwy dla innych osób. Przed przekazaniem jakichkolwiek filmów wideo, w tym wszelkich danych biometrycznych, do usługi Video Indexer w celu przetwarzania i przechowywania, musisz mieć wszystkie odpowiednie prawa, w tym wszelkie odpowiednie zgody, od osób fizycznych w filmie wideo. Aby dowiedzieć się więcej na temat zgodności, prywatności i zabezpieczeń w usłudze Video Indexer, postanowienia dotyczące usług Azure Cognitive Services. W przypadku zobowiązań firmy Microsoft dotyczących prywatności i obsługi Twoich danych zapoznaj się z oświadczeniem o ochronie prywatności firmy Microsoft, postanowieniami dotyczącymi usług online ("OST") i dodatkiem do przetwarzania danych ("DPA"). Więcej informacji o ochronie prywatności, w tym na temat przechowywania danych, usuwania/niszczenia, jest dostępnych w ost. Korzystając z usługi Video Indexer, akceptujesz warunki usług Cognitive Services, OST, DPA i zasady zachowania poufności informacji.

Wbudowane ustawienia wstępne

Usługa Media Services obsługuje obecnie następujące wbudowane ustawienia wstępne analizatora:

Nazwa ustawienia wstępnego	Scenariusz/tryb	Szczegóły
AudioAnalyzerPreset	Analizowanie trybu standardowego audio	Ustawienie wstępne stosuje wstępnie zdefiniowany zestaw operacji analizy opartych na sztucznej inteligencji, w tym transkrypcję mowy. Obecnie ustawienie wstępne obsługuje przetwarzanie zawartości za pomocą pojedynczego utworu audio, który zawiera mowę w jednym języku. Określ język ładunku audio w danych wejściowych przy użyciu formatu BCP-47 "language tag-region". Zobacz listę obsługiwanych języków poniżej, aby zapoznać się z dostępnymi kodami języków. Automatyczne wykrywanie języka wybiera pierwszy wykryty język i kontynuuje użyć wybranego języka dla całego pliku, jeśli nie został ustawiony lub ustawiony na wartość null. Funkcja automatycznego wykrywania języka obsługuje obecnie: angielski, chiński, francuski, niemiecki, włoski, japoński, hiszpański, rosyjski i portugalski (Brazylia). Nie obsługuje dynamicznego przełączania między językami po wykryciu pierwszego języka. Funkcja automatycznego wykrywania języka działa najlepiej w przypadku nagrań audio z wyraźnie zauważalną mową. Jeśli automatyczne wykrywanie języka nie znajdzie języka, transkrypcja powraca do języka angielskiego.
AudioAnalyzerPreset	Analizowanie trybu podstawowego dźwięku	Ten tryb wstępnie ustawiony wykonuje transkrypcję zamiany mowy na tekst i generowanie pliku podtytułu/podpis VTT. Dane wyjściowe tego trybu obejmują plik JSON usługi Insights, w tym tylko słowa kluczowe, transkrypcję i informacje o chronometrażu. Automatyczne wykrywanie języka i diaryzacja osoby mówiącej nie są uwzględniane w tym trybie. Lista obsługiwanych języków jest identyczna z powyższym trybem standardowym.
VideoAnalyzerPreset	Analizowanie dźwięku i wideo	Wyodrębnia szczegółowe informacje (rozbudowane metadane) zarówno z audio, jak i wideo, i generuje plik formatu JSON. Podczas przetwarzania pliku wideo można określić, czy chcesz wyodrębnić szczegółowe informacje o dźwięku.
FaceDetectorPreset	Wykrywanie twarzy obecnych w wideo	Opisuje ustawienia, które mają być używane podczas analizowania wideo w celu wykrycia wszystkich obecnych twarzy.

Uwaga

Funkcja AudioAnalyzerPreset nie jest obsługiwana, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Obsługiwane języki

Arabski ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' i 'ar-SY')
Portugalski ('pt-BR')
Chiński ('zh-CN')
Duński('da-DK')
Angielski ('en-US', 'en-GB' i 'en-AU')
Fiński ('fi-FI')
Francuski ('fr-FR' i 'fr-CA')
Niemiecki ('de-DE')
Hebrajski (he-IL)
Hindi ('hi-IN'), koreański ('ko-KR')
Włoski ('it-IT')
Japoński ('ja-JP')
Norweski ('nb-NO')
Perski ('fa-IR')
Portugalski Portugalia ('pt-PT')
Rosyjski ('ru-RU')
Hiszpański ('es-ES' i 'es-MX')
Szwedzki ('sv-SE')
Tajski ('th-TH')
Turecki ('tr-TR')

Uwaga

Funkcja AudioAnalyzerPreset nie jest obsługiwana, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Tryb standardowy AudioAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio z pliku audio lub wideo.

Dane wyjściowe zawierają plik JSON (ze wszystkimi szczegółowymi informacjami) i plik VTT dla transkrypcji audio. To ustawienie wstępne akceptuje właściwość określającą język pliku wejściowego w postaci ciągu BCP47 . Szczegółowe informacje audio obejmują:

Transkrypcja audio: transkrypcja mówionych słów ze znacznikami czasu. Obsługiwanych jest wiele języków.
Słowa kluczowe: słowa kluczowe wyodrębnione z transkrypcji audio.

Tryb podstawowy AudioAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio z pliku audio lub wideo.

Dane wyjściowe zawierają plik JSON i plik VTT dla transkrypcji audio. To ustawienie wstępne akceptuje właściwość określającą język pliku wejściowego w postaci ciągu BCP47 . Dane wyjściowe obejmują:

Transkrypcja audio: transkrypcja mówionych słów ze znacznikami czasu. Obsługiwanych jest wiele języków, ale automatyczne wykrywanie języka i diaryzacja osoby mówiącej nie są uwzględniane.
Słowa kluczowe: słowa kluczowe wyodrębnione z transkrypcji audio.

VideoAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio i wideo z pliku wideo. Dane wyjściowe zawierają plik JSON (ze wszystkimi szczegółowymi informacjami), plik VTT dla transkrypcji wideo i kolekcję miniatur. To ustawienie wstępne akceptuje również ciąg BCP47 (reprezentujący język wideo) jako właściwość. Szczegółowe informacje wideo obejmują wszystkie szczegółowe informacje audio wymienione powyżej i następujące dodatkowe elementy:

Śledzenie twarzy: czas, w którym twarze są obecne w filmie wideo. Każda twarz ma identyfikator twarzy i odpowiednią kolekcję miniatur.
Tekst wizualny: tekst wykryty za pomocą optycznego rozpoznawania znaków. Tekst jest sygnaturą czasową, a także służy do wyodrębniania słów kluczowych (oprócz transkrypcji audio).
Klatki kluczowe: kolekcja klatek kluczowych wyodrębnionych z wideo.
Moderowanie zawartości wizualnej: część filmów wideo oflagowanych jako dorosłych lub rasistowskich w naturze.
Adnotacja: wynik dodawania adnotacji do filmów wideo na podstawie wstępnie zdefiniowanego modelu obiektów

insights.json elementów

Dane wyjściowe zawierają plik JSON (insights.json) ze wszystkimi szczegółowymi informacjami znajdującymi się w wideo lub audio. Kod JSON może zawierać następujące elementy:

Zapis

Nazwa	Opis
identyfikator	Identyfikator wiersza.
tekst	Sama transkrypcja.
language	Język transkrypcji. Przeznaczony do obsługi transkrypcji, w której każdy wiersz może mieć inny język.
Wystąpień	Lista zakresów czasu, w których pojawił się ten wiersz. Jeśli wystąpienie jest transkrypcji, będzie miało tylko jedno wystąpienie.

Przykład:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Nazwa	Opis
identyfikator	Identyfikator wiersza OCR.
tekst	Tekst OCR.
ufność	Zaufanie do rozpoznawania.
language	Język OCR.
Wystąpień	Lista zakresów czasu, w których pojawił się ten OCR (ten sam OCR może pojawiać się wiele razy).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Twarze

Nazwa	Opis
identyfikator	Identyfikator twarzy.
name	Nazwa twarzy. Może to być wartość "Unknown #0", zidentyfikowana gwiazda lub osoba wyszkolona przez klienta.
ufność	Pewność identyfikacji twarzy.
description (opis)	Opis gwiazdy.
thumbnailId	Identyfikator miniatury tej twarzy.
knownPersonId	Identyfikator wewnętrzny (jeśli jest to znana osoba).
referenceId	Identyfikator Bing (jeśli jest to osobistość Bing).
referenceType	Obecnie tylko usługa Bing.
tytuł	Tytuł (jeśli jest to osobistość— na przykład "Dyrektor generalny firmy Microsoft").
Imageurl	Adres URL obrazu, jeśli jest to osobistość.
Wystąpień	Wystąpienia, w których twarz pojawiła się w danym zakresie czasu. Każde wystąpienie ma również identyfikator thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Zdjęć

Nazwa	Opis
identyfikator	Identyfikator strzału.
Klatek kluczowych	Lista klatek kluczowych w ramach strzału (każdy ma identyfikator i listę zakresów czasu wystąpień). Wystąpienia klatek kluczowych mają pole thumbnailId z identyfikatorem miniatury elementu keyFrame.
Wystąpień	Lista zakresów czasu tego strzału (strzały mają tylko jedno wystąpienie).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statystyki

Nazwa	Opis
Konto korespondencji	Liczba korespondencji w filmie wideo.
Wordcount	Liczba wyrazów na osobę mówiącą.
SpeakerNumberOfFragments	Ilość fragmentów osoby mówiącej w filmie wideo.
SpeakerLongestMonolog	Najdłuższy monolog osoby mówiącej. Jeśli głośnik ma wyciszenie wewnątrz monologu, jest dołączony. Milczenie na początku i koniec monologu jest usuwany.
SpeakerTalkToListenRatio	Obliczenie jest oparte na czasie spędzonym na monologu osoby mówiącej (bez milczenia między) podzielonym przez całkowity czas filmu wideo. Czas jest zaokrąglany do trzeciego punktu dziesiętnego.

Etykiety

Nazwa	Opis
identyfikator	Identyfikator etykiety.
name	Nazwa etykiety (na przykład "Komputer", "TV").
language	Język nazw etykiet (po przetłumaczeniu). BCP-47
Wystąpień	Lista zakresów czasu, w których pojawiła się ta etykieta (etykieta może pojawiać się wiele razy). Każde wystąpienie ma pole ufności.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

keywords (słowa kluczowe)

Nazwa	Opis
identyfikator	Identyfikator słowa kluczowego.
tekst	Tekst słowa kluczowego.
ufność	Pewność rozpoznawania słowa kluczowego.
language	Język słowa kluczowego (po przetłumaczeniu).
Wystąpień	Lista zakresów czasu, w których pojawiło się to słowo kluczowe (słowo kluczowe może pojawiać się wiele razy).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration zawiera zakresy czasu, które usługa Video Indexer mogła potencjalnie mieć zawartość dla dorosłych. Jeśli element visualContentModeration jest pusty, nie ma zidentyfikowanej zawartości dla dorosłych.

Filmy wideo, które znajdują się w zawartości erotycznej lub dla dorosłych, mogą być dostępne tylko dla widoku prywatnego. Użytkownicy mogą przesłać żądanie przeglądu zawartości przez człowieka, w tym przypadku IsAdult atrybut będzie zawierać wynik przeglądu przez człowieka.

Nazwa	Opis
identyfikator	Identyfikator moderowania zawartości wizualizacji.
adultScore	Wynik dla dorosłych (od moderatora zawartości).
racyScore	Wynik rasowy (z moderowania zawartości).
Wystąpień	Lista zakresów czasu, w których pojawiła się ta wizualizacja moderowania zawartości.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Uzyskiwanie pomocy i obsługi technicznej

Możesz skontaktować się z usługą Media Services z pytaniami lub postępować zgodnie z naszymi aktualizacjami, korzystając z jednej z następujących metod:

Q & A
Stack Overflow. Tagowanie pytań przy użyciu polecenia azure-media-services.
@MSFTAzureMedia lub użyj @AzureSupport , aby poprosić o pomoc techniczną.
Otwórz bilet pomocy technicznej za pośrednictwem Azure Portal.

Analizowanie plików wideo i audio za pomocą usługi Azure Media Services

Zgodność, prywatność i zabezpieczenia

Wbudowane ustawienia wstępne

Obsługiwane języki

Tryb standardowy AudioAnalyzerPreset

Tryb podstawowy AudioAnalyzerPreset

VideoAnalyzerPreset

insights.json elementów

Zapis

Ocr

Twarze

Zdjęć

statystyki

Etykiety

keywords (słowa kluczowe)

visualContentModeration

Uzyskiwanie pomocy i obsługi technicznej

Dodatkowe zasoby