Analýza videosouborů a zvukových souborů pomocí Azure Media Services

Logo Media Services v3


Web | AMSDokumentace ke službě | Media Services v2 Ukázky | kódu Průvodce odstraňováním potíží

Důležité

Jak uvádí microsoft [zodpovědné standardy AI](https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/ popisuje, microsoft se zavazuje k spravedlnosti, ochraně osobních údajů, zabezpečení a transparentnosti s ohledem na systémy AI. V souladu s těmito standardy azure Media Services vyřazuje předvolbu Video Analyzeru 14. září 2023. Tato předvolba v současné době umožňuje extrahovat z videosouboru několik přehledů videa a zvuku. Zákazníci můžou nahradit své aktuální pracovní postupy pomocí pokročilejší sady funkcí nabízených službou Azure Video Indexer.

Služba Media Services umožňuje extrahovat přehledy z videosouborů a zvukových souborů pomocí předvoleb analyzátoru zvuku a videa. Tento článek popisuje předvolby analyzátoru používané k extrakci přehledů. Pokud potřebujete podrobnější přehledy z videí, použijte Azure Video Analyzer for Media Service. Pokud chcete zjistit, kdy použít Analyzátor videa pro média a předvolby analyzátoru Media Services, podívejte se na dokument porovnání.

Pro předvolbu Analyzátoru zvuku existují dva režimy, základní a standardní režimy. Podívejte se na popis rozdílů v následující tabulce.

Pokud chcete analyzovat obsah pomocí předvoleb Media Services v3, vytvoříte transformaci a odešlete úlohu , která používá jednu z těchto předvoleb: VideoAnalyzerPreset nebo AudioAnalyzerPreset.

Dodržování předpisů, ochrana osobních údajů a zabezpečení

Musíte dodržovat všechny platné zákony při používání Video Analyzeru pro média a nesmíte používat Video Analyzer pro média ani žádnou jinou službu Azure způsobem, který porušuje práva ostatních nebo může být škodlivé pro ostatní. Před nahráním všech videí, včetně biometrických údajů, do služby Video Analyzer for Media pro zpracování a ukládání musíte mít všechna správná práva, včetně všech příslušných souhlasů, od jednotlivých osob ve videu. Informace o dodržování předpisů, ochraně osobních údajů a zabezpečení ve Video Analyzeru pro média najdete v podmínkách služeb Azure Cognitive Services. Pro povinnosti společnosti Microsoft týkající se ochrany osobních údajů a zpracování vašich dat si přečtěte prohlášení společnosti Microsoft o zásadách ochrany osobních údajů, podmínky online služeb ("OST") a dodatek ke zpracování dat ("DPA"). Další informace o ochraně osobních údajů, včetně uchovávání dat, odstranění/zničení, jsou k dispozici v ost a tady. Pomocí Video Analyzeru pro média souhlasíte s tím, že budete vázáni podmínkami služeb Cognitive Services, OST, DPA a prohlášením o zásadách ochrany osobních údajů.

Předdefinované předvolby

Služba Media Services aktuálně podporuje následující předdefinované předvolby analyzátoru:

Přednastavený název Scénář / režim Podrobnosti
AudioAnalyzerPreset Analýza zvukového standardního režimu Tato předvolba používá předdefinovanou sadu analytických operací založených na umělé inteligenci, včetně přepisu řeči. V současné době předvolba podporuje zpracování obsahu s jednou zvukovou stopou, která obsahuje řeč v jednom jazyce. Zadejte jazyk datové části zvuku ve vstupu pomocí formátu BCP-47 jazyka tag-region. Seznam podporovaných jazyků najdete níže v dostupných kódech jazyků. Automatické rozpoznávání jazyka vybere první zjištěný jazyk a pokračuje ve vybraném jazyce pro celý soubor, pokud není nastavený nebo je nastaven na hodnotu null. Funkce automatického rozpoznávání jazyka aktuálně podporuje: angličtinu, čínštinu, francouzštinu, němčinu, italštinu, japonštinu, španělštinu, ruštinu a brazilskou portugalštinu. Nepodporuje dynamické přepínání mezi jazyky po zjištění prvního jazyka. Funkce automatického rozpoznávání jazyka funguje nejlépe se zvukovými nahrávkami s jasně rozpoznatelnou řečí. Pokud automatické rozpoznávání jazyka nenajde jazyk, přepis se vrátí do angličtiny.
AudioAnalyzerPreset Analýza zvukového režimu Basic Tento přednastavený režim provádí přepis řeči na text a generování souboru titulků a titulků VTT. Výstup tohoto režimu zahrnuje soubor JSON s přehledy, včetně jenom klíčových slov, přepisu a informací o časování. V tomto režimu není zahrnuta automatická detekce jazyka a diarizace mluvčího. Seznam podporovaných jazyků je shodný s režimem Standard výše.
VideoAnalyzerPreset Analýza zvuku a videa Extrahuje přehledy (bohaté metadata) ze zvuku i videa a výstupy souboru formátu JSON. Můžete určit, jestli chcete extrahovat jenom zvukové přehledy při zpracování videosouboru.
FaceDetectorPreset Rozpoznávání tváří, které jsou přítomné ve videu Popisuje nastavení, která se mají použít při analýze videa k detekci všech přítomných tváří.

Podporované jazyky

  • Arabština ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' a 'ar-SY')
  • Brazilská portugalština ('pt-BR')
  • Čínština ('zh-CN')
  • Dánština('da-DK')
  • Angličtina (en-US, en-GB a en-AU)
  • Finština (fi-FI)
  • Francouzština (fr-FR a fr-CA)
  • Němčina ('de-DE')
  • Hebrejština (he-IL)
  • Hindština ('hi-IN'), korejština ('ko-KR')
  • Italština (it-IT)
  • Japonština (ja-JP)
  • Norština ('nb-NO')
  • Perština ('fa-IR')
  • Portugalsko portugalština ('pt-PT')
  • Ruština (ru-RU)
  • Španělština (es-ES a es-MX)
  • Švédština ('sv-SE')
  • Thajština ('th-TH')
  • Turečtina ('tr-TR')

Standardní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat více zvukových přehledů ze zvukového souboru nebo videosouboru.

Výstup obsahuje soubor JSON (se všemi přehledy) a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě řetězce BCP47 . Mezi zvukové přehledy patří:

  • Přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků.
  • Indexování mluvčího: Mapování mluvčích a odpovídající mluvená slova.
  • Analýza mínění řeči: Výstup analýzy mínění provedených při přepisu zvuku
  • Klíčová slova: Klíčová slova, která se extrahují z přepisu zvuku.

Základní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat více zvukových přehledů ze zvukového souboru nebo videosouboru.

Výstup obsahuje soubor JSON a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě řetězce BCP47 . Výstup zahrnuje:

  • Přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků, ale automatické rozpoznávání jazyka a diarizace mluvčího nejsou zahrnuty.
  • Klíčová slova: Klíčová slova, která se extrahují z přepisu zvuku.

VideoAnalyzerPreset

Tato předvolba umožňuje extrahovat z videosouboru několik přehledů zvuku a videa. Výstup obsahuje soubor JSON (se všemi přehledy), soubor VTT pro přepis videa a kolekci miniatur. Tato předvolba také přijímá řetězec BCP47 (představující jazyk videa) jako vlastnost. Přehledy videí zahrnují všechny zvukové přehledy uvedené výše a následující dodatečné položky:

  • Sledování tváří: Čas, během kterého se ve videu nacházejí tváře. Každá tvář má ID tváře a odpovídající kolekci miniatur.
  • Vizuální text: Text, který je zjištěn prostřednictvím optického rozpoznávání znaků. Text je časový razítko a používá se také k extrakci klíčových slov (kromě zvukového přepisu).
  • Klíčové rámce: Kolekce klíčových snímků extrahovaných z videa
  • Moderování vizuálního obsahu: Část videí označená jako dospělí neborací v přírodě.
  • Poznámka: Výsledek přidávání poznámek k videím na základě předem definovaného objektového modelu

insights.json – elementy

Výstup obsahuje soubor JSON (insights.json) se všemi přehledy nalezenými ve videu nebo zvuku. Json může obsahovat následující prvky:

Přepis

Název Description
id ID řádku.
text Samotný přepis.
language Jazyk přepisu. Určený k podpoře přepisu, ve kterém může mít každý řádek jiný jazyk.
Instance Seznam časových rozsahů, ve kterých se tento řádek objevil. Pokud je instance přepisem, bude mít jenom jednu instanci.

Příklad:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Název Description
id ID řádku OCR.
text Text OCR.
spolehlivost Spolehlivost rozpoznávání.
language Jazyk OCR.
Instance Seznam časových rozsahů, ve kterých se tento OCR objevil (stejný OCR se může zobrazit několikrát).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Tváře

Název Description
id ID tváře.
name Jméno tváře. Může to být neznámý #0, identifikovaná celebrita nebo osoba vytrénovaná zákazníkem.
spolehlivost Jistota identifikace tváře.
description Popis celebrity.
thumbnailId ID miniatury této tváře.
knownPersonId Interní ID (pokud se jedná o známou osobu).
referenceId ID Bingu (pokud se jedná o celebritu Bingu).
referenceType Aktuálně jen Bing.
title Název (pokud se jedná o celebritu– například "generální ředitel Microsoftu").
Imageurl Adresa URL obrázku, pokud je to celebrita.
Instance Instance, ve kterých se tvář objevila v daném časovém rozsahu. Každá instance má také miniaturyId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Záběry

Název Description
id ID střely.
Klíčových snímků Seznam klíčových snímků v rámci snímku (každý má ID a seznam časových rozsahů instancí). Instance klíčových snímků mají pole thumbnailId s ID miniatury klíče.
Instance Seznam časových rozsahů tohoto snímku (snímky mají pouze jednu instanci).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistiky

Název Description
Korespondenční počet Počet korespondencí ve videu
WordCount Počet slov na mluvčího.
SpeakerNumberOfFragments Množství fragmentů, které má reproduktor ve videu.
ReproduktorLongestMonolog Nejdelší monolog mluvčího. Pokud reproduktor obsahuje ticho uvnitř monologu, je součástí. Ticho na začátku a konec monologu se odebere.
SpeakerTalkToListenRatio Výpočet vychází z času stráveného monologem mluvčího (bez mlčení mezi) rozděleným celkovým časem videa. Čas se zaokrouhlí na třetí desetinnou čárku.

Pocity

Mínění se agregují podle pole sentimentType (kladné/neutrální/záporné). Například 0-0.1, 0.1-0.2.

Název Description
id ID mínění.
averageScore Průměr všech skóre všech instancí tohoto typu mínění – kladné/neutrální/záporné
Instance Seznam časových rozsahů, ve kterých se toto mínění objevilo.
sentimentType Typ může být "Pozitivní", "Neutrální" nebo "Záporné".
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

Popisky

Název Description
id ID popisku.
name Název popisku (například Počítač, TV).
language Jazyk názvů popisků (při překladu) BCP-47
Instance Seznam časových rozsahů, ve kterých se tento popisek objevil (popisek se může zobrazit několikrát). Každá instance má pole spolehlivosti.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

klíčová slova

Název Description
id ID klíčového slova.
text Text klíčového slova.
spolehlivost Spolehlivost rozpoznávání klíčového slova
language Jazyk klíčových slov (při překladu)
Instance Seznam časových rozsahů, ve kterých se toto klíčové slovo objevilo (klíčové slovo se může zobrazit několikrát).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration obsahuje časové rozsahy, které nástroj Video Analyzer for Media zjistil, že potenciálně obsahuje obsah pro dospělé. Pokud je visualContentModeration prázdný, neexistuje žádný obsah pro dospělé, který byl identifikován.

Videa, která obsahují obsah pro dospělé neborací, můžou být dostupná jenom pro soukromé zobrazení. Uživatelé můžou odeslat žádost o kontrolu obsahu člověka, v takovém případě IsAdult bude atribut obsahovat výsledek lidské kontroly.

Název Description
id ID moderování obsahu vizuálu
adultScore Skóre pro dospělé (z content moderatoru).
racyScore Skóreracy (z moderování obsahu)
Instance Seznam časových rozsahů, ve kterých se tento vizuální obsah moderoval.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]