Analýza videosouborů a zvukových souborů pomocí Služby Azure Media Services

Článek
01/22/2024

Upozornění

Služba Azure Media Services bude vyřazena 30. června 2024. Další informace najdete v průvodci vyřazením AMS.

Důležité

Jak nastíňují standardy Odpovědné AI společnosti Microsoft, společnost Microsoft se zavázala k spravedlnosti, ochraně osobních údajů, zabezpečení a transparentnosti ve vztahu k systémům AI. V souladu s těmito standardy azure Media Services 14. září 2023 vyřazuje předvolbu Analyzátoru videa. Tato předvolba v současné době umožňuje extrahovat z videosouboru několik přehledů videa a zvuku. Zákazníci můžou nahradit své aktuální pracovní postupy pomocí pokročilejší sady funkcí, kterou nabízí Azure Video Indexer.

Služba Media Services umožňuje extrahovat přehledy z videosouborů a zvukových souborů pomocí předvoleb analyzátoru zvuku a videa. Tento článek popisuje předvolby analyzátoru používané k extrakci přehledů. Pokud potřebujete podrobnější přehledy ze svých videí, použijte službu Azure Video Indexer. Pokud chcete zjistit, kdy použít předvolby analyzátoru Video Indexer a Media Services, projděte si dokument o porovnání.

Pro předvolbu Analyzátoru zvuku existují dva režimy, základní a standardní. Projděte si popis rozdílů v následující tabulce.

Pokud chcete analyzovat obsah pomocí předvoleb Media Services v3, vytvořte transformaci a odešlete úlohu , která používá jednu z těchto předvoleb: VideoAnalyzerPreset nebo AudioAnalyzerPreset.

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.

Dodržování předpisů, ochrana osobních údajů a zabezpečení

Při používání Video Indexeru musíte dodržovat všechny platné zákony a nesmíte Video Indexer ani žádnou jinou službu Azure používat způsobem, který porušuje práva ostatních nebo může být pro ostatní škodlivé. Před nahráním jakýchkoli videí, včetně jakýchkoli biometrických údajů, do služby Video Indexer pro zpracování a uložení, musíte mít všechna příslušná práva, včetně všech příslušných souhlasů, od jednotlivců ve videu. Informace o dodržování předpisů, ochraně osobních údajů a zabezpečení ve Video Indexeru najdete v podmínkách služby Azure Cognitive Services. V případě povinností společnosti Microsoft ohledně ochrany osobních údajů a zpracování vašich údajů si projděte prohlášení společnosti Microsoft o zásadách ochrany osobních údajů, podmínky pro online služby ("OST") a dodatek o zpracování dat ("DPA"). Další informace o ochraně osobních údajů, včetně informací o uchovávání, odstranění nebo zničení dat, jsou k dispozici v podmínkách ochrany osobních údajů. Používáním Video Indexeru souhlasíte s tím, že budete vázáni podmínkami služeb Cognitive Services, ost, DPA a Prohlášením o zásadách ochrany osobních údajů.

Předdefinované předvolby

Služba Media Services v současné době podporuje následující předdefinované předvolby analyzátorů:

Název předvolby	Scénář nebo režim	Podrobnosti
AudioAnalyzerPreset	Analýza standardního režimu zvuku	Předvolba použije předdefinovanou sadu analytických operací založených na umělé inteligenci, včetně přepisu řeči. V současné době předvolba podporuje zpracování obsahu s jednou zvukovou stopou, která obsahuje řeč v jednom jazyce. Zadejte jazyk datové části zvuku ve vstupu pomocí formátu BCP-47 'language tag-region'. Dostupné kódy jazyků najdete v seznamu podporovaných jazyků níže. Automatické rozpoznávání jazyka zvolí první zjištěný jazyk a pokračuje vybraným jazykem pro celý soubor, pokud není nastavený nebo nastavený na hodnotu null. Funkce automatického rozpoznávání jazyka v současné době podporuje angličtinu, čínštinu, francouzštinu, italštinu, japonštinu, španělštinu, ruštinu a brazilskou portugalštinu. Nepodporuje dynamické přepínání mezi jazyky po zjištění prvního jazyka. Funkce automatického rozpoznávání jazyka funguje nejlépe se zvukovými záznamy s jasně rozpoznatelnou řečí. Pokud se automatickému rozpoznávání jazyka nepodaří jazyk najít, přepis se vrátí do angličtiny.
AudioAnalyzerPreset	Analýza zvuku v režimu Basic	Tento přednastavený režim provádí přepis řeči na text a generování souboru titulků nebo popis VTT. Výstup tohoto režimu obsahuje soubor JSON přehledů, který obsahuje pouze klíčová slova, přepis a informace o načasování. Automatický rozpoznávání jazyka a diarizace mluvčího nejsou v tomto režimu zahrnuty. Seznam podporovaných jazyků je shodný s výše uvedeným standardním režimem.
VideoAnalyzerPreset	Analýza zvuku a videa	Extrahuje přehledy (bohatá metadata) ze zvuku i videa a vypíše soubor ve formátu JSON. Můžete určit, jestli chcete při zpracování videosouboru extrahovat jenom zvukové přehledy.
FaceDetectorPreset	Rozpoznávání tváří přítomných ve videu	Popisuje nastavení, která se mají použít při analýze videa k detekci všech přítomných tváří.

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.

Podporované jazyky

Arabština ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" a "ar-SY")
Brazilská portugalština (pt-BR)
Čínština ("zh-CN")
Dánština(da-DK)
Angličtina ("en-US", "en-GB" a "en-AU"))
Finština ("fi-FI")
Francouzština (fr-FR a fr-CA)
Němčina ("de-DE")
Hebrejština (he-IL)
Hindština (hi-IN), korejština (ko-KR)
Italština (it-IT)
Japonština (ja-JP)
Norština ("nb-NO")
Perština ("fa-IR")
Portugalština v Portugalsku ("pt-PT")
Ruština (ru-RU)
Španělština ("es-ES" a "es-MX")
Švédština ("sv-SE")
Thajština ("th-TH")
Turečtina ("tr-TR")

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.

Standardní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat více zvukových přehledů ze zvukového souboru nebo videosouboru.

Výstup obsahuje soubor JSON (se všemi přehledy) a soubor VTT pro zvukový přepis. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě řetězce BCP47 . Mezi přehledy zvuku patří:

Přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků.
Klíčová slova: Klíčová slova, která se extrahují z přepisu zvuku.

Základní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat více zvukových přehledů ze zvukového souboru nebo videosouboru.

Výstup obsahuje soubor JSON a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě řetězce BCP47 . Výstup zahrnuje:

Přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků, ale automatické rozpoznávání jazyka a diarizace mluvčího nejsou zahrnuty.
Klíčová slova: Klíčová slova, která se extrahují z přepisu zvuku.

VideoAnalyzerPreset

Tato předvolba umožňuje extrahovat z videosouboru několik přehledů zvuku a videa. Výstup obsahuje soubor JSON (se všemi přehledy), soubor VTT pro přepis videa a kolekci miniatur. Tato předvolba přijímá jako vlastnost také řetězec BCP47 (představující jazyk videa). Přehledy videa zahrnují všechny výše uvedené zvukové přehledy a následující dodatečné položky:

Sledování tváře: Doba, po kterou se ve videu zobrazují tváře. Každá tvář má ID tváře a odpovídající kolekci miniatur.
Vizuální text: Text rozpoznaný pomocí optického rozpoznávání znaků. Text je opatřen časovým razítkem a používá se také k extrahování klíčových slov (kromě přepisu zvuku).
Klíčové snímky: Kolekce klíčových snímků extrahovaných z videa.
Moderování vizuálního obsahu: Část videí označená jako pro dospělé nebo nesměšná v přírodě.
Anotace: Výsledek přidávání poznámek k videím na základě předdefinovaného objektového modelu

insights.json elementy

Výstup obsahuje soubor JSON (insights.json) se všemi přehledy nalezenými ve videu nebo zvuku. Json může obsahovat následující prvky:

Přepis

Název	Description
id	ID řádku.
text	Samotný přepis.
language	Jazyk přepisu. Účelem je podpora přepisu, kde každý řádek může mít jiný jazyk.
Instance	Seznam časových rozsahů, ve kterých se tento řádek objevil. Pokud je instance přepisem, bude mít pouze jednu instanci.

Příklad:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Název	Description
id	ID řádku OCR.
text	Text OCR.
spolehlivost	Jistota uznání.
language	Jazyk OCR.
Instance	Seznam časových rozsahů, ve kterých se tento OCR objevil (stejné OCR se může zobrazit vícekrát).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Tváře

Název	Description
id	ID tváře.
name	Jméno tváře. Může to být Neznámý č. 0, identifikovaná celebrita nebo osoba vyškolená zákazníkem.
spolehlivost	Jistota identifikace tváře.
description	Popis celebrity.
thumbnailId	ID miniatury této tváře.
polePersonId	Interní ID (pokud se jedná o známou osobu).
id odkazu	ID Bingu (pokud se jedná o celebritu Bingu).
referenční typ	V současné době jenom Bing.
title	Název (pokud se jedná o celebritu – například "generální ředitel Microsoftu").
Imageurl	Adresa URL obrázku, pokud se jedná o celebritu.
Instance	Instance, ve kterých se tvář objevila v daném časovém rozsahu. Každá instance má také thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Záběry

Název	Description
id	ID záběru.
Klíčových snímků	Seznam klíčových snímků v rámci snímku (každý má ID a seznam časových rozsahů instancí). Instance klíčových snímků mají pole thumbnailId s ID miniatury klíčového rámce.
Instance	Seznam časových rozsahů tohoto snímku (snímky mají pouze jednu instanci).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistiky

Název	Description
KorespondenceCount	Počet korespondencí ve videu
WordCount	Počet slov na mluvčího.
SpeakerNumberOfFragments	Množství fragmentů, které má mluvčí ve videu.
SpeakerLongestMonolog	Mluvčí je nejdelší monolog. Pokud má reproduktor ticho uvnitř monologu, je součástí. Ticho na začátku a konci monologa je odstraněno.
SpeakerTalkToListenRatio	Výpočet je založen na času stráveném na monologu mluvčího (bez mlčení mezi) vydělený celkovým časem videa. Čas se zaokrouhlí na třetí desetinnou čárku.

Popisky

Název	Description
id	ID popisku.
name	Název popisku (například "Počítač", "TV").
language	Jazyk názvu popisku (při překladu) BCP-47
Instance	Seznam časových rozsahů, ve kterých se tento popisek objevil (popisek se může zobrazit vícekrát). Každá instance má pole spolehlivosti.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

klíčová slova

Název	Description
id	ID klíčového slova.
text	Text klíčového slova.
spolehlivost	Spolehlivost rozpoznávání klíčového slova
language	Jazyk klíčových slov (při překladu)
Instance	Seznam časových rozsahů, ve kterých se toto klíčové slovo objevilo (klíčové slovo se může zobrazit vícekrát).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration obsahuje časové rozsahy, u kterých video indexer zjistil, že potenciálně obsahují obsah pro dospělé. Pokud je visualContentModeration prázdný, není k dispozici žádný identifikovaný obsah pro dospělé.

Videa, která obsahují obsah pro dospělé nebo nesměšný obsah, můžou být dostupná jenom pro soukromé zobrazení. Uživatelé mohou odeslat žádost o lidskou kontrolu obsahu. V takovém případě IsAdult atribut bude obsahovat výsledek kontroly člověkem.

Název	Description
id	ID moderování vizuálního obsahu
adultScore	Skóre pro dospělé (z content moderatoru)
racyScore	Skóre neracy (z moderování obsahu).
Instance	Seznam časových rozsahů, ve kterých se toto moderování vizuálního obsahu objevilo.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Získání nápovědy a podpory

Media Services můžete kontaktovat s dotazy nebo sledovat naše aktualizace jedním z následujících způsobů:

Q & A
Stack Overflow Označit otázky pomocí azure-media-services.
@MSFTAzureMedia nebo použijte @AzureSupport a požádejte o podporu.
Otevřete lístek podpory prostřednictvím Azure Portal.

Sdílet prostřednictvím

Analýza videosouborů a zvukových souborů pomocí Služby Azure Media Services

Dodržování předpisů, ochrana osobních údajů a zabezpečení

Předdefinované předvolby

Podporované jazyky

Standardní režim AudioAnalyzerPreset

Základní režim AudioAnalyzerPreset

VideoAnalyzerPreset

insights.json elementy

Přepis

Ocr

Tváře

Záběry

Statistiky

Popisky

klíčová slova

visualContentModeration

Získání nápovědy a podpory

Další materiály