Analýza videosouborů a zvukových souborů pomocí Služby Azure Media Services
Upozornění
Služba Azure Media Services bude vyřazena 30. června 2024. Další informace najdete v průvodci vyřazením AMS.
Důležité
Jak nastíňují standardy Odpovědné AI společnosti Microsoft, společnost Microsoft se zavázala k spravedlnosti, ochraně osobních údajů, zabezpečení a transparentnosti ve vztahu k systémům AI. V souladu s těmito standardy azure Media Services 14. září 2023 vyřazuje předvolbu Analyzátoru videa. Tato předvolba v současné době umožňuje extrahovat z videosouboru několik přehledů videa a zvuku. Zákazníci můžou nahradit své aktuální pracovní postupy pomocí pokročilejší sady funkcí, kterou nabízí Azure Video Indexer.
Služba Media Services umožňuje extrahovat přehledy z videosouborů a zvukových souborů pomocí předvoleb analyzátoru zvuku a videa. Tento článek popisuje předvolby analyzátoru používané k extrakci přehledů. Pokud potřebujete podrobnější přehledy ze svých videí, použijte službu Azure Video Indexer. Pokud chcete zjistit, kdy použít předvolby analyzátoru Video Indexer a Media Services, projděte si dokument o porovnání.
Pro předvolbu Analyzátoru zvuku existují dva režimy, základní a standardní. Projděte si popis rozdílů v následující tabulce.
Pokud chcete analyzovat obsah pomocí předvoleb Media Services v3, vytvořte transformaci a odešlete úlohu , která používá jednu z těchto předvoleb: VideoAnalyzerPreset nebo AudioAnalyzerPreset.
Poznámka
AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.
Dodržování předpisů, ochrana osobních údajů a zabezpečení
Při používání Video Indexeru musíte dodržovat všechny platné zákony a nesmíte Video Indexer ani žádnou jinou službu Azure používat způsobem, který porušuje práva ostatních nebo může být pro ostatní škodlivé. Před nahráním jakýchkoli videí, včetně jakýchkoli biometrických údajů, do služby Video Indexer pro zpracování a uložení, musíte mít všechna příslušná práva, včetně všech příslušných souhlasů, od jednotlivců ve videu. Informace o dodržování předpisů, ochraně osobních údajů a zabezpečení ve Video Indexeru najdete v podmínkách služby Azure Cognitive Services. V případě povinností společnosti Microsoft ohledně ochrany osobních údajů a zpracování vašich údajů si projděte prohlášení společnosti Microsoft o zásadách ochrany osobních údajů, podmínky pro online služby ("OST") a dodatek o zpracování dat ("DPA"). Další informace o ochraně osobních údajů, včetně informací o uchovávání, odstranění nebo zničení dat, jsou k dispozici v podmínkách ochrany osobních údajů. Používáním Video Indexeru souhlasíte s tím, že budete vázáni podmínkami služeb Cognitive Services, ost, DPA a Prohlášením o zásadách ochrany osobních údajů.
Předdefinované předvolby
Služba Media Services v současné době podporuje následující předdefinované předvolby analyzátorů:
Název předvolby | Scénář nebo režim | Podrobnosti |
---|---|---|
AudioAnalyzerPreset | Analýza standardního režimu zvuku | Předvolba použije předdefinovanou sadu analytických operací založených na umělé inteligenci, včetně přepisu řeči. V současné době předvolba podporuje zpracování obsahu s jednou zvukovou stopou, která obsahuje řeč v jednom jazyce. Zadejte jazyk datové části zvuku ve vstupu pomocí formátu BCP-47 'language tag-region'. Dostupné kódy jazyků najdete v seznamu podporovaných jazyků níže. Automatické rozpoznávání jazyka zvolí první zjištěný jazyk a pokračuje vybraným jazykem pro celý soubor, pokud není nastavený nebo nastavený na hodnotu null. Funkce automatického rozpoznávání jazyka v současné době podporuje angličtinu, čínštinu, francouzštinu, italštinu, japonštinu, španělštinu, ruštinu a brazilskou portugalštinu. Nepodporuje dynamické přepínání mezi jazyky po zjištění prvního jazyka. Funkce automatického rozpoznávání jazyka funguje nejlépe se zvukovými záznamy s jasně rozpoznatelnou řečí. Pokud se automatickému rozpoznávání jazyka nepodaří jazyk najít, přepis se vrátí do angličtiny. |
AudioAnalyzerPreset | Analýza zvuku v režimu Basic | Tento přednastavený režim provádí přepis řeči na text a generování souboru titulků nebo popis VTT. Výstup tohoto režimu obsahuje soubor JSON přehledů, který obsahuje pouze klíčová slova, přepis a informace o načasování. Automatický rozpoznávání jazyka a diarizace mluvčího nejsou v tomto režimu zahrnuty. Seznam podporovaných jazyků je shodný s výše uvedeným standardním režimem. |
VideoAnalyzerPreset | Analýza zvuku a videa | Extrahuje přehledy (bohatá metadata) ze zvuku i videa a vypíše soubor ve formátu JSON. Můžete určit, jestli chcete při zpracování videosouboru extrahovat jenom zvukové přehledy. |
FaceDetectorPreset | Rozpoznávání tváří přítomných ve videu | Popisuje nastavení, která se mají použít při analýze videa k detekci všech přítomných tváří. |
Poznámka
AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.
Podporované jazyky
- Arabština ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" a "ar-SY")
- Brazilská portugalština (pt-BR)
- Čínština ("zh-CN")
- Dánština(da-DK)
- Angličtina ("en-US", "en-GB" a "en-AU"))
- Finština ("fi-FI")
- Francouzština (fr-FR a fr-CA)
- Němčina ("de-DE")
- Hebrejština (he-IL)
- Hindština (hi-IN), korejština (ko-KR)
- Italština (it-IT)
- Japonština (ja-JP)
- Norština ("nb-NO")
- Perština ("fa-IR")
- Portugalština v Portugalsku ("pt-PT")
- Ruština (ru-RU)
- Španělština ("es-ES" a "es-MX")
- Švédština ("sv-SE")
- Thajština ("th-TH")
- Turečtina ("tr-TR")
Poznámka
AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.
Standardní režim AudioAnalyzerPreset
Tato předvolba umožňuje extrahovat více zvukových přehledů ze zvukového souboru nebo videosouboru.
Výstup obsahuje soubor JSON (se všemi přehledy) a soubor VTT pro zvukový přepis. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě řetězce BCP47 . Mezi přehledy zvuku patří:
- Přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků.
- Klíčová slova: Klíčová slova, která se extrahují z přepisu zvuku.
Základní režim AudioAnalyzerPreset
Tato předvolba umožňuje extrahovat více zvukových přehledů ze zvukového souboru nebo videosouboru.
Výstup obsahuje soubor JSON a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě řetězce BCP47 . Výstup zahrnuje:
- Přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků, ale automatické rozpoznávání jazyka a diarizace mluvčího nejsou zahrnuty.
- Klíčová slova: Klíčová slova, která se extrahují z přepisu zvuku.
VideoAnalyzerPreset
Tato předvolba umožňuje extrahovat z videosouboru několik přehledů zvuku a videa. Výstup obsahuje soubor JSON (se všemi přehledy), soubor VTT pro přepis videa a kolekci miniatur. Tato předvolba přijímá jako vlastnost také řetězec BCP47 (představující jazyk videa). Přehledy videa zahrnují všechny výše uvedené zvukové přehledy a následující dodatečné položky:
- Sledování tváře: Doba, po kterou se ve videu zobrazují tváře. Každá tvář má ID tváře a odpovídající kolekci miniatur.
- Vizuální text: Text rozpoznaný pomocí optického rozpoznávání znaků. Text je opatřen časovým razítkem a používá se také k extrahování klíčových slov (kromě přepisu zvuku).
- Klíčové snímky: Kolekce klíčových snímků extrahovaných z videa.
- Moderování vizuálního obsahu: Část videí označená jako pro dospělé nebo nesměšná v přírodě.
- Anotace: Výsledek přidávání poznámek k videím na základě předdefinovaného objektového modelu
insights.json elementy
Výstup obsahuje soubor JSON (insights.json) se všemi přehledy nalezenými ve videu nebo zvuku. Json může obsahovat následující prvky:
Přepis
Název | Description |
---|---|
id | ID řádku. |
text | Samotný přepis. |
language | Jazyk přepisu. Účelem je podpora přepisu, kde každý řádek může mít jiný jazyk. |
Instance | Seznam časových rozsahů, ve kterých se tento řádek objevil. Pokud je instance přepisem, bude mít pouze jednu instanci. |
Příklad:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Název | Description |
---|---|
id | ID řádku OCR. |
text | Text OCR. |
spolehlivost | Jistota uznání. |
language | Jazyk OCR. |
Instance | Seznam časových rozsahů, ve kterých se tento OCR objevil (stejné OCR se může zobrazit vícekrát). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Tváře
Název | Description |
---|---|
id | ID tváře. |
name | Jméno tváře. Může to být Neznámý č. 0, identifikovaná celebrita nebo osoba vyškolená zákazníkem. |
spolehlivost | Jistota identifikace tváře. |
description | Popis celebrity. |
thumbnailId | ID miniatury této tváře. |
polePersonId | Interní ID (pokud se jedná o známou osobu). |
id odkazu | ID Bingu (pokud se jedná o celebritu Bingu). |
referenční typ | V současné době jenom Bing. |
title | Název (pokud se jedná o celebritu – například "generální ředitel Microsoftu"). |
Imageurl | Adresa URL obrázku, pokud se jedná o celebritu. |
Instance | Instance, ve kterých se tvář objevila v daném časovém rozsahu. Každá instance má také thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Záběry
Název | Description |
---|---|
id | ID záběru. |
Klíčových snímků | Seznam klíčových snímků v rámci snímku (každý má ID a seznam časových rozsahů instancí). Instance klíčových snímků mají pole thumbnailId s ID miniatury klíčového rámce. |
Instance | Seznam časových rozsahů tohoto snímku (snímky mají pouze jednu instanci). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
Statistiky
Název | Description |
---|---|
KorespondenceCount | Počet korespondencí ve videu |
WordCount | Počet slov na mluvčího. |
SpeakerNumberOfFragments | Množství fragmentů, které má mluvčí ve videu. |
SpeakerLongestMonolog | Mluvčí je nejdelší monolog. Pokud má reproduktor ticho uvnitř monologu, je součástí. Ticho na začátku a konci monologa je odstraněno. |
SpeakerTalkToListenRatio | Výpočet je založen na času stráveném na monologu mluvčího (bez mlčení mezi) vydělený celkovým časem videa. Čas se zaokrouhlí na třetí desetinnou čárku. |
Popisky
Název | Description |
---|---|
id | ID popisku. |
name | Název popisku (například "Počítač", "TV"). |
language | Jazyk názvu popisku (při překladu) BCP-47 |
Instance | Seznam časových rozsahů, ve kterých se tento popisek objevil (popisek se může zobrazit vícekrát). Každá instance má pole spolehlivosti. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
klíčová slova
Název | Description |
---|---|
id | ID klíčového slova. |
text | Text klíčového slova. |
spolehlivost | Spolehlivost rozpoznávání klíčového slova |
language | Jazyk klíčových slov (při překladu) |
Instance | Seznam časových rozsahů, ve kterých se toto klíčové slovo objevilo (klíčové slovo se může zobrazit vícekrát). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Blok visualContentModeration obsahuje časové rozsahy, u kterých video indexer zjistil, že potenciálně obsahují obsah pro dospělé. Pokud je visualContentModeration prázdný, není k dispozici žádný identifikovaný obsah pro dospělé.
Videa, která obsahují obsah pro dospělé nebo nesměšný obsah, můžou být dostupná jenom pro soukromé zobrazení. Uživatelé mohou odeslat žádost o lidskou kontrolu obsahu. V takovém případě IsAdult
atribut bude obsahovat výsledek kontroly člověkem.
Název | Description |
---|---|
id | ID moderování vizuálního obsahu |
adultScore | Skóre pro dospělé (z content moderatoru) |
racyScore | Skóre neracy (z moderování obsahu). |
Instance | Seznam časových rozsahů, ve kterých se toto moderování vizuálního obsahu objevilo. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Získání nápovědy a podpory
Media Services můžete kontaktovat s dotazy nebo sledovat naše aktualizace jedním z následujících způsobů:
- Q & A
-
Stack Overflow Označit otázky pomocí
azure-media-services
. - @MSFTAzureMedia nebo použijte @AzureSupport a požádejte o podporu.
- Otevřete lístek podpory prostřednictvím Azure Portal.