Video- és hangfájlok elemzése az Azure Media Services szolgáltatással

Cikk
10/02/2024

Figyelmeztetés

Az Azure Media Services 2024. június 30-án megszűnik. További információ: AMS nyugdíjazási útmutató.

Fontos

Ahogy a Microsoft felelős AI-szabványok körvonalazódik, a Microsoft elkötelezett a méltányosság, az adatvédelem, a biztonság és az átláthatóság mellett az AI-rendszerek tekintetében. A szabványoknak való megfelelés érdekében Azure Media Services 2023. szeptember 14-én . Ez az előre beállított beállítás lehetővé teszi, hogy több video- és hangelemzést nyerjen ki egy videófájlból. Az ügyfelek lecserélhetik az aktuális munkafolyamataikat az Azure Video Indexer által kínált fejlettebb funkciókészlettel.

A Media Services segítségével elemzéseket nyerhet ki a video- és hangfájlokból a hang- és videoelemző előre beállított beállításaival. Ez a cikk az elemzések kinyeréséhez használt elemzőkészleteket ismerteti. Ha részletesebb megállapításokat szeretne a videókból, használja az Azure Video Indexer szolgáltatást. A Video Indexer és a Media Services elemzőbeállításainak használatához tekintse meg összehasonlító dokumentumot.

A Hangelemző előre beállított, alapszintű és standard üzemmódjai kétféleképpen használhatók. Tekintse meg az alábbi táblázatban szereplő különbségek leírását.

A tartalom Media Services v3-készletek használatával történő elemzéséhez hozzon létre egy Átalakító, és küldjön be egy feladat, amely az alábbi beállítások egyikét használja: VideoAnalyzerPreset vagy AudioAnalyzerPreset.

Jegyzet

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

Megfelelőség, adatvédelem és biztonság

Be kell tartania a Video Indexer használatára vonatkozó összes vonatkozó törvényt, és nem használhatja a Video Indexert vagy bármely más Azure-szolgáltatást olyan módon, amely sérti mások jogait, vagy káros lehet másokra nézve. Mielőtt bármilyen videót, beleértve a biometrikus adatokat is, feltöltené a Video Indexer szolgáltatásba feldolgozás és tárolás céljából, rendelkeznie kell a videóban szereplő személy(ek) minden megfelelő jogosultságával, beleértve az összes megfelelő hozzájárulást is. A megfelelőségről, az adatvédelemről és a biztonságról a Video Indexerben az Azure Cognitive Services-feltételek. A Microsoft adatvédelmi kötelezettségeit és az adatok kezelését illetően tekintse át a Microsoft adatvédelmi nyilatkozatát, az online szolgáltatásokra vonatkozó feltételeket ("OST") és adatfeldolgozási kiegészítési ("DPA"). Az OST-ben további adatvédelmi információk érhetők el, többek között az adatmegőrzésről, a törlésről és a megsemmisítésről. A Video Indexer használatával elfogadja, hogy a Cognitive Services feltételeit, az OST-t, a DPA-t és az adatvédelmi nyilatkozatot magára nézve kötelezőnek ismeri el.

Beépített előre beállított beállítások

A Media Services jelenleg a következő beépített elemzőkészleteket támogatja:

Előre beállított név	forgatókönyv/ mód	Részletek
AudioAnalyzerPreset	Audio Standard mód elemzése	Az előre beállított AI-alapú elemzési műveletek előre definiált készletét alkalmazza, beleértve a beszédátírást is. Az előre beállított beállítás jelenleg egyetlen hangsávon támogatja a tartalom feldolgozását, amely egyetlen nyelven tartalmazza a beszédet. Adja meg a bemenetben a hang hasznos adatainak nyelvét a "language tag-region" BCP-47 formátumával. Az elérhető nyelvkódokat az alábbi támogatott nyelvek listájában találja. Az automatikus nyelvfelismerés kiválasztja az első észlelt nyelvet, és a teljes fájl kijelölt nyelvével folytatja, ha nincs beállítva, vagy null értékre van állítva. Az automatikus nyelvfelismerési funkció jelenleg a következőket támogatja: angol, kínai, francia, német, olasz, japán, spanyol, orosz és brazil portugál. Nem támogatja a nyelvek közötti dinamikus váltást az első nyelv észlelése után. Az automatikus nyelvfelismerési funkció jól működik a jól felismerhető beszédet tartalmazó hangrögzítésekkel. Ha az automatikus nyelvészlelés nem találja a nyelvet, az átírás visszaesik az angol nyelvre.
AudioAnalyzerPreset	A hang alapszintű módjának elemzése	Ez az előre beállított mód beszéd-szöveg átírást és VTT felirat-/feliratfájl létrehozását hajtja végre. Ennek a módnak a kimenete tartalmaz egy Insights JSON-fájlt, amely csak a kulcsszavakat, az átírást és az időzítési információkat tartalmazza. Ebben a módban nem szerepel az automatikus nyelvfelismerés és a beszélő-diarizálás. A támogatott nyelvek listája megegyezik a fenti Standard móddal.
VideoAnalyzerPreset	Hang és videó elemzése	Elemzéseket (gazdag metaadatokat) nyer ki hangból és videóból is, és JSON formátumú fájlt ad ki. Megadhatja, hogy csak videofájl feldolgozásakor szeretne-e hangelemzéseket kinyerni.
FaceDetectorPreset	A videóban szereplő arcok észlelése	A videó elemzésekor a jelen lévő arcok észleléséhez használandó beállításokat ismerteti.

Jegyzet

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

Támogatott nyelvek

Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' és 'ar-SY')
Brazil portugál ('pt-BR')
Kínai ('zh-CN')
Dán('da-DK')
Angol ('en-US', 'en-GB' és 'en-AU')
Finn ('fi-FI')
Francia ('fr-FR' és 'fr-CA')
Német ('de-DE' )
Héber (he-IL)
Hindi ('hi-IN'), koreai ('ko-KR')
Olasz ('it-IT')
Japán ('ja-JP')
Norvég ('nb-NO')
Perzsa ('fa-IR')
Portugál portugál ('pt-PT')
Orosz ('ru-RU')
Spanyol ('es-ES' és 'es-MX')
Svéd ('sv-SE')
Thai ('th-TH')
Török ('tr-TR')

Jegyzet

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

AudioAnalyzerPreset standard mód

Az előre beállított beállítással több hangelemzést is kinyerhet egy hang- vagy videofájlból.

A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt) és a VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás egy olyan tulajdonságot fogad el, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A hangelemzések a következők:

Hangátirat: A beszélt szavak átirata időbélyegekkel. Több nyelv is támogatott.
Kulcsszavak: A hangátiratból kinyert kulcsszavak.

AudioAnalyzerPreset alapszintű mód

Az előre beállított beállítással több hangelemzést is kinyerhet egy hang- vagy videofájlból.

A kimenet tartalmaz egy JSON-fájlt és egy VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás egy olyan tulajdonságot fogad el, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A kimenet a következőket tartalmazza:

Hangátirat: A beszélt szavak átirata időbélyegekkel. Több nyelv is támogatott, de az automatikus nyelvfelismerés és a beszélő-diarizálás nem szerepel benne.
Kulcsszavak: A hangátiratból kinyert kulcsszavak.

VideoAnalyzerPreset

Az előre beállított beállítás lehetővé teszi, hogy több hang- és videoelemzést nyerjen ki egy videófájlból. A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt), egy VTT-fájlt a videó átiratához, valamint miniatűrök gyűjteményét. Ez az előre beállított beállítás egy BCP47 sztringet is elfogad (amely a videó nyelvét képviseli) tulajdonságként. A videóelemzések tartalmazzák a fent említett összes hangelemzést és a következő további elemeket:

Arckövetési: Az az idő, amíg az arcok megjelennek a videóban. Minden arc arcazonosítóval és miniatűrök megfelelő gyűjteményével rendelkezik.
Vizuális szöveg: Az optikai karakterfelismeréssel észlelt szöveg. A szöveg időbélyeggel van elbélyegzve, és kulcsszavak kinyerésére is használható (a hangátiraton kívül).
kulcskeretek: A videóból kinyert kulcskeretek gyűjteménye.
vizuális tartalommoderálási: A videók felnőttként vagy racy-ként megjelölt része.
széljegyzet: A videók előre definiált objektummodellen alapuló jegyzetelésének eredménye

insights.json elemek

A kimenet tartalmaz egy JSON-fájlt (insights.json) a videóban vagy hangban található összes megállapítással. A JSON a következő elemeket tartalmazhatja:

átirat

Név	Leírás
azonosító	A sor azonosítója.
SMS	Maga az átirat.
Nyelv	Az átirat nyelve. Az átiratok támogatására szolgál, ahol az egyes sorok eltérő nyelvvel rendelkezhetnek.
Példányok	Azon időtartományok listája, ahol ez a sor megjelent. Ha a példány átirat, akkor csak egy példánya lesz.

Példa:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Név	Leírás
azonosító	Az OCR-vonal azonosítója.
SMS	Az OCR szövege.
bizalom	Az elismerés megbízhatósága.
Nyelv	Az OCR nyelve.
Példányok	Azoknak az időtartományoknak a listája, amelyekben ez az OCR megjelent (ugyanaz az OCR többször is megjelenhet).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Arcok

Név	Leírás
azonosító	Az arcazonosító.
név	Az arcnév. Lehet "Ismeretlen #0", azonosított híresség vagy ügyfél által képzett személy.
bizalom	Az arcazonosítás megbízhatósága.
leírás	A híresség leírása.
thumbnailId	Az arc miniatűrjének azonosítója.
knownPersonId	A belső azonosító (ha ismert személy).
referenceId	A Bing-azonosító (ha ez egy Bing híresség).
referenceType	Jelenleg csak Bing.
cím	A cím (ha híresség – például "Microsoft vezérigazgatója").
imageUrl	A kép URL-címe, ha híresség.
Példányok	Olyan példányok, ahol az arc az adott időtartományban jelent meg. Minden példány rendelkezik miniatűr azonosítóval is.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Lövések

Név	Leírás
azonosító	A lövés azonosítója.
keyFrames	A felvételen belüli kulcskeretek listája (mindegyik rendelkezik azonosítóval és a példányok időtartományainak listájával). A kulcskeretek példányai rendelkeznek egy thumbnailId mezővel a keyFrame miniatűrazonosítójával.
Példányok	A felvétel időtartományainak listája (a felvételeknek csak egy példánya van).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statisztika

Név	Leírás
Levelezési fiók	A videóban szereplő levelezések száma.
WordCount	A szavak száma beszélőnként.
SpeakerNumberOfFragments	A hangszóróban lévő töredékek mennyisége egy videóban.
SpeakerLongestMonolog	A beszélő leghosszabb monológja. Ha a hangszórón belül csendek vannak a monológban, akkor az is benne van. A monolog elején és végén lévő csend el lesz távolítva.
SpeakerTalkToListenRatio	A számítás alapja a beszélő monológján eltöltött idő (a hallgatás nélkül) és a videó teljes ideje. Az idő a harmadik tizedesvesszőre van kerekítve.

Címkék

Név	Leírás
azonosító	A címke azonosítója.
név	A címke neve (például "Számítógép", "TV").
Nyelv	A címkenév nyelve (lefordítva). BCP-47
Példányok	Azoknak az időtartományoknak a listája, amelyekben ez a címke megjelent (egy címke többször is megjelenhet). Minden példány rendelkezik megbízhatósági mezővel.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Kulcsszavak

Név	Leírás
azonosító	A kulcsszó azonosítója.
SMS	A kulcsszó szövege.
bizalom	A kulcsszó felismerési megbízhatósága.
Nyelv	A kulcsszó nyelve (lefordítva).
Példányok	Azoknak az időtartományoknak a listája, amelyekben ez a kulcsszó megjelent (egy kulcsszó többször is megjeleníthető).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

A visualContentModeration blokk olyan időtartományokat tartalmaz, amelyekről a Video Indexer megállapította, hogy felnőtt tartalommal rendelkezik. Ha a visualContentModeration üres, nincs azonosítva felnőtt tartalom.

Előfordulhat, hogy a felnőtt vagy a racy tartalmat tartalmazó videók csak privát megtekintésre érhetők el. A felhasználók kérelmet küldhetnek a tartalom emberi felülvizsgálatára, amely esetben a IsAdult attribútum tartalmazza az emberi felülvizsgálat eredményét.

Név	Leírás
azonosító	A vizualizáció tartalommoderálási azonosítója.
adultScore	A felnőtt pontszám (a tartalom moderátorából).
racyScore	A racy score (a tartalommoderálásból).
Példányok	Azoknak az időtartományoknak a listája, ahol ez a vizuális tartalommoderálás megjelent.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Segítség és támogatás kérése

Kérdéseket tehet fel a Media Serviceshez, vagy az alábbi módszerek egyikével követheti a frissítéseket:

Q & A
Stack Overflow. Kérdések címkézése azure-media-services.
@MSFTAzureMedia vagy @AzureSupport használatával kérhet támogatást.
Nyisson meg egy támogatási jegyet az Azure Portalon.

Megosztás a következőn keresztül:

Video- és hangfájlok elemzése az Azure Media Services szolgáltatással

Megfelelőség, adatvédelem és biztonság

Beépített előre beállított beállítások

Támogatott nyelvek

AudioAnalyzerPreset standard mód

AudioAnalyzerPreset alapszintű mód

VideoAnalyzerPreset

insights.json elemek

átirat

Ocr

Arcok

Lövések

statisztika

Címkék

Kulcsszavak

visualContentModeration

Segítség és támogatás kérése

További források