Videó- és hangfájlok elemzése az Azure Media Services használatával

Media Services embléma v3


Figyelmeztetés

Az Azure Media Services 2024. június 30-án megszűnik. További információkért lásd az AMS kivezetési útmutatóját.

Fontos

Ahogy a Microsoft felelős AI-szabványai is felvázolják, a Microsoft elkötelezett a méltányosság, az adatvédelem, a biztonság és az átláthatóság mellett az AI-rendszerek tekintetében. A szabványoknak való megfelelés érdekében az Azure Media Services 2023. szeptember 14-én nyugdíjba vonul a Video Analyzer előzetes beállításkészletétől. Ez az előzetes beállítás jelenleg lehetővé teszi, hogy több video- és hangelemzést nyerjen ki egy videófájlból. Az ügyfelek lecserélhetik aktuális munkafolyamataikat az Azure Video Indexer által kínált fejlettebb funkciókészlettel.

A Media Services segítségével elemzéseket nyerhet ki a videó- és hangfájlokból a hang- és videoelemző beállításainak használatával. Ez a cikk az elemzések kinyeréséhez használt elemzőkészleteket ismerteti. Ha részletesebb elemzéseket szeretne a videóiból, használja az Azure Video Indexer szolgáltatást. A Video Indexer és a Media Services elemző előzetes beállításainak használatáról az összehasonlító dokumentumból tájékozódhat.

A Hangelemző előre beállított, alapszintű és standard üzemmódja két módból áll. Tekintse meg az alábbi táblázatban szereplő különbségek leírását.

Ha a Media Services v3 előzetes beállításaival szeretné elemezni a tartalmat, hozzon létre egy átalakítást , és küldjön be egy feladatot , amely a következő beállítások egyikét használja: VideoAnalyzerPreset vagy AudioAnalyzerPreset.

Megjegyzés

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

Megfelelőség, adatvédelem és biztonság

Be kell tartania a Video Indexer használatára vonatkozó összes vonatkozó jogszabályt, és nem használhatja a Video Indexert vagy bármely más Azure-szolgáltatást olyan módon, amely sérti mások jogait, vagy káros lehet másokra nézve. Mielőtt bármilyen videót, beleértve a biometrikus adatokat is, feltöltené a Video Indexer szolgáltatásba feldolgozásra és tárolásra, rendelkeznie kell a videóban szereplő személy(ek) minden megfelelő jogosultságával, beleértve a megfelelő hozzájárulásokat is. A megfelelőségről, az adatvédelemről és a biztonságról a Video Indexerben az Azure Cognitive Services használati feltételeiből tájékozódhat. A Microsoft adatvédelmi kötelezettségeit és az adatok kezelését illetően tekintse át a Microsoft adatvédelmi nyilatkozatát, az online szolgáltatásokra vonatkozó feltételeket ("OST") és az adatfeldolgozási kiegészítést ("DPA"). Az OST-ben további adatvédelmi információk érhetők el, többek között az adatmegőrzéssel, törléssel/törléssel kapcsolatban. A Video Indexer használatával Ön elfogadja, hogy a Cognitive Services feltételeit, az OST-t, a DPA-t és az adatvédelmi nyilatkozatot magára nézve kötelezőnek tekinti.

Beépített előzetes beállítások

A Media Services jelenleg a következő beépített elemzőkészleteket támogatja:

Előre beállított név Forgatókönyv/mód Részletek
AudioAnalyzerPreset A standard hangmód elemzése Az előre beállított beállítás AI-alapú elemzési műveletek előre definiált készletét alkalmazza, beleértve a beszédátírást is. Az előre beállított beállítás jelenleg támogatja a tartalom feldolgozását egyetlen hangsávon, amely egyetlen nyelven tartalmazza a beszédet. Adja meg a hangtartalom nyelvét a bemenetben a "language tag-region" BCP-47 formátumával. Az elérhető nyelvkódokért tekintse meg az alábbi támogatott nyelvek listáját. Az automatikus nyelvfelismerés kiválasztja az első észlelt nyelvet, és a teljes fájl kijelölt nyelvével folytatódik, ha nincs beállítva, vagy null értékre van állítva. Az automatikus nyelvfelismerési funkció jelenleg a következőket támogatja: angol, kínai, francia, német, olasz, japán, spanyol, orosz és brazíliai portugál. Nem támogatja a nyelvek közötti dinamikus váltást az első nyelv észlelése után. Az automatikus nyelvfelismerési funkció egyértelműen felismerhető beszédet tartalmazó hangfelvételekkel működik a legjobban. Ha az automatikus nyelvfelismerés nem találja a nyelvet, az átírás angolra esik vissza.
AudioAnalyzerPreset A hang alapszintű módjának elemzése Ez az előre beállított mód beszéd-szöveg átírást és VTT-alcím/képaláírás fájl létrehozását hajtja végre. Ennek a módnak a kimenete tartalmaz egy Insights JSON-fájlt, amely csak a kulcsszavakat, az átírást és az időzítési információkat tartalmazza. Az automatikus nyelvfelismerés és a hangszóró-diarizáció nem része ennek a módnak. A támogatott nyelvek listája megegyezik a fenti Standard móddal.
VideoAnalyzerPreset Hang és videó elemzése Kinyeri az elemzéseket (gazdag metaadatokat) a hangból és a videóból, és egy JSON formátumú fájlt ad ki. Megadhatja, hogy csak videofájl feldolgozásakor szeretne-e hangelemzéseket kinyerni.
FaceDetectorPreset A videóban szereplő arcok észlelése A videó elemzésekor a jelen lévő arcok észleléséhez használandó beállításokat ismerteti.

Megjegyzés

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

Támogatott nyelvek

  • Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' és 'ar-SY')
  • Brazíliai portugál (pt-BR)
  • Kínai ('zh-CN')
  • Dán(da-DK)
  • Angol ('en-US', 'en-GB' és 'en-AU')
  • Finn (fi-FI)
  • Francia (fr-FR és fr-CA)
  • Német ('de-DE')
  • Héber (he-IL)
  • Hindi ('hi-IN'), koreai ('ko-KR')
  • Olasz (it-IT)
  • Japán ('ja-JP')
  • Norvég ('nb-NO')
  • Perzsa (fa-IR)
  • Portugál portugál (pt-PT)
  • Orosz (ru-RU)
  • Spanyol (es-ES és es-MX)
  • Svéd (sv-SE)
  • Thai (th-TH)
  • Török ('tr-TR')

Megjegyzés

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

AudioAnalyzerPreset standard mód

A beállításkészlettel több hangelemzést is kinyerhet egy hang- vagy videofájlból.

A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt) és egy VTT-fájlt a hanganyag átiratához. Ez az előre beállított beállítás elfogad egy tulajdonságot, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A hangelemzések a következők:

  • Hangátírás: A kimondott szavak átirata időbélyegekkel. Több nyelv is támogatott.
  • Kulcsszavak: A hangátírásból kinyert kulcsszavak.

AudioAnalyzerElőzetes alapszintű mód

A beállításkészlettel több hangelemzést is kinyerhet egy hang- vagy videofájlból.

A kimenet tartalmaz egy JSON-fájlt és egy VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás elfogad egy tulajdonságot, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A kimenet a következőket tartalmazza:

  • Hangátírás: A kimondott szavak átirata időbélyegekkel. Több nyelv is támogatott, de az automatikus nyelvfelismerés és a beszélő-diarizálás nem szerepel a csomagban.
  • Kulcsszavak: A hangátírásból kinyert kulcsszavak.

VideoAnalyzerPreset

A beállításkészlettel több hang- és videoelemzést nyerhet ki egy videófájlból. A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt), egy VTT-fájlt a videó átiratához, valamint egy miniatűrgyűjteményt. Ez az előzetes beállítás egy BCP47-sztringet is elfogad (amely a videó nyelvét jelöli) tulajdonságként. A videoelemzések tartalmazzák a fent említett összes hangelemzést, valamint a következő további elemeket:

  • Arckövetés: Az az idő, amely alatt az arcok megjelennek a videóban. Minden arc arcazonosítóval és miniatűrök megfelelő gyűjteményével rendelkezik.
  • Vizuális szöveg: Az optikai karakterfelismeréssel észlelt szöveg. A szöveget időbélyeggel bélyegzik, és kulcsszavak kinyerésére is használják (a hangátiraton kívül).
  • Kulcskeretek: A videóból kinyert kulcskeretek gyűjteménye.
  • Vizuális tartalommoderálás: A videók felnőttként vagy racy-ként megjelölt része.
  • Széljegyzet: A videók egy előre definiált objektummodell alapján történő jegyzetelésének eredménye

insights.json elemek

A kimenet tartalmaz egy JSON-fájlt (insights.json), amely a videóban vagy a hangban található összes megállapítást tartalmazza. A JSON a következő elemeket tartalmazhatja:

Átirat

Név Leírás
id A sor azonosítója.
szöveg Maga az átirat.
language Az átirat nyelve. Az átiratok támogatására szolgál, ahol az egyes sorok nyelve eltérő lehet.
Példányok Azon időtartományok listája, ahol ez a sor megjelent. Ha a példány átirat, akkor csak egy példánya lesz.

Példa:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Név Leírás
id Az OCR-sor azonosítója.
szöveg Az OCR szövege.
megbízhatóság Az elismerés megbízhatósága.
language Az OCR nyelve.
Példányok Azoknak az időtartományoknak a listája, ahol ez az OCR megjelent (ugyanaz az OCR többször is megjelenhet).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Arcok

Név Leírás
id Az arcazonosító.
name Az arcnév. Lehet "Ismeretlen #0", azonosított híresség vagy egy ügyfél által betanított személy.
megbízhatóság Az arcazonosítás megbízhatósága.
leírás A híresség leírása.
thumbnailId Az arc miniatűrjének azonosítója.
knownPersonId A belső azonosító (ha ismert személy).
referenceId A Bing-azonosító (ha ez egy Bing híresség).
referenceType Jelenleg csak Bing.
cím A cím (ha hírességről van szó– például "A Microsoft vezérigazgatója").
imageUrl A kép URL-címe, ha híresség.
Példányok Olyan példányok, ahol az arc az adott időtartományban jelent meg. Minden példány rendelkezik miniatűr azonosítóval is.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Lövések

Név Leírás
id A lövés azonosítója.
Kulcsképek A felvételen belüli kulcskeretek listája (mindegyik rendelkezik azonosítóval és a példányok időtartományainak listájával). A kulcskeretek példányai rendelkeznek egy thumbnailId mezővel, amely tartalmazza a keyFrame miniatűr-azonosítóját.
Példányok A felvétel időtartományainak listája (a felvételeknek csak egy példánya van).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statisztikák

Név Leírás
Levelezési fiók A videóban szereplő levelezések száma.
WordCount A szavak száma beszélőnként.
SpeakerNumberOfFragments A beszélő által a videóban található töredékek mennyisége.
SpeakerLongestMonolog A beszélő leghosszabb monológja. Ha a hangszórón belül csendek vannak a monológban, az is benne van. A monolog elején és végén lévő csend el lesz távolítva.
SpeakerTalkToListenRatio A számítás alapja a beszélő monológjában töltött idő (a kettő közötti csend nélkül) és a videó teljes ideje. Az idő kerekítése a harmadik tizedesjegyre történik.

Címkék

Név Leírás
id A címke azonosítója.
name A címke neve (például "Számítógép", "TV").
language A címkenév nyelve (lefordítva). BCP-47
Példányok Azoknak az időtartományoknak a listája, ahol ez a címke megjelent (egy címke többször is megjelenhet). Minden példány rendelkezik egy megbízhatósági mezővel.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

kulcsszavak

Név Leírás
id A kulcsszó azonosítója.
szöveg A kulcsszó szövege.
megbízhatóság A kulcsszó felismerési megbízhatósága.
language A kulcsszó nyelve (lefordítva).
Példányok Azoknak az időtartományoknak a listája, ahol ez a kulcsszó megjelent (egy kulcsszó többször is megjeleníthető).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

A visualContentModeration blokk olyan időtartományokat tartalmaz, amelyekről a Video Indexer felnőtt tartalommal rendelkezik. Ha a visualContentModeration üres, nincs azonosítva felnőtt tartalom.

Előfordulhat, hogy a felnőtteknek szóló vagy kényes tartalmakat tartalmazó videók csak privát megtekintésre érhetők el. A felhasználók kérelmet küldhetnek a tartalom emberi felülvizsgálatára, amely esetben az IsAdult attribútum tartalmazza az emberi felülvizsgálat eredményét.

Név Leírás
id A vizualizáció tartalommoderálási azonosítója.
adultScore A felnőtt pontszám (a tartalom moderátorából).
racyScore A racy pontszám (a tartalommoderálásból).
Példányok Azoknak az időtartományoknak a listája, ahol ez a vizuális tartalommoderálás megjelent.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Súgó és támogatás

Kérdéseket tehet fel a Media Serviceshez, vagy kövesse a frissítéseket az alábbi módszerek egyikével: