Megosztás a következőn keresztül:


Video- és hangfájlok elemzése az Azure Media Services szolgáltatással

Media Services embléma 3-


Figyelmeztetés

Az Azure Media Services 2024. június 30-án megszűnik. További információ: AMS nyugdíjazási útmutató.

Fontos

Ahogy a Microsoft felelős AI-szabványok körvonalazódik, a Microsoft elkötelezett a méltányosság, az adatvédelem, a biztonság és az átláthatóság mellett az AI-rendszerek tekintetében. A szabványoknak való megfelelés érdekében Azure Media Services 2023. szeptember 14-én . Ez az előre beállított beállítás lehetővé teszi, hogy több video- és hangelemzést nyerjen ki egy videófájlból. Az ügyfelek lecserélhetik az aktuális munkafolyamataikat az Azure Video Indexer által kínált fejlettebb funkciókészlettel.

A Media Services segítségével elemzéseket nyerhet ki a video- és hangfájlokból a hang- és videoelemző előre beállított beállításaival. Ez a cikk az elemzések kinyeréséhez használt elemzőkészleteket ismerteti. Ha részletesebb megállapításokat szeretne a videókból, használja az Azure Video Indexer szolgáltatást. A Video Indexer és a Media Services elemzőbeállításainak használatához tekintse meg összehasonlító dokumentumot.

A Hangelemző előre beállított, alapszintű és standard üzemmódjai kétféleképpen használhatók. Tekintse meg az alábbi táblázatban szereplő különbségek leírását.

A tartalom Media Services v3-készletek használatával történő elemzéséhez hozzon létre egy Átalakító, és küldjön be egy feladat, amely az alábbi beállítások egyikét használja: VideoAnalyzerPreset vagy AudioAnalyzerPreset.

Jegyzet

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

Megfelelőség, adatvédelem és biztonság

Be kell tartania a Video Indexer használatára vonatkozó összes vonatkozó törvényt, és nem használhatja a Video Indexert vagy bármely más Azure-szolgáltatást olyan módon, amely sérti mások jogait, vagy káros lehet másokra nézve. Mielőtt bármilyen videót, beleértve a biometrikus adatokat is, feltöltené a Video Indexer szolgáltatásba feldolgozás és tárolás céljából, rendelkeznie kell a videóban szereplő személy(ek) minden megfelelő jogosultságával, beleértve az összes megfelelő hozzájárulást is. A megfelelőségről, az adatvédelemről és a biztonságról a Video Indexerben az Azure Cognitive Services-feltételek. A Microsoft adatvédelmi kötelezettségeit és az adatok kezelését illetően tekintse át a Microsoft adatvédelmi nyilatkozatát, az online szolgáltatásokra vonatkozó feltételeket ("OST") és adatfeldolgozási kiegészítési ("DPA"). Az OST-ben további adatvédelmi információk érhetők el, többek között az adatmegőrzésről, a törlésről és a megsemmisítésről. A Video Indexer használatával elfogadja, hogy a Cognitive Services feltételeit, az OST-t, a DPA-t és az adatvédelmi nyilatkozatot magára nézve kötelezőnek ismeri el.

Beépített előre beállított beállítások

A Media Services jelenleg a következő beépített elemzőkészleteket támogatja:

Előre beállított név forgatókönyv/ mód Részletek
AudioAnalyzerPreset Audio Standard mód elemzése Az előre beállított AI-alapú elemzési műveletek előre definiált készletét alkalmazza, beleértve a beszédátírást is. Az előre beállított beállítás jelenleg egyetlen hangsávon támogatja a tartalom feldolgozását, amely egyetlen nyelven tartalmazza a beszédet. Adja meg a bemenetben a hang hasznos adatainak nyelvét a "language tag-region" BCP-47 formátumával. Az elérhető nyelvkódokat az alábbi támogatott nyelvek listájában találja. Az automatikus nyelvfelismerés kiválasztja az első észlelt nyelvet, és a teljes fájl kijelölt nyelvével folytatja, ha nincs beállítva, vagy null értékre van állítva. Az automatikus nyelvfelismerési funkció jelenleg a következőket támogatja: angol, kínai, francia, német, olasz, japán, spanyol, orosz és brazil portugál. Nem támogatja a nyelvek közötti dinamikus váltást az első nyelv észlelése után. Az automatikus nyelvfelismerési funkció jól működik a jól felismerhető beszédet tartalmazó hangrögzítésekkel. Ha az automatikus nyelvészlelés nem találja a nyelvet, az átírás visszaesik az angol nyelvre.
AudioAnalyzerPreset A hang alapszintű módjának elemzése Ez az előre beállított mód beszéd-szöveg átírást és VTT felirat-/feliratfájl létrehozását hajtja végre. Ennek a módnak a kimenete tartalmaz egy Insights JSON-fájlt, amely csak a kulcsszavakat, az átírást és az időzítési információkat tartalmazza. Ebben a módban nem szerepel az automatikus nyelvfelismerés és a beszélő-diarizálás. A támogatott nyelvek listája megegyezik a fenti Standard móddal.
VideoAnalyzerPreset Hang és videó elemzése Elemzéseket (gazdag metaadatokat) nyer ki hangból és videóból is, és JSON formátumú fájlt ad ki. Megadhatja, hogy csak videofájl feldolgozásakor szeretne-e hangelemzéseket kinyerni.
FaceDetectorPreset A videóban szereplő arcok észlelése A videó elemzésekor a jelen lévő arcok észleléséhez használandó beállításokat ismerteti.

Jegyzet

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

Támogatott nyelvek

  • Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' és 'ar-SY')
  • Brazil portugál ('pt-BR')
  • Kínai ('zh-CN')
  • Dán('da-DK')
  • Angol ('en-US', 'en-GB' és 'en-AU')
  • Finn ('fi-FI')
  • Francia ('fr-FR' és 'fr-CA')
  • Német ('de-DE' )
  • Héber (he-IL)
  • Hindi ('hi-IN'), koreai ('ko-KR')
  • Olasz ('it-IT')
  • Japán ('ja-JP')
  • Norvég ('nb-NO')
  • Perzsa ('fa-IR')
  • Portugál portugál ('pt-PT')
  • Orosz ('ru-RU')
  • Spanyol ('es-ES' és 'es-MX')
  • Svéd ('sv-SE')
  • Thai ('th-TH')
  • Török ('tr-TR')

Jegyzet

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

AudioAnalyzerPreset standard mód

Az előre beállított beállítással több hangelemzést is kinyerhet egy hang- vagy videofájlból.

A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt) és a VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás egy olyan tulajdonságot fogad el, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A hangelemzések a következők:

  • Hangátirat: A beszélt szavak átirata időbélyegekkel. Több nyelv is támogatott.
  • Kulcsszavak: A hangátiratból kinyert kulcsszavak.

AudioAnalyzerPreset alapszintű mód

Az előre beállított beállítással több hangelemzést is kinyerhet egy hang- vagy videofájlból.

A kimenet tartalmaz egy JSON-fájlt és egy VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás egy olyan tulajdonságot fogad el, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A kimenet a következőket tartalmazza:

  • Hangátirat: A beszélt szavak átirata időbélyegekkel. Több nyelv is támogatott, de az automatikus nyelvfelismerés és a beszélő-diarizálás nem szerepel benne.
  • Kulcsszavak: A hangátiratból kinyert kulcsszavak.

VideoAnalyzerPreset

Az előre beállított beállítás lehetővé teszi, hogy több hang- és videoelemzést nyerjen ki egy videófájlból. A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt), egy VTT-fájlt a videó átiratához, valamint miniatűrök gyűjteményét. Ez az előre beállított beállítás egy BCP47 sztringet is elfogad (amely a videó nyelvét képviseli) tulajdonságként. A videóelemzések tartalmazzák a fent említett összes hangelemzést és a következő további elemeket:

  • Arckövetési: Az az idő, amíg az arcok megjelennek a videóban. Minden arc arcazonosítóval és miniatűrök megfelelő gyűjteményével rendelkezik.
  • Vizuális szöveg: Az optikai karakterfelismeréssel észlelt szöveg. A szöveg időbélyeggel van elbélyegzve, és kulcsszavak kinyerésére is használható (a hangátiraton kívül).
  • kulcskeretek: A videóból kinyert kulcskeretek gyűjteménye.
  • vizuális tartalommoderálási: A videók felnőttként vagy racy-ként megjelölt része.
  • széljegyzet: A videók előre definiált objektummodellen alapuló jegyzetelésének eredménye

insights.json elemek

A kimenet tartalmaz egy JSON-fájlt (insights.json) a videóban vagy hangban található összes megállapítással. A JSON a következő elemeket tartalmazhatja:

átirat

Név Leírás
azonosító A sor azonosítója.
SMS Maga az átirat.
Nyelv Az átirat nyelve. Az átiratok támogatására szolgál, ahol az egyes sorok eltérő nyelvvel rendelkezhetnek.
Példányok Azon időtartományok listája, ahol ez a sor megjelent. Ha a példány átirat, akkor csak egy példánya lesz.

Példa:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Név Leírás
azonosító Az OCR-vonal azonosítója.
SMS Az OCR szövege.
bizalom Az elismerés megbízhatósága.
Nyelv Az OCR nyelve.
Példányok Azoknak az időtartományoknak a listája, amelyekben ez az OCR megjelent (ugyanaz az OCR többször is megjelenhet).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Arcok

Név Leírás
azonosító Az arcazonosító.
név Az arcnév. Lehet "Ismeretlen #0", azonosított híresség vagy ügyfél által képzett személy.
bizalom Az arcazonosítás megbízhatósága.
leírás A híresség leírása.
thumbnailId Az arc miniatűrjének azonosítója.
knownPersonId A belső azonosító (ha ismert személy).
referenceId A Bing-azonosító (ha ez egy Bing híresség).
referenceType Jelenleg csak Bing.
cím A cím (ha híresség – például "Microsoft vezérigazgatója").
imageUrl A kép URL-címe, ha híresség.
Példányok Olyan példányok, ahol az arc az adott időtartományban jelent meg. Minden példány rendelkezik miniatűr azonosítóval is.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Lövések

Név Leírás
azonosító A lövés azonosítója.
keyFrames A felvételen belüli kulcskeretek listája (mindegyik rendelkezik azonosítóval és a példányok időtartományainak listájával). A kulcskeretek példányai rendelkeznek egy thumbnailId mezővel a keyFrame miniatűrazonosítójával.
Példányok A felvétel időtartományainak listája (a felvételeknek csak egy példánya van).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statisztika

Név Leírás
Levelezési fiók A videóban szereplő levelezések száma.
WordCount A szavak száma beszélőnként.
SpeakerNumberOfFragments A hangszóróban lévő töredékek mennyisége egy videóban.
SpeakerLongestMonolog A beszélő leghosszabb monológja. Ha a hangszórón belül csendek vannak a monológban, akkor az is benne van. A monolog elején és végén lévő csend el lesz távolítva.
SpeakerTalkToListenRatio A számítás alapja a beszélő monológján eltöltött idő (a hallgatás nélkül) és a videó teljes ideje. Az idő a harmadik tizedesvesszőre van kerekítve.

Címkék

Név Leírás
azonosító A címke azonosítója.
név A címke neve (például "Számítógép", "TV").
Nyelv A címkenév nyelve (lefordítva). BCP-47
Példányok Azoknak az időtartományoknak a listája, amelyekben ez a címke megjelent (egy címke többször is megjelenhet). Minden példány rendelkezik megbízhatósági mezővel.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Kulcsszavak

Név Leírás
azonosító A kulcsszó azonosítója.
SMS A kulcsszó szövege.
bizalom A kulcsszó felismerési megbízhatósága.
Nyelv A kulcsszó nyelve (lefordítva).
Példányok Azoknak az időtartományoknak a listája, amelyekben ez a kulcsszó megjelent (egy kulcsszó többször is megjeleníthető).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

A visualContentModeration blokk olyan időtartományokat tartalmaz, amelyekről a Video Indexer megállapította, hogy felnőtt tartalommal rendelkezik. Ha a visualContentModeration üres, nincs azonosítva felnőtt tartalom.

Előfordulhat, hogy a felnőtt vagy a racy tartalmat tartalmazó videók csak privát megtekintésre érhetők el. A felhasználók kérelmet küldhetnek a tartalom emberi felülvizsgálatára, amely esetben a IsAdult attribútum tartalmazza az emberi felülvizsgálat eredményét.

Név Leírás
azonosító A vizualizáció tartalommoderálási azonosítója.
adultScore A felnőtt pontszám (a tartalom moderátorából).
racyScore A racy score (a tartalommoderálásból).
Példányok Azoknak az időtartományoknak a listája, ahol ez a vizuális tartalommoderálás megjelent.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Segítség és támogatás kérése

Kérdéseket tehet fel a Media Serviceshez, vagy az alábbi módszerek egyikével követheti a frissítéseket: