Video- és hangfájlok elemzése az Azure Media Services szolgáltatással
Figyelmeztetés
Az Azure Media Services 2024. június 30-án megszűnik. További információ: AMS nyugdíjazási útmutató.
Fontos
Ahogy a Microsoft felelős AI-szabványok körvonalazódik, a Microsoft elkötelezett a méltányosság, az adatvédelem, a biztonság és az átláthatóság mellett az AI-rendszerek tekintetében. A szabványoknak való megfelelés érdekében
A Media Services segítségével elemzéseket nyerhet ki a video- és hangfájlokból a hang- és videoelemző előre beállított beállításaival. Ez a cikk az elemzések kinyeréséhez használt elemzőkészleteket ismerteti. Ha részletesebb megállapításokat szeretne a videókból, használja az Azure Video Indexer szolgáltatást. A Video Indexer és a Media Services elemzőbeállításainak használatához tekintse meg összehasonlító dokumentumot.
A Hangelemző előre beállított, alapszintű és standard üzemmódjai kétféleképpen használhatók. Tekintse meg az alábbi táblázatban szereplő különbségek leírását.
A tartalom Media Services v3-készletek használatával történő elemzéséhez hozzon létre egy Átalakító, és küldjön be egy feladat, amely az alábbi beállítások egyikét használja: VideoAnalyzerPreset vagy AudioAnalyzerPreset.
Jegyzet
Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.
Megfelelőség, adatvédelem és biztonság
Be kell tartania a Video Indexer használatára vonatkozó összes vonatkozó törvényt, és nem használhatja a Video Indexert vagy bármely más Azure-szolgáltatást olyan módon, amely sérti mások jogait, vagy káros lehet másokra nézve. Mielőtt bármilyen videót, beleértve a biometrikus adatokat is, feltöltené a Video Indexer szolgáltatásba feldolgozás és tárolás céljából, rendelkeznie kell a videóban szereplő személy(ek) minden megfelelő jogosultságával, beleértve az összes megfelelő hozzájárulást is. A megfelelőségről, az adatvédelemről és a biztonságról a Video Indexerben az Azure Cognitive Services-feltételek. A Microsoft adatvédelmi kötelezettségeit és az adatok kezelését illetően tekintse át a Microsoft adatvédelmi nyilatkozatát, az online szolgáltatásokra vonatkozó feltételeket ("OST") és adatfeldolgozási kiegészítési ("DPA"). Az OST-ben további adatvédelmi információk érhetők el, többek között az adatmegőrzésről, a törlésről és a megsemmisítésről. A Video Indexer használatával elfogadja, hogy a Cognitive Services feltételeit, az OST-t, a DPA-t és az adatvédelmi nyilatkozatot magára nézve kötelezőnek ismeri el.
Beépített előre beállított beállítások
A Media Services jelenleg a következő beépített elemzőkészleteket támogatja:
Előre beállított név | forgatókönyv/ mód | Részletek |
---|---|---|
AudioAnalyzerPreset | Audio Standard mód elemzése | Az előre beállított AI-alapú elemzési műveletek előre definiált készletét alkalmazza, beleértve a beszédátírást is. Az előre beállított beállítás jelenleg egyetlen hangsávon támogatja a tartalom feldolgozását, amely egyetlen nyelven tartalmazza a beszédet. Adja meg a bemenetben a hang hasznos adatainak nyelvét a "language tag-region" BCP-47 formátumával. Az elérhető nyelvkódokat az alábbi támogatott nyelvek listájában találja. Az automatikus nyelvfelismerés kiválasztja az első észlelt nyelvet, és a teljes fájl kijelölt nyelvével folytatja, ha nincs beállítva, vagy null értékre van állítva. Az automatikus nyelvfelismerési funkció jelenleg a következőket támogatja: angol, kínai, francia, német, olasz, japán, spanyol, orosz és brazil portugál. Nem támogatja a nyelvek közötti dinamikus váltást az első nyelv észlelése után. Az automatikus nyelvfelismerési funkció jól működik a jól felismerhető beszédet tartalmazó hangrögzítésekkel. Ha az automatikus nyelvészlelés nem találja a nyelvet, az átírás visszaesik az angol nyelvre. |
AudioAnalyzerPreset | A hang alapszintű módjának elemzése | Ez az előre beállított mód beszéd-szöveg átírást és VTT felirat-/feliratfájl létrehozását hajtja végre. Ennek a módnak a kimenete tartalmaz egy Insights JSON-fájlt, amely csak a kulcsszavakat, az átírást és az időzítési információkat tartalmazza. Ebben a módban nem szerepel az automatikus nyelvfelismerés és a beszélő-diarizálás. A támogatott nyelvek listája megegyezik a fenti Standard móddal. |
VideoAnalyzerPreset | Hang és videó elemzése | Elemzéseket (gazdag metaadatokat) nyer ki hangból és videóból is, és JSON formátumú fájlt ad ki. Megadhatja, hogy csak videofájl feldolgozásakor szeretne-e hangelemzéseket kinyerni. |
FaceDetectorPreset | A videóban szereplő arcok észlelése | A videó elemzésekor a jelen lévő arcok észleléséhez használandó beállításokat ismerteti. |
Jegyzet
Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.
Támogatott nyelvek
- Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' és 'ar-SY')
- Brazil portugál ('pt-BR')
- Kínai ('zh-CN')
- Dán('da-DK')
- Angol ('en-US', 'en-GB' és 'en-AU')
- Finn ('fi-FI')
- Francia ('fr-FR' és 'fr-CA')
- Német ('de-DE' )
- Héber (he-IL)
- Hindi ('hi-IN'), koreai ('ko-KR')
- Olasz ('it-IT')
- Japán ('ja-JP')
- Norvég ('nb-NO')
- Perzsa ('fa-IR')
- Portugál portugál ('pt-PT')
- Orosz ('ru-RU')
- Spanyol ('es-ES' és 'es-MX')
- Svéd ('sv-SE')
- Thai ('th-TH')
- Török ('tr-TR')
Jegyzet
Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.
AudioAnalyzerPreset standard mód
Az előre beállított beállítással több hangelemzést is kinyerhet egy hang- vagy videofájlból.
A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt) és a VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás egy olyan tulajdonságot fogad el, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A hangelemzések a következők:
- Hangátirat: A beszélt szavak átirata időbélyegekkel. Több nyelv is támogatott.
- Kulcsszavak: A hangátiratból kinyert kulcsszavak.
AudioAnalyzerPreset alapszintű mód
Az előre beállított beállítással több hangelemzést is kinyerhet egy hang- vagy videofájlból.
A kimenet tartalmaz egy JSON-fájlt és egy VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás egy olyan tulajdonságot fogad el, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A kimenet a következőket tartalmazza:
- Hangátirat: A beszélt szavak átirata időbélyegekkel. Több nyelv is támogatott, de az automatikus nyelvfelismerés és a beszélő-diarizálás nem szerepel benne.
- Kulcsszavak: A hangátiratból kinyert kulcsszavak.
VideoAnalyzerPreset
Az előre beállított beállítás lehetővé teszi, hogy több hang- és videoelemzést nyerjen ki egy videófájlból. A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt), egy VTT-fájlt a videó átiratához, valamint miniatűrök gyűjteményét. Ez az előre beállított beállítás egy BCP47 sztringet is elfogad (amely a videó nyelvét képviseli) tulajdonságként. A videóelemzések tartalmazzák a fent említett összes hangelemzést és a következő további elemeket:
- Arckövetési: Az az idő, amíg az arcok megjelennek a videóban. Minden arc arcazonosítóval és miniatűrök megfelelő gyűjteményével rendelkezik.
- Vizuális szöveg: Az optikai karakterfelismeréssel észlelt szöveg. A szöveg időbélyeggel van elbélyegzve, és kulcsszavak kinyerésére is használható (a hangátiraton kívül).
- kulcskeretek: A videóból kinyert kulcskeretek gyűjteménye.
- vizuális tartalommoderálási: A videók felnőttként vagy racy-ként megjelölt része.
- széljegyzet: A videók előre definiált objektummodellen alapuló jegyzetelésének eredménye
insights.json elemek
A kimenet tartalmaz egy JSON-fájlt (insights.json) a videóban vagy hangban található összes megállapítással. A JSON a következő elemeket tartalmazhatja:
átirat
Név | Leírás |
---|---|
azonosító | A sor azonosítója. |
SMS | Maga az átirat. |
Nyelv | Az átirat nyelve. Az átiratok támogatására szolgál, ahol az egyes sorok eltérő nyelvvel rendelkezhetnek. |
Példányok | Azon időtartományok listája, ahol ez a sor megjelent. Ha a példány átirat, akkor csak egy példánya lesz. |
Példa:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Név | Leírás |
---|---|
azonosító | Az OCR-vonal azonosítója. |
SMS | Az OCR szövege. |
bizalom | Az elismerés megbízhatósága. |
Nyelv | Az OCR nyelve. |
Példányok | Azoknak az időtartományoknak a listája, amelyekben ez az OCR megjelent (ugyanaz az OCR többször is megjelenhet). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Arcok
Név | Leírás |
---|---|
azonosító | Az arcazonosító. |
név | Az arcnév. Lehet "Ismeretlen #0", azonosított híresség vagy ügyfél által képzett személy. |
bizalom | Az arcazonosítás megbízhatósága. |
leírás | A híresség leírása. |
thumbnailId | Az arc miniatűrjének azonosítója. |
knownPersonId | A belső azonosító (ha ismert személy). |
referenceId | A Bing-azonosító (ha ez egy Bing híresség). |
referenceType | Jelenleg csak Bing. |
cím | A cím (ha híresség – például "Microsoft vezérigazgatója"). |
imageUrl | A kép URL-címe, ha híresség. |
Példányok | Olyan példányok, ahol az arc az adott időtartományban jelent meg. Minden példány rendelkezik miniatűr azonosítóval is. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Lövések
Név | Leírás |
---|---|
azonosító | A lövés azonosítója. |
keyFrames | A felvételen belüli kulcskeretek listája (mindegyik rendelkezik azonosítóval és a példányok időtartományainak listájával). A kulcskeretek példányai rendelkeznek egy thumbnailId mezővel a keyFrame miniatűrazonosítójával. |
Példányok | A felvétel időtartományainak listája (a felvételeknek csak egy példánya van). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
statisztika
Név | Leírás |
---|---|
Levelezési fiók | A videóban szereplő levelezések száma. |
WordCount | A szavak száma beszélőnként. |
SpeakerNumberOfFragments | A hangszóróban lévő töredékek mennyisége egy videóban. |
SpeakerLongestMonolog | A beszélő leghosszabb monológja. Ha a hangszórón belül csendek vannak a monológban, akkor az is benne van. A monolog elején és végén lévő csend el lesz távolítva. |
SpeakerTalkToListenRatio | A számítás alapja a beszélő monológján eltöltött idő (a hallgatás nélkül) és a videó teljes ideje. Az idő a harmadik tizedesvesszőre van kerekítve. |
Címkék
Név | Leírás |
---|---|
azonosító | A címke azonosítója. |
név | A címke neve (például "Számítógép", "TV"). |
Nyelv | A címkenév nyelve (lefordítva). BCP-47 |
Példányok | Azoknak az időtartományoknak a listája, amelyekben ez a címke megjelent (egy címke többször is megjelenhet). Minden példány rendelkezik megbízhatósági mezővel. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
Kulcsszavak
Név | Leírás |
---|---|
azonosító | A kulcsszó azonosítója. |
SMS | A kulcsszó szövege. |
bizalom | A kulcsszó felismerési megbízhatósága. |
Nyelv | A kulcsszó nyelve (lefordítva). |
Példányok | Azoknak az időtartományoknak a listája, amelyekben ez a kulcsszó megjelent (egy kulcsszó többször is megjeleníthető). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
A visualContentModeration blokk olyan időtartományokat tartalmaz, amelyekről a Video Indexer megállapította, hogy felnőtt tartalommal rendelkezik. Ha a visualContentModeration üres, nincs azonosítva felnőtt tartalom.
Előfordulhat, hogy a felnőtt vagy a racy tartalmat tartalmazó videók csak privát megtekintésre érhetők el. A felhasználók kérelmet küldhetnek a tartalom emberi felülvizsgálatára, amely esetben a IsAdult
attribútum tartalmazza az emberi felülvizsgálat eredményét.
Név | Leírás |
---|---|
azonosító | A vizualizáció tartalommoderálási azonosítója. |
adultScore | A felnőtt pontszám (a tartalom moderátorából). |
racyScore | A racy score (a tartalommoderálásból). |
Példányok | Azoknak az időtartományoknak a listája, ahol ez a vizuális tartalommoderálás megjelent. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Segítség és támogatás kérése
Kérdéseket tehet fel a Media Serviceshez, vagy az alábbi módszerek egyikével követheti a frissítéseket:
- Q & A
-
Stack Overflow. Kérdések címkézése
azure-media-services
. - @MSFTAzureMedia vagy @AzureSupport használatával kérhet támogatást.
- Nyisson meg egy támogatási jegyet az Azure Portalon.