Video- en audiobestanden analyseren met Azure Media Services

Artikel
06/30/2023

Waarschuwing

Azure Media Services wordt op 30 juni 2024 buiten gebruik gesteld. Zie de Handleiding voor buitengebruikstelling van AMS voor meer informatie.

Belangrijk

Zoals wordt beschreven in de verantwoordelijke AI-standaarden van Microsoft, zet Microsoft zich in voor eerlijkheid, privacy, beveiliging en transparantie met betrekking tot AI-systemen. Om aan deze standaarden te voldoen, wordt in Azure Media Services de vooraf ingestelde Video Analyzer op 14 september 2023 buiten gebruik gesteld. Met deze voorinstelling kunt u momenteel meerdere video- en audio-inzichten uit een videobestand extraheren. Klanten kunnen hun huidige werkstromen vervangen met behulp van de geavanceerdere functieset die wordt aangeboden door Azure Video Indexer.

Met Media Services kunt u inzichten extraheren uit uw video- en audiobestanden met behulp van de voorinstellingen voor audio- en videoanalyse. In dit artikel worden de analyse-voorinstellingen beschreven die worden gebruikt om inzichten te extraheren. Als u meer gedetailleerde inzichten uit uw video's wilt, gebruikt u de Azure Video Indexer-service. Bekijk het vergelijkingsdocument om te begrijpen wanneer u voorinstellingen voor Video Indexer en Media Services Analyzer moet gebruiken.

Er zijn twee modi voor de vooraf ingestelde Audio Analyzer: basic en standard. Zie de beschrijving van de verschillen in de onderstaande tabel.

Als u uw inhoud wilt analyseren met voorinstellingen van Media Services v3, maakt u een transformatie en verzendt u een taak die gebruikmaakt van een van deze voorinstellingen: VideoAnalyzerPreset of AudioAnalyzerPreset.

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Naleving, privacy en beveiliging

U moet voldoen aan alle toepasselijke wetgeving bij uw gebruik van Video Indexer en u mag Video Indexer of een andere Azure-service niet gebruiken op een manier die de rechten van anderen schendt of schadelijk kan zijn voor anderen. Voordat u video's, met inbegrip van eventuele biometrische gegevens, uploadt naar de Video Indexer-service om daar te worden verwerkt of opgeslagen, moet u over alle daarvoor benodigde rechten beschikken, waaronder alle toepasselijke toestemmingen van de persoon of personen in de video. Zie de Voorwaarden van Azure Cognitive Services voor meer informatie over naleving, privacy en beveiliging in Video Indexer. Voor de privacyverplichtingen van Microsoft en de verwerking van uw gegevens raadpleegt u de Privacyverklaring van Microsoft, de Voorwaarden voor Online Services ('OST') en het Addendum voor gegevensverwerking ('DPA'). Meer privacyinformatie, waaronder over gegevensretentie, verwijdering/vernietiging, is beschikbaar in de OST. Door Video Indexer te gebruiken, stemt u ermee in gebonden te zijn aan de Voorwaarden van Cognitive Services, de OST, DPA en de Privacyverklaring.

Ingebouwde voorinstellingen

Media Services ondersteunt momenteel de volgende ingebouwde analyse-voorinstellingen:

Vooraf ingestelde naam	Scenario/modus	Details
AudioAnalyzerPreset	Audio analyseren in de standaardmodus	Met de voorinstelling wordt een vooraf gedefinieerde set analysebewerkingen op basis van AI toegepast, waaronder spraaktranscriptie. Op dit moment ondersteunt de voorinstelling het verwerken van inhoud met één audiospoor dat spraak in één taal bevat. Geef de taal op voor de nettolading van de audio in de invoer met behulp van de BCP-47-indeling van 'language tag-region'. Zie de lijst met ondersteunde talen hieronder voor beschikbare taalcodes. De automatische taaldetectie kiest de eerste gedetecteerde taal en gaat verder met de geselecteerde taal voor het hele bestand als deze niet is ingesteld of ingesteld op null. De functie voor automatische taaldetectie ondersteunt momenteel: Engels, Chinees, Frans, Duits, Italiaans, Japans, Spaans, Russisch en Braziliaans-Portugees. Het biedt geen ondersteuning voor dynamisch schakelen tussen talen nadat de eerste taal is gedetecteerd. De functie voor automatische taaldetectie werkt het beste met audio-opnamen met duidelijk waarneembare spraak. Als automatische taaldetectie de taal niet kan vinden, valt de transcriptie terug naar het Engels.
AudioAnalyzerPreset	De basismodus van audio analyseren	Met deze vooraf ingestelde modus wordt spraak-naar-teksttranscriptie uitgevoerd en wordt een VTT-ondertitelings-/onderschrift-bestand gegenereerd. De uitvoer van deze modus bevat een Insights JSON-bestand met alleen de trefwoorden, transcriptie en tijdsinformatie. Automatische taaldetectie en sprekerdiarisatie zijn niet inbegrepen in deze modus. De lijst met ondersteunde talen is identiek aan de standaardmodus hierboven.
VideoAnalyzerPreset	Audio en video analyseren	Extraheert inzichten (uitgebreide metagegevens) uit zowel audio als video en voert een JSON-bestand uit. U kunt opgeven of u alleen audio-inzichten wilt extraheren bij het verwerken van een videobestand.
FaceDetectorPreset	Gezichten detecteren die aanwezig zijn in video	Beschrijft de instellingen die moeten worden gebruikt bij het analyseren van een video om alle aanwezige gezichten te detecteren.

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Ondersteunde talen

Arabisch ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' en 'ar-SY')
Braziliaans Portugees ('pt-BR')
Chinees ('zh-CN')
Deens('da-DK')
Engels ('en-US', 'en-GB' en 'en-AU')
Fins (fi-FI)
Frans ('fr-FR' en 'fr-CA')
Duits ('de-DE')
Hebreeuws (he-IL)
Hindi ('hi-IN'), Koreaans ('ko-KR')
Italiaans ('it-IT')
Japans ('ja-JP')
Noors ('nb-NO')
Perzisch ('fa-IR')
Portugal Portugees ('pt-PT')
Russisch ('ru-RU')
Spaans ('es-ES' en 'es-MX')
Zweeds (sv-SE)
Thais ('th-TH')
Turks ('tr-TR')

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Standaardmodus AudioAnalyzerPreset

Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.

De uitvoer bevat een JSON-bestand (met alle inzichten) en een VTT-bestand voor de audiotranscriptie. Deze voorinstelling accepteert een eigenschap die de taal van het invoerbestand aangeeft in de vorm van een BCP47-tekenreeks . De audio-inzichten zijn onder andere:

Audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Meerdere talen worden ondersteund.
Trefwoorden: trefwoorden die worden geëxtraheerd uit de audiotranscriptie.

Basismodus AudioAnalyzerPreset

Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.

De uitvoer bevat een JSON-bestand en VTT-bestand voor de audiotranscriptie. Deze voorinstelling accepteert een eigenschap die de taal van het invoerbestand aangeeft in de vorm van een BCP47-tekenreeks . De uitvoer omvat:

Audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Meerdere talen worden ondersteund, maar automatische taaldetectie en sprekerdiarisatie zijn niet inbegrepen.
Trefwoorden: trefwoorden die worden geëxtraheerd uit de audiotranscriptie.

VideoAnalyzerPreset

Met de voorinstelling kunt u meerdere audio- en video-inzichten uit een videobestand extraheren. De uitvoer bevat een JSON-bestand (met alle inzichten), een VTT-bestand voor de videotranscriptie en een verzameling miniaturen. Deze voorinstelling accepteert ook een BCP47-tekenreeks (die de taal van de video vertegenwoordigt) als eigenschap. De video-inzichten omvatten alle hierboven genoemde audio-inzichten en de volgende extra items:

Gezichtstracering: de tijd waarin gezichten aanwezig zijn in de video. Elk gezicht heeft een gezichts-id en een bijbehorende verzameling miniaturen.
Visuele tekst: de tekst die wordt gedetecteerd via optische tekenherkenning. De tekst heeft een tijdstempel en wordt ook gebruikt om trefwoorden te extraheren (naast de audiotranscriptie).
Keyframes: een verzameling sleutelframes die zijn geëxtraheerd uit de video.
Beheer van visuele inhoud: het gedeelte van de video's dat is gemarkeerd als volwassen of ongepast van aard.
Aantekening: een resultaat van het maken van aantekeningen bij de video's op basis van een vooraf gedefinieerd objectmodel

insights.json elementen

De uitvoer bevat een JSON-bestand (insights.json) met alle inzichten in de video of audio. De JSON kan de volgende elementen bevatten:

Afschrift

Naam	Beschrijving
id	De regel-id.
tekst	De transcriptie zelf.
language	De transcripttaal. Bedoeld ter ondersteuning van transcriptie waarbij elke regel een andere taal kan hebben.
Exemplaren	Een lijst met tijdsbereiken waar deze regel werd weergegeven. Als het exemplaar transcript is, heeft het slechts één exemplaar.

Voorbeeld:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Naam	Beschrijving
id	De OCR-regel-id.
tekst	De OCR-tekst.
betrouwbaarheid	Het herkenningsvertrouwen.
language	De OCR-taal.
Exemplaren	Een lijst met tijdsbereiken waarin deze OCR werd weergegeven (dezelfde OCR kan meerdere keren worden weergegeven).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Gezichten

Naam	Beschrijving
id	De gezichts-id.
naam	De naam van het gezicht. Dit kan 'Onbekend #0' zijn, een geïdentificeerde beroemdheid of een door de klant getrainde persoon.
betrouwbaarheid	Het vertrouwen van gezichtsidentificatie.
beschrijving	Een beschrijving van de beroemdheid.
thumbnailId	De id van de miniatuur van dat gezicht.
knownPersonId	De interne id (als het een bekende persoon is).
referenceId	De Bing-id (als het een Bing-beroemdheid is).
referenceType	Momenteel alleen Bing.
title	De titel (als het een beroemdheid is, bijvoorbeeld 'Ceo van Microsoft').
imageUrl	De URL van de afbeelding, als het een beroemdheid is.
Exemplaren	Gevallen waarin het gezicht in het opgegeven tijdsbereik werd weergegeven. Elk exemplaar heeft ook een thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Shots

Naam	Beschrijving
id	De schot-id.
Hoofdframes	Een lijst met sleutelframes in de opname (elk heeft een id en een lijst met tijdsbereiken voor instanties). Exemplaren van sleutelframes hebben een thumbnailId-veld met de miniatuur-id van het keyFrame.
Exemplaren	Een lijst met tijdsbereiken van deze opname (opnamen hebben slechts één exemplaar).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistieken

Naam	Beschrijving
CorrespondenceCount	Aantal correspondenties in de video.
WordCount	Het aantal woorden per spreker.
SpeakerNumberOfFragments	De hoeveelheid fragmenten die de spreker in een video heeft.
SpeakerLongestMonolog	De langste monolog van de luidspreker. Als de luidspreker stiltes in de monolog heeft, wordt deze opgenomen. Stilte aan het begin en het einde van de monolog wordt verwijderd.
SpeakerTalkToListenRatio	De berekening is gebaseerd op de tijd die is besteed aan het monolog van de spreker (zonder de stilte ertussenin) gedeeld door de totale tijd van de video. De tijd wordt afgerond op het derde decimaalteken.

labels

Naam	Beschrijving
id	De label-id.
naam	De labelnaam (bijvoorbeeld 'Computer', 'TV').
language	De labelnaamtaal (indien vertaald). BCP-47
Exemplaren	Een lijst met tijdsbereiken waarin dit label wordt weergegeven (een label kan meerdere keren worden weergegeven). Elk exemplaar heeft een betrouwbaarheidsveld.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

trefwoorden

Naam	Beschrijving
id	De trefwoord-id.
tekst	De trefwoordtekst.
betrouwbaarheid	De betrouwbaarheid van de herkenning van het trefwoord.
language	De trefwoordtaal (wanneer vertaald).
Exemplaren	Een lijst met tijdsbereiken waarin dit trefwoord wordt weergegeven (een trefwoord kan meerdere keren worden weergegeven).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Het blok visualContentModeration bevat tijdsbereiken waarvan Video Indexer heeft vastgesteld dat deze inhoud voor volwassenen bevat. Als visualContentModeration leeg is, is er geen inhoud voor volwassenen geïdentificeerd.

Video's die inhoud voor volwassenen of ongepaste inhoud bevatten, zijn mogelijk alleen beschikbaar voor privéweergave. Gebruikers kunnen een aanvraag indienen voor een menselijke beoordeling van de inhoud. In dat geval bevat het IsAdult kenmerk het resultaat van de menselijke beoordeling.

Naam	Beschrijving
id	De beheer-id voor visuele inhoud.
adultScore	De score voor volwassenen (van content moderator).
racyScore	De ongepaste score (van inhoudsbeheer).
Exemplaren	Een lijst met tijdsbereiken waarin dit beheer van visuele inhoud werd weergegeven.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Help en ondersteuning

U kunt contact opnemen met Media Services als u vragen hebt of onze updates op een van de volgende manieren volgen:

Q & A
Stack Overflow. Tag vragen met azure-media-services.
@MSFTAzureMedia of gebruik @AzureSupport om ondersteuning aan te vragen.
Open een ondersteuningsticket via de Azure Portal.

Video- en audiobestanden analyseren met Azure Media Services

Naleving, privacy en beveiliging

Ingebouwde voorinstellingen

Ondersteunde talen

Standaardmodus AudioAnalyzerPreset

Basismodus AudioAnalyzerPreset

VideoAnalyzerPreset

insights.json elementen

Afschrift

Ocr

Gezichten

Shots

statistieken

labels

trefwoorden

visualContentModeration

Help en ondersteuning

Aanvullende resources