Dela via


Azure AI Video Indexer-insikter

När en video indexeras analyserar Azure AI Video Indexer video- och ljudinnehållet genom att köra över 30 AI-modeller, vilket genererar JSON som innehåller videoinsikter, inklusive transkriptioner, optiska teckenigenkänningselement (OCR), ansikte, ämnen, känslor osv. Varje insiktstyp innehåller instanser av tidsintervall som visar när insikten visas i videon.

Använd länkarna i insiktstabellen för att lära dig hur du hämtar varje JSON-svar för insikter i webbportalen och använder API:et.

Insikter

Insikt beskrivning
Ansiktsigenkänning Ansiktsigenkänning identifierar ansikten i en mediefil och aggregerar sedan instanser av liknande ansikten i grupper. Insikter om ansiktsigenkänning genereras som en kategoriserad lista i en JSON-fil som innehåller en miniatyrbild och antingen ett namn eller ett ID för varje ansikte. I webbportalen visar valet av miniatyrbild för ett ansikte information som namnet på personen (om de kändes igen), procentandelen av videon som personen visas och personens biografi, om de är en kändis. Du kan också rulla mellan instanser i videon där personen visas.
Identifiering av etiketter Etikettidentifiering är en AI-funktion i Azure AI Video Indexer som identifierar visuella objekt som solglasögon eller åtgärder som simning, som visas i videofilmerna i en mediefil. Det finns många kategorier för etiketteridentifiering och när de har extraherats visas instanser av etiketter på fliken Insikter och kan översättas till över 50 språk. Om du klickar på en etikett öppnas instansen i mediefilen, väljer du Spela upp föregående eller Spela upp nästa för att se fler instanser.
Objektidentifiering Azure AI Video Indexer identifierar objekt i videor som bilar, handväskor och ryggsäckar och bärbara datorer.
Identifiering av observerade personer Observerad personidentifiering och matchade ansikten identifierar och matchar automatiskt personer i mediefiler. Observerad personidentifiering och matchade ansikten kan ställas in för att visa insikter om människor, deras kläder och den exakta tidsramen för deras utseende.)
OCR OCR extraherar text från bilder som bilder, gatuskyltar och produkter i mediefiler för att skapa insikter.
Efter produktion: klappkortsidentifiering Clapper board detection detects clapper boards used during filming that also provides the information detected on the clapper board as metadata, for example, production, roll, scene, take, etc. Clapper board is part of the post-production insights that you can select in the web portal advanced settings when you upload and index the file( Clapper board is part of the post-production insights that you can select in the web portal advanced settings when you upload and index the file.
Efter produktion: digitala mönster Identifiering av digitala mönster identifierar färgstaplar som används under inspelningen. Digitala mönster är en del av de insikter efter produktion som du kan välja i webbportalens avancerade inställningar när du laddar upp och indexar filen.
Scener, bilder och nyckelrutor Scenidentifiering identifierar när en scen ändras i en video baserat på visuella tips. En scen visar en enda händelse och består av en serie bilder, som är relaterade.Bilder är en serie bildrutor som utmärks av visuella signaler, till exempel plötsliga och gradvisa övergångar i färgschemat för intilliggande bildrutor. Bildens metadata innehåller start- och sluttid samt en lista över nyckelramar som ingår i bilden. En nyckelbildruta är en ram från ett skott som bäst representerar ett skott.

Ljudinsikter

Insikt beskrivning
Identifiering av ljudeffekter Identifiering av ljudeffekter identifierar akustiska händelser och klassificerar dem i kategorier som skratt, publikreaktioner, larm och/eller sirener.
Extrahering av nyckelord Extrahering av nyckelord identifierar insikter om de olika nyckelord som beskrivs i mediefiler. Den extraherar insikter i mediefiler med både ett språk och flera språk.
Namngivna entiteter Extrahering av namngivna entiteter använder NLP (Natural Language Processing) för att extrahera insikter om platser, personer och varumärken som visas i ljud och bilder i mediefiler. Den namngivna entiteternas extraheringsinsikt använder transkription och optisk teckenigenkänning (OCR).
Textbaserad känsloidentifiering Känsloidentifiering identifierar känslor i videons transkriptionslinjer. Varje mening kan antingen identifieras som Anger, Fear, Joy, Sad, None om ingen annan känsla upptäcktes.
Slutsatsdragning av ämnen Avsnittsinferens skapar härledda insikter som härleds från transkriberat ljud, OCR-innehåll i visuell text och kändisar som identifieras i videon med hjälp av Ansiktsigenkänningsmodellen för Video Indexer.
Transkription, översättning och språkidentifiering Transkription, översättning och språkidentifiering identifierar, transkriberar och översätter talet i mediefiler till över 50 språk.