Inzichten in Azure AI Video Indexer
Wanneer een video wordt geïndexeerd, analyseert Azure AI Video Indexer de video- en audio-inhoud door 30+ AI-modellen uit te voeren, JSON te genereren die de video-inzichten bevat, waaronder transcripties, optische tekenherkenningselementen (OCR's), gezicht, onderwerpen, emoties, enzovoort. Elk inzichttype bevat exemplaren van tijdsbereiken die worden weergegeven wanneer het inzicht wordt weergegeven in de video.
Gebruik de koppelingen in de inzichtentabel voor meer informatie over het verkrijgen van elk JSON-antwoord voor inzichten in de webportal en het gebruik van de API.
Inzichten
Inzicht | Beschrijving |
---|---|
Gezichtsdetectie | Gezichtsdetectie detecteert gezichten in een mediabestand en voegt vervolgens exemplaren van vergelijkbare gezichten samen in groepen. Inzichten voor gezichtsdetectie worden gegenereerd als een gecategoriseerde lijst in een JSON-bestand met een miniatuur en een naam of een id voor elk gezicht. Als u in de webportal een miniatuur van een gezicht selecteert, worden gegevens weergegeven zoals de naam van de persoon (als ze zijn herkend), het percentage van de video dat de persoon verschijnt en de biografie van de persoon, als ze een beroemdheid zijn. U kunt ook schuiven tussen exemplaren in de video waarin de persoon wordt weergegeven. |
Identificatie van labels | Labels identificeren is een Ai-functie van Azure AI Video Indexer waarmee visuele objecten worden geïdentificeerd, zoals zonnebrillen of acties zoals zwemmen, die worden weergegeven in de videobeelden van een mediabestand. Er zijn veel labelsidentificatiecategorieën en zodra ze zijn geëxtraheerd, worden labels-identificatie-exemplaren weergegeven op het tabblad Inzichten en kunnen ze worden omgezet in meer dan 50 talen. Als u op een label klikt, wordt het exemplaar in het mediabestand geopend, selecteert u Vorige afspelen of Volgende afspelen om meer exemplaren weer te geven. |
Objectdetectie | Azure AI Video Indexer detecteert objecten in video's zoals auto's, handtassen en rugzakken en laptops. |
Detectie van waargenomen personen | Waargenomen personendetectie en overeenkomende gezichten detecteren en matchen automatisch personen in mediabestanden. Waargenomen mensendetectie en overeenkomende gezichten kunnen worden ingesteld om inzichten weer te geven over mensen, hun kleding en het exacte tijdsbestek van hun uiterlijk.) |
OCR | OCR extraheert tekst uit afbeeldingen, zoals afbeeldingen, straatborden en producten in mediabestanden om inzichten te creëren. |
Postproductie: clapper board detectie | Clapperborddetectie detecteert clapperborden die tijdens het filmen worden gebruikt en die ook de informatie die op het clapperbord is gedetecteerd als metagegevens, bijvoorbeeld productie, rol, scène, take, etc. Clapper-bord maakt deel uit van de inzichten na productie die u kunt selecteren in de geavanceerde instellingen van de webportal wanneer u het bestand uploadt en indexeert. |
Postproductie: digitale patronen | Met detectie van digitale patronen worden kleurbalken gedetecteerd die tijdens het filmen worden gebruikt. Digitale patronen maken deel uit van de inzichten na productie die u kunt selecteren in de geavanceerde instellingen van de webportal wanneer u het bestand uploadt en indexeert. |
Scènes, shots en keyframes | Scènedetectie detecteert wanneer een scène in een video verandert op basis van visuele aanwijzingen. Een scène toont één gebeurtenis en bestaat uit een reeks opnamen die gerelateerd zijn.Shots zijn een reeks frames die worden onderscheiden door visuele aanwijzingen, zoals abrupte en geleidelijke overgangen in het kleurenschema van aangrenzende frames. De metagegevens van de shot bevatten de begin- en eindtijd, evenals een lijst met sleutelframes die zijn opgenomen in de opname. Een sleutelframe is een frame van een opname die het beste een opname vertegenwoordigt. |
Audio-inzichten
Inzicht | Beschrijving |
---|---|
Detectie van audio-effecten | De detectie van audio-effecten detecteert akoestische gebeurtenissen en classificeert ze in categorieën zoals lachen, reacties op het publiek, alarmen en/of sirens. |
Trefwoordextractie | Trefwoordextractie detecteert inzichten over de verschillende trefwoorden die in mediabestanden worden besproken. Het extraheert inzichten in mediabestanden met één taal en meerdere talen. |
Benoemde entiteiten | Extractie van benoemde entiteiten maakt gebruik van NLP (Natural Language Processing) om inzichten op de locaties, personen en merken te extraheren die worden weergegeven in audio- en afbeeldingen in mediabestanden. Het inzicht voor extractie van benoemde entiteiten maakt gebruik van transcriptie en optische tekenherkenning (OCR). |
Op tekst gebaseerde emotiedetectie | Detectie van emoties detecteert emoties in transcriptlijnen van de video. Elke zin kan worden gedetecteerd als Woede, Angst, Vreugde, Verdriet, Geen als er geen andere emotie is gedetecteerd. |
Onderwerpendeductie | Onderwerpendeductie maakt afgeleide inzichten die zijn afgeleid van de getranscribeerde audio, OCR-inhoud in visuele tekst en beroemdheden die in de video worden herkend met behulp van het Video Indexer-model voor gezichtsherkenning. |
Transcriptie, vertaling en taalidentificatie | Transcriptie, vertaling en taalidentificatie detecteert, transcribeert en vertaalt de spraak in mediabestanden in meer dan 50 talen. |