Azure AI 视频索引器见解

2025-06-09

为视频编制索引后，Azure AI 视频索引器通过运行 30 多个 AI 模型来分析视频和音频内容。它生成 JSON，其中包含视频见解，包括脚本、光学字符识别元素（OCR）、人脸、主题、情感等。每种见解类型都包括显示视频中该见解出现时的时间范围实例。

按照见解表中的链接了解如何在 Web 门户中使用 API 获取每个见解 JSON 响应。

见解

见解	说明
人脸检测	人脸检测可在媒体文件中查找人脸，并对类似的人脸进行分组。系统生成一个 JSON 文件，其中包括按类别划分的人脸检测见解列表。每个条目都包含一个缩略图和人脸的名称或ID。在 Web 门户中，选择人脸缩略图时，可以看到人员姓名（如果已识别）等详细信息、显示该人的视频的百分比，以及该人的传记（如果他们是名人）。可以滚动浏览视频中人物出现的片段。
标签标识	标签识别是一项 Azure AI 视频索引器功能，用于在媒体文件的视频片段中识别视觉对象，如太阳镜或动作（如游泳）。此功能包括许多标签类别。提取后，可在“见解”选项卡中看到标签实例，并且可以将其翻译为 50 多种语言。选择标签以打开媒体文件中的实例。选择播放上一个或播放下一个以查看更多实例。
对象检测	Azure AI 视频索引器可检测汽车、手提包、背包和笔记本电脑等视频中的对象。
观测到的人员检测	观测到的人员检测和匹配的人脸会自动检测和匹配媒体文件中的人员。观察到的人员检测和匹配的人脸可以设置为显示关于人员、他们的服装和出现的确切时间范围的见解。
光学字符识别	光学字符识别（OCR）从图像中提取文本，如图片、街道标志和媒体文件中的产品，以创建见解。
后期制作：场记板检测	场记板检测查找在拍摄过程中使用的场记板，并提供场记板上的信息作为元数据，如制作、卷、场景和拍摄。 Clapper 开发板是上传和编制文件索引时在 Web 门户高级设置中选择的生产后见解的一部分。
后期制作：数字模式	数字模式检测查找拍摄过程中使用的色条。数字模式是上传和编制文件索引时在 Web 门户高级设置中选择的生产后见解的一部分。
场景、镜头和关键帧	场景检测通过视觉提示在视频中发现场景变化。一个场景展示单个事件，并包含一系列相关镜头。镜头是一系列因视觉提示而有所不同的帧，例如相邻帧配色方案的突然或逐渐变化。镜头元数据包括拍摄中的开始时间、结束时间和关键帧列表。关键帧是拍摄中最能表示拍摄效果的帧。

音频见解

见解	说明
音频效果检测	音频效果检测可检测声学事件，并将其分类为笑声、人群反应、警报或警笛等类别。
关键字提取	关键字提取在媒体文件中查找重要的关键字，并提供单语言和多语言媒体文件中的见解。
命名实体	命名实体提取使用自然语言处理（NLP）在媒体文件中查找音频和图像中的位置、人员和品牌。命名实体提取使用听录和光学字符识别（OCR）。
基于文本的情感检测	情感检测在视频的脚本行中查找情感。如果找不到其他情绪，则每句话都被视为愤怒、恐惧、快乐、悲伤或无一句。
主题推理	主题推理从已转录的音频、视觉文本中的 OCR 内容以及视频索引器面部识别模型识别出的名人中创建推断所得的见解。
听录、翻译和语言识别	听录、翻译和语言识别功能检测、转录和翻译媒体文件中的语音，并将其翻译为 50 多种语言。

Azure AI 视频索引器文档