Azure AI 视频索引器概述

重要

由于Azure 媒体服务停用公告,Azure AI 视频索引器会宣布 Azure AI 视频索引器功能调整。 请参阅 与 Azure 媒体服务(AMS)停用 相关的更改,了解 Azure AI 视频索引器帐户的含义。 请参阅 AMS 停用准备:VI 更新和迁移指南

Azure AI 视频索引器是一个云应用程序,它是 Azure AI 服务的一部分,基于 Azure AI 服务(例如人脸、翻译、Azure AI 视觉和语音)。 有了 Azure 视频索引器,就可以使用 Azure AI 视频索引器视频和音频模型从视频中提取见解。

Azure AI 视频索引器通过运行 30 多个 AI 模型来分析视频和音频内容,从而生成丰富的见解。 下面是 Azure AI 视频索引器在后台执行的音频和视频分析的图示:

Diagram of Azure AI Video Indexer flow.

若要开始使用 Azure AI 视频索引器提取见解,请参阅如何开始部分。

我可以使用 Azure AI 视频索引器执行哪些操作?

Azure AI 视频索引器的见解可应用于许多方案:

 • 深度搜索:使用从视频中提取的见解可增强整个视频库的搜索体验。 例如,对所说内容和人脸进行索引,可以实现在视频中查找特定瞬间的搜索体验,例如,查找视频中某个人说出某些话时刻,或者看到两个人出现在一起的时刻。 根据视频中的此类见解进行的搜索,适用于新闻机构、教育机构、广播公司、娱乐内容所有者、企业 LOB 应用。一般来说,它适用于拥有视频库、用户需要对照搜索的任何行业。
 • 内容创建:根据 Azure AI 视频索引器从你的内容中提取的见解,创建预告片、亮点片段、社交媒体内容或新闻剪辑。 人物和标签外观的关键帧、场景标记和时间戳使创建过程更顺畅、更简单,让你能够在创建内容时轻松访问所需的视频部分。
 • 辅助功能:无论你是想将内容提供给残障人士使用,还是要使用不同的语言将内容分发到不同地区,你都可以使用 Azure AI 视频索引器提供多种语言的转录和翻译。
 • 盈利:Azure AI 视频索引器有助于提高视频的价值。 例如,依赖于广告收入(新闻媒体、社交媒体等)的行业,可以将提取的见解用作附加信号,向广告服务器投放相关广告。
 • 内容审核:使用文本和视觉内容审核模型可保护用户远离不当内容,并验证发布的内容是否与组织的价值观相符。 你可以自动阻止某些视频,或向用户发出有关这些内容的警报。
 • 建议:视频见解可以通过向用户重点显示相关视频瞬间来提高用户的参与度。 通过使用其他元数据标记每个视频,可以为用户推荐最相关的视频,并重点显示符合用户需求的视频的部分内容。

视频/音频 AI 功能

以下列表显示了可使用 Azure AI 视频索引器视频和音频 AI 功能(模型)从视频/音频文件中检索的见解。

模型已正式发布(除非另有说明)。

视频模型

 • 人脸检测:检测和分组视频中显示的人脸。

 • 名人识别:识别超过 100 万名人,如世界各国/地区领导人、演员、艺术家、运动员、研究人员、商业和科技领袖。 有关这些名人的数据也可以在各种网站(IMDB、维基百科等)上找到。

 • 基于帐户的人脸识别:为特定帐户训练模型。 然后,根据已训练的模型识别视频中的人脸。 有关详细信息,请参阅通过 Azure AI 视频索引器网站定制人员模型使用 Azure AI 视频索引器 API 定制人员模型

 • 人脸缩略图提取:在每组人脸中识别捕获的最佳人脸(基于质量、大小和正面位置),并将其提取为图像资产。

 • 光学字符识别 (OCR):从媒体文件中的图片、街道标志和产品等图像中提取文本以创建见解。

 • 视觉内容审核:检测成人和/或挑逗性视觉对象。

 • 标签识别:识别显示的视觉对象和动作。

 • 场景分割:根据视觉提示确定视频中的场景何时发生了变化。一个场景描绘的是一个单一事件,由一系列在语义上相关的连续镜头组成。

 • 镜头检测:根据视觉提示确定视频中的镜头何时发生了变化。镜头是指从同一台运动摄像机拍摄的一系列画面。 有关详细信息,请参阅场景、镜头和关键帧

 • 黑帧检测:识别视频中的黑帧。

 • 关键帧提取:检测视频中稳定的关键帧。

 • 滚动字幕:识别电视节目和电影末尾的滚动字幕的开头和结尾。

 • 编辑镜头类型检测:根据镜头类型(如广角镜头、中景镜头、特写、极特写、双人镜头、多人、室外和室内等)进行标记。 有关详细信息,请参阅编辑镜头类型检测

 • 跟踪观测到的人员(预览版):检测视频中观测到的人员,并提供视频帧中人员的位置(使用边界框)以及人员出现时确切的时间戳(开始时间、结束时间)和置信度等信息。 有关详细信息,请参阅跟踪视频中观测到的人员

  • 检测到的人员服装(预览版):检测视频中出现的人的服装类型,并提供长袖或短袖、长裤或短裤、半身裙或连衣裙等信息。 检测到的服装与其穿着者相关联,并且提供检测的确切时间戳(开始、结束)及置信度。 有关详细信息,请参阅检测到的服装
  • 特色服装(预览版):捕获视频中出现的特色服装图像。 可以使用特色服装见解改进定向广告。 若要了解特色服装图像如何排序以及如何获取见解,请参阅特色服装
 • 匹配的人员(预览版):将视频中观测到的人员与检测到的相应面孔进行匹配。 被观察人员与面孔之间的匹配包含置信度。

 • 在使用高级索引选项为视频编制索引时,静态图像检测(预览版)会识别以下影片后期制作见解:

  • 使用元数据提取进行 Clapperboard 检测。
  • 数字模式检测,包括色条。
  • 无文本静态图像检测,包括场景匹配。

  有关详细信息,请参阅静态图像检测

 • 文本徽标检测(预览版):使用 Azure AI 视频索引器 OCR 匹配特定的预定义文本。 例如,如果用户创建了一个文本徽标:“Microsoft”,则单词 Microsoft 的不同外观将被检测为“Microsoft”徽标。 有关详细信息,请参阅检测文本徽标

音频模型

 • 音频听录:将语音转换为超过 50 种语言的文本并允许扩展。 有关详细信息,请参阅 Azure AI 视频索引器语言支持

 • 自动语言检测:识别主要讲述语言。 有关详细信息,请参阅 Azure AI 视频索引器语言支持。 如果无法准确识别语言,Azure AI 视频索引器会假定所讲语言为英语。 有关详细信息,请参阅语言识别模型

 • 多语言语音识别和听录:识别音频中不同片段的口述语言。 它会发送要转录的媒体文件的每个片段,然后将转录合并成一个完成的转录。 有关详细信息,请参阅自动识别和转录多语言内容

 • 隐藏式字幕:以三种格式创建隐藏式字幕:VTT、TTML、SRT。

 • 双通道处理:自动检测单独的脚本并合并到单个时间轴。

 • 噪声消减:清理电话音频或有噪音的录制内容(基于 Skype 滤波器)。

 • 脚本自定义 (CRIS):训练自定义语音转文本模型,以创建行业特定的脚本。 有关详细信息,请参阅通过 Azure AI 视频索引器网站定制语言模型使用 Azure AI 视频索引器 API 定制语言模型

 • 说话人枚举:映射和了解哪个说话人在何时说了哪些话。 可在一个音频文件中检测出 16 位说话人。

 • 说话人统计信息:提供说话人发言比率的统计数据。

 • 文本内容审核:检测音频脚本中的显式文本。

 • 基于文本的情绪检测:通过脚本分析检测到的喜悦、悲伤、愤怒和恐惧等情绪。

 • 翻译:将音频脚本翻译成许多种不同的语言。 有关详细信息,请参阅 Azure AI 视频索引器语言支持

 • 音频效果检测(预览版):检测内容的非语音部分中的以下音频效果:警报或警笛声、犬吠、人群反应(欢呼、拍手和起哄)、枪声或爆炸声、笑声、玻璃破裂以及无声。

  检测到的声学事件包含在隐藏式字幕文件中。 可以从 Azure AI 视频索引器网站下载该文件。 有关详细信息,请参阅音频效果检测

  注意

  仅当上传文件时在上传预设中选择“高级音频分析”时,才可使用这一整套事件。 默认情况下,仅检测到无声。

音频和视频模型(多通道)

通过一个通道编制索引时,这些模型的部分结果可用。

 • 关键字提取:从语音和视觉文本中提取关键字。
 • 命名实体提取:通过自然语言处理 (NLP) 从语音和视觉文本中提取品牌、位置和人员。
 • 主题推理:根据各种关键字提取主题(即,关键字“证券交易所”、“华尔街”会生成主题“经济”)。 该模型使用三种不同的本体(IPTCWikipedia 和视频索引器分层主题本体)。 该模型使用听录(口语)、OCR 内容(视觉文本),以及使用视频索引器面部识别模型在视频中识别的名人。
 • 项目:提取每个模型的丰富的“下一种详细程度”项目。
 • 情绪分析:在语音和视觉文本中识别积极、消极和中性情绪。

如何开始使用 Azure AI 视频索引器?

了解如何开始使用 Azure AI 视频索引器

设置后,开始使用见解并查看其他操作指南。

合规性、隐私和安全性

注意

2020 年 6 月 11 日,Microsoft 宣布在以人权为基础的强有力的法规颁布之前,将不向美国的警察局出售人脸识别技术。 因此,如果客户是美国警察部门,或客户允许美国警察部门使用 Azure AI 服务,或客户为美国警察部门使用此类服务,则这些客户不得使用此类服务中包含的人脸识别特性或功能(例如人脸或视频索引器)。

注意

为了支持我们的负责任 AI 原则,基于资格和使用标准对人脸识别、自定义和名人识别功能的访问进行限制。 人脸识别、自定义和名人识别功能仅适用于 Microsoft 托管客户和合作伙伴。 使用人脸识别引入表单来申请访问。

需要重点提醒的是,在使用 Azure AI 视频索引器时,必须遵守所有适用法律,不得以侵犯他人权利或可能对他人有害的方式使用 Azure AI 视频索引器或任何 Azure 服务。

在将任何视频/图像上传到 Azure AI 视频索引器之前,必须拥有该视频/图像的适当使用权限,包括根据法律要求,获得视频/图像中的个人(如果有)授予的,在 Azure AI 视频索引器和 Azure 中使用、处理和存储其数据的所有必要许可。 某些司法辖区可能会对收集、在线处理和存储某些类别的数据(例如生物识别数据)施加特殊的法律要求。 在根据特殊法律要求使用 Azure AI 视频索引器和 Azure 处理与存储任何数据之前,必须确保符合可能适用于你的任何法律要求。

如需了解 Azure AI 视频索引器中的合规性、隐私性和安全性,请访问 Microsoft 信任中心。 若要了解 Microsoft 的隐私义务、数据处理和保留惯例,包括如何删除数据,请查看 Microsoft 的隐私声明联机服务条款 ("OST") 和数据处理附录 ("DPA")。 使用 Azure AI 视频索引器,即表示你同意遵守 OST、DPA 和隐私声明。

后续步骤

你已做好使用 Azure AI 视频索引器的准备。 有关详细信息,请参阅以下文章:

有关最新更新,请参阅 Azure AI 视频索引器发行说明