Microsoft公司、外部和法律事务评审版本的透明度说明

重要

此页面将生成透明度说明,因为它将显示在Microsoft公司、外部和法律事务页上。 未包含在 TOC 中。

AI 系统不仅包括技术,还包括使用它的人、受其影响的人以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。

什么是透明度?

Microsoft的透明度说明旨在帮助你了解:

  • AI 技术的工作原理
  • 系统所有者可以做出影响系统性能和行为的选择
  • 思考整个系统的重要性,包括技术、人员和环境

开发或部署自己的系统时,可以使用透明度说明,或者与使用或受系统影响的人员共享它们。  

Microsoft的透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。

若要了解详细信息,请参阅 Microsoft AI 原则

Azure AI 视频索引器简介

Azure AI 视频索引器(VI)是一种基于云的工具,可处理和分析上传的视频和音频文件,以生成不同类型的见解。 这些见解包括检测到的对象、人员、人脸、关键帧,以及至少 60 种语言的翻译或转录。 见解及其时间框架显示在 Azure AI 视频索引器网站上的分类列表中,通过按“播放”按钮可以看到每个见解。

处理文件时,Azure AI 视频索引器采用Microsoft AI 算法组合来分析、分类和索引视频片段。 生成的见解随后会存档,并可以全面访问、共享和重复使用。 例如,新闻媒体可能会深入搜索与帝国大厦相关的见解,然后在不同的电影、预告片或宣传片中重复使用他们的发现。  

Azure AI 视频索引器的基础知识

Azure AI 视频索引器是一种基于云的 Azure AI 服务产品,与 Azure AI 服务集成。 该功能允许:

  • 上传视频和音频文件
  • 处理视频(包括对其运行 AI 模型)
  • 将已处理的文件和生成的数据保存到基于云的 Azure 媒体服务帐户

为了处理媒体文件,Azure AI 视频索引器采用 AI 技术。 它们包括光学字符识别(OCR)、自然语言处理(NLP)和具有语音音调分析的分层本体模型,以提取品牌、关键字、主题和基于文本的情感检测等见解。

Azure AI 视频索引器的功能包括搜索存档中的见解、提升内容可访问性、内容审查和内容编辑。

见解类别包括:

见解类别 说明
音频媒体 例如,听录、翻译、音频事件检测,如鼓掌和人群笑声、枪声和爆炸
视频媒体 例如,人脸、服装检测
带音频媒体的视频 例如,脚本中的命名实体和光学字符识别 (OCR),例如位置、人员或品牌的名称

有关详细信息,请参阅 Azure AI 视频索引器简介

关键术语和功能

术语 定义
基于文本的情感检测 通过脚本分析检测到的情绪,如喜悦、悲伤、愤怒和恐惧。
见解 派生自处理和分析视频和音频文件的信息和知识,这些文件可生成不同类型的见解,并可能包括检测到的对象、人员、人脸、关键帧和翻译或听录。 若要通过 API 查看和下载见解,请使用 Azure AI 视频索引器门户
对象检测 能够识别和查找图像或视频中的对象。 例如,桌子、椅子或窗口。
面部检测 在图像中查找人脸,并返回指示其位置的边界框。 人脸检测模型仅能标记整张脸的边界框,而无法找到识别个人身份的独特特征。 面部检测不涉及区分一个事实与另一个人脸、预测或分类面部属性或创建人脸模板。
面部识别 非托管图像中人脸的“一对多”匹配安全存储库中的一组人脸。 例如,建筑物中的一个无接触访问控制系统,用于替换或增加物理卡和徽章。 在此示例中,智能相机捕获一个人进入安全门的人脸,并尝试从一组获准访问大楼的个人人脸图像中查找匹配项。 此过程由 Azure AI 人脸服务实现,涉及创建人脸模板。
人脸模板 从图像或视频中生成的唯一数字集,表示人脸的独特特征。
观察到的人检测和匹配的人脸 自动检测和匹配媒体文件中人员的功能。 观察到的人脸检测和匹配的人脸可以设置为显示对人、衣服及其外观的确切时间框架的见解。
关键字提取 自动检测媒体文件中讨论的不同关键字的见解的过程。 关键字提取可以提取单种语言和多语言媒体文件中的见解。
深度搜索 通过搜索提取的见解中的特定术语,仅从视频库中检索相关的视频和音频文件的功能。
标签 视觉对象和操作的标识显示在框架中。 例如,标识对象(如狗)或运行等操作。
命名实体 使用自然语言处理(NLP)功能,提取媒体文件中音频和图像涉及的位置、人物和品牌信息。
自然语言处理 (NLP) 说和写人类语言的处理。
光学字符识别 (OCR) 从图片、街道标志和媒体文件中的产品等图像中提取文本,以创建见解。 有关详细信息,请参阅 OCR 技术
分层本体模型 主题区域或域中拥有共享属性和关系的一组概念或类别。
音频效果检测 检测各种声学事件并将其归类为声学类别的功能。 音频效果检测可以检测和分类不同的类别,如笑声、人群反应、警报和/或警笛。
听录、翻译和语言识别 自动检测、转录语音并将媒体文件中的语音翻译为 50 多种语言的功能。
主题推理 自动创建从转录的音频派生的推断见解、视觉文本中的 OCR 内容以及视频中识别的名人的功能。
扬声器分割 用于标识视频中的每个说话人的功能,并将每个转录行都转录为扬声器。 它可以在对话中识别说话人,并可用于多种场景。
自带模型 使用此功能可将 Azure AI 视频索引器生成的见解和项目发送到外部 AI 模型。
文本视频摘要 汇总了使用人工智能来汇总视频内容的功能。

Azure AI 视频索引器的组件

在 Azure AI 视频索引器过程中,使用 Azure API 处理媒体文件以提取不同类型的见解,如下所示:

组件 定义
视频上传程序 用户上传媒体文件以供 Azure AI 视频索引器处理。
见解生成 Azure 服务 API(例如 Azure AI 服务 OCR 和听录)提取见解。
运行内部 AI 模型以生成见解,例如检测到的音频事件、观察到的人、检测到的服装和主题。
见解处理 更多逻辑(例如置信度阈值筛选)应用于 Insights 生成的输出。 它创建最终的见解,这些见解随后显示在 Azure AI 视频索引器门户和可从门户下载的 JSON 文件中。
存储 已处理的媒体文件的输出保存在以下文件中:

• Azure 存储
• Azure 搜索,用户可以在其中使用特定见解(例如执行组件的名称、位置或品牌)搜索视频。

通知 用户收到索引过程已完成的通知。

Azure AI 视频索引器的受限访问功能

Azure AI 视频索引器(包括面部检测、面部识别、面部模板、观察人员检测和匹配人脸)的面部识别功能有限,仅适用于Microsoft托管客户和合作伙伴,并且仅适用于注册时选择的某些用例。 访问面部识别和名人识别功能需要注册。 面部检测不需要注册。 若要了解详细信息,请访问 Microsoft的受限访问策略

受限访问功能的已批准商业用例

面部识别以在媒体或娱乐视频存档中搜索人脸:在视频中查找人脸,并仅为媒体或娱乐用例生成元数据。

名人识别:仅针对辅助功能和/或媒体和娱乐用例检测和识别数字资产管理系统中的图像或视频中的名人。

受限访问功能的已批准的公共部门用例

公共媒体档案的保存和扩充面部识别:为了保留和丰富公共媒体的目的,识别公共媒体或娱乐视频档案中的个人。 公共媒体扩充的示例包括识别视频存档中的历史人物和生成描述性元数据。

面部识别 到:

  • 协助执法人员或法院官员起诉或辩护已经被捕的犯罪嫌疑人,具体范围由一个适当授权的政府当局在维持公平和独立的司法管辖的管辖范围内进行授权。
  • 协助适当授权的国际组织官员起诉滥用国际法、国际法或国际法。

面部识别 用于提供人道主义援助,或识别失踪者、死者或犯罪受害者。

尊重隐私

负责任且仔细地使用 Azure AI 视频索引器时,对于许多行业来说都是一个有价值的工具。 为了尊重他人的隐私和安全,我们建议以下几点:

  • 始终尊重个人的隐私权利,并且只出于合法和合理的目的引入视频。  
  • 不要故意披露不适当的媒体,显示年幼儿童或名人的家庭成员或其他内容可能有害或对个人的个人自由构成威胁。  
  • 致力于在分析媒体的设计和部署中尊重和促进人权。  
  • 使用第三方材料时,在分发派生自它们的内容之前,请注意任何现有的版权或所需权限。
  • 使用来自未知来源的媒体时,请始终寻求法律建议。
  • 始终获得适当的法律和专业建议,以确保上传的视频受到保护,并拥有足够的控制,以保持内容的完整性,并防止未经授权的访问。
  • 提供反馈通道,使用户和个人能够报告服务问题。  
  • 请注意有关处理、分析和共享包含人员的媒体的任何适用的法律或法规。
  • 使人处于循环中。 不要将任何解决方案用作人工监督和决策的替代方法。  
  • 全面检查和查看用于了解其功能和限制的任何 AI 模型的潜力。

有关详细信息,请参阅 Microsoft全球人权声明

Azure AI 视频索引器的示例用例

Azure AI 视频索引器可在各种行业的多个方案中使用,例如:

  • 通过深入搜索特定人员和/或字词,在新闻或媒体机构创建专题报道,以查找所说的内容、地点和时间。 面部识别功能是有限的访问。 有关详细信息,请访问 Microsoft的受限访问策略。  
  • 使用之前从视频中提取的精彩瞬间创建宣传片和预告片。 Azure AI 视频索引器可以通过添加关键帧、场景标记、时间戳和标记来帮助,以便内容编辑器花费更少的时间来查看大量文件。
  • 通过将音频翻译和转录为多种语言,并添加字幕,或通过 OCR 处理为视频内容创建口头描述,来提高对视觉障碍者的可访问性。
  • 通过使用 Azure AI 视频索引器的听录和翻译功能以多种语言提供内容,从而改善不同区域和语言中不同受众的内容分发
  • 增强有针对性的广告,新闻媒体或社交媒体等行业可以使用 Azure AI 视频索引器来提取见解,以增强定向广告的相关性。
  • 使用元数据、标记、关键字和嵌入式客户见解增强用户参与度,以便根据客户偏好筛选和定制媒体。  
  • 使用文本和视觉内容控件审查不适当的内容,例如禁用词汇,以将媒体标记为适合儿童或仅限成人。
  • 通过在智能城市系统或其他公共环境中(包括摄像头和麦克风)中对枪声、爆炸和玻璃碎片进行分类,准确快速检测暴力事件
  • 通过在联机说明中提取警告中的文本,然后翻译文本,从而增强对本地标准的符合性。 例如,有关使用设备的电子学习说明。
  • 通过应用 Azure AI 视频索引器的听录和翻译功能,以及使用 Azure AI 视频索引器以一种受支持的格式生成的隐藏式字幕,增强和改进手动隐藏式字幕和字幕生成
  • 使用语言识别(LID)或多语言标识(MLID)转录未知语言的视频,使 Azure AI 视频索引器能够自动识别视频中显示的语言并相应地生成听录。

用例注意事项

  • 避免将视频索引器用于可能具有严重不利影响的决策。 基于错误输出的决策可能会产生严重的负面影响。 此外,建议包括人工审查对可能对个人产生严重影响的决定。
  • 视频索引器基于文本的情感检测并非旨在评估员工绩效或个人情绪状态。
  • 自带模型
    • Azure AI 视频索引器不负责使用外部 AI 模型的方式。 你有责任确保外部 AI 模型符合负责任的人工智能标准。
    • Azure AI 视频索引器不负责使用“自带模型”功能时创建的自定义见解,因为它们不是由 Azure 视频索引器模型生成的。

视频索引器的特征和限制

Azure AI 视频索引器的预期用途是从录制的媒体和娱乐内容中生成见解。 提取的见解是在 JSON 文件中创建的,该文件列出了类别中的见解。 每个见解包含唯一元素的列表,每个元素都有自己的元数据及其实例列表。 例如,人脸可能具有 ID、名称、缩略图、其他元数据及其临时实例的列表。 某些见解的输出也可能显示置信度分数,以指示其准确性级别。

可以通过三种方式访问 JSON 文件:

  • Azure AI 视频索引器门户是一种易于使用的解决方案,可用于评估产品、管理帐户和自定义模型。  
  • API 集成,通过 REST API,可将解决方案集成到应用和基础结构中。  
  • 可嵌入的小组件,可让你将 Azure AI 视频索引器见解、播放器和编辑器体验嵌入到应用中,以自定义 Web 界面中显示的见解。 例如,可以自定义列表,以便仅显示有关视频中显示的人员的见解。 若要查找包含特定名人的视频,内容编辑器可以使用出现在人脸或人员见解类别中的名称来实现深度搜索。

视频

  • Azure AI 视频索引器上传的视频的存储限制为 30 GB 和 4 小时。
  • 始终上传高质量的视频和音频内容。 建议的最大帧大小为 HD,帧速率为每秒 30 帧(FPS)。 框架应包含不超过 10 人。 将帧从视频输出到 AI 模型时,每秒仅发送大约两到三帧。 处理 10 个或多个帧可能会延迟 AI 结果。 执行分析至少需要 1 分钟的自发对话语音。 音频效果仅在非peech 段中检测到。 非peech 节的最小持续时间为 2 秒。 不支持语音命令和唱歌。
  • 当高装载、下角或具有宽视野(FOV)的相机录制的人和人脸录制的人和人脸时,生成的见解的准确性可能会降低。
  • 通常,200 像素以下的小人物或对象和坐着的人可能无法检测到。 穿类似衣服或制服的人可能被检测为同一个人,并得到相同的 ID 号。 可能无法检测到受阻的人员或对象。 正面和后部姿势的人的轨迹可能会拆分为不同的实例。
  • 在匹配人员之前,必须先检测并出现在“人员”类别中。 跟踪经过优化,可处理经常出现在前台的观察人员。 重叠的人或人脸等障碍可能会导致匹配的人和观察到的人不匹配。 当不同的人在短时间内出现在帧中的同一相对空间位置时,可能会出现不匹配。
  • 连衣裙和裙子归类为连衣裙或裙子。 未检测到与人皮肤相同的服装颜色。 需要人员的完整视图。 若要优化检测,应将上半身和下半部分包含在帧中。
  • 避免对人类和计算机使用难以读取的签名的 OCR 结果。 使用 OCR 的更好方法是使用它来检测签名是否存在以进一步分析。
  • 命名实体仅检测音频和图像中的见解。 可能不会检测到品牌名称中的徽标。
  • 检测器可能会在“鸟眼”视图中的视频中错误分类对象,因为已使用对象的正面视图进行训练。

音频

  • 避免使用具有响亮背景音乐或重复和/或线性扫描频率的音频。 音效检测仅适用于非语音音频,因此无法对响亮音乐中的事件进行分类。 重复和/或线性扫描频率的音乐被错误地归类为警报或警笛。

文本摘要说明

重要

使用文本摘要时,请务必注意,系统不打算替换完整的查看体验。 尤其是对于细节和细微差别至关重要的内容。 它也不旨在汇总高度敏感或机密的视频,其中上下文和隐私至关重要。

  • 非英语语言:文本视频摘要主要针对英语进行了测试和优化。 但是,它与正在使用的特定 GenAI 模型支持的所有语言兼容,即 GPT3.5 Turbo 或 GPT4.0。 因此,当应用于非英语语言时,摘要的准确性和质量可能会有所不同。 为了缓解此限制,对非英语语言使用该功能的用户应格外小心,并验证生成的摘要的准确性和完整性。
  • 具有多种语言的视频:如果视频包含多种语言的语音,文本视频摘要可能难以准确识别视频内容中提供的所有语言。 在对多语言视频使用文本视频摘要功能时,用户应注意此潜在限制。
  • 高度专业化或技术视频:视频摘要 AI 模型通常训练各种视频,包括新闻、电影和其他常规内容。 如果视频高度专用或技术化,则模型可能无法准确提取视频摘要。
  • 音频质量差或无 OCR 的视频:文本视频摘要 AI 模型也依赖音频和其他分析从视频中提取摘要,或者依靠 OCR 提取屏幕显示的文本。 如果音频质量不佳且未识别 OCR,则模型可能无法从视频中准确提取摘要。 
  • 具有低照明或快速运动的视频:在低照明中拍摄或具有快速运动的视频可能很难让模型处理见解,从而导致性能不佳。 
  • 具有不常见口音或方言的视频:AI 模型通常以各种语音(包括不同的口音和方言)进行训练。 但是,如果视频包含在训练数据中表现不佳的口音或方言的语音,则模型可能难以从视频中准确提取脚本。 
  • 包含有害内容的视频:具有有害或敏感内容的视频可能会被筛选掉和排除,从而导致部分摘要。
  • 用户选择和自定义:文本摘要功能具有允许用户根据需求定制汇总过程的设置。 它们包括摘要长度、质量、输出格式以及正式、休闲、短或长文本样式。 但是,这些设置还引入了系统性能的可变性。 它可以增强你的体验,但它也可能影响系统的准确度和效率。 这是个性化与系统运营能力之间的平衡。 你预计会负责任地使用系统,并了解其限制以及选择对最终输出的影响。
  • 使用关键帧进行文本摘要:使用关键帧的摘要基于 关键帧选择和镜头检测。 因此,适用于镜头检测的任何限制都适用于关键帧的文本摘要。 关键帧选择基于可能会出错的专有 AI 模型。 关键帧检测可能不会捕获视频的所有视觉方面,因此它们可能会在摘要中错过。 此外,对于可用于汇总视频部分的帧数有不同的限制。 在经过有害内容检测或其他筛选器过滤的部分中,帧可能会被丢弃。 因此,视频的某些部分或部分的汇总结果可能不完整或不正确。

使用 Arc 注释启用的 VI 的文本摘要

Arc 启用的文本摘要(也称为在边缘设备上使用 VI)利用 Phi-3.5-mini-instruct 模型。 Phi-3.5 模型具有 12.8k 的上下文大小和适度的硬件要求。 更改模型的请求不收取任何费用。

规范

  • 硬件要求:GPU V100 或 Intel CPU 32 核心。 CPU速度较慢,不推荐使用。
  • 在Standard_NC24ads_A100_v4上测试。 有关更多支持硬件支持信息,请参阅 官方版本
  • A100 的平均运行时是视频持续时间的大约 14.5%。 对于短视频,运行时可能低至约 11.9%。

已知限制和已知问题

  • AI 语言模型创建摘要功能,并提供一般概述。 内容可能不会完全封装原始材料的本质。 建议在使用之前进行人工评审和编辑摘要。 不应将其视为专业或个性化建议。
  • 摘要的结果在每个风格中都是一致的。 但是,编辑脚本或重新编制视频索引可能会导致不同的结果输出。
  • 使用风格时,中性样式有时可能类似于“正式”样式。 休闲样式可能包括与内容相关的井号标签。 此外,中等长度摘要可能比短摘要短。
  • 通常不汇总内容很少(如短视频)的视频,以缓解输入短时可能发生的潜在模型不准确情况。
  • 摘要有时可能包含或引用提供给它的内部说明(称为“元提示”)。 它可以包含用于排除有害内容的指令。
  • 较长的视频可能会导致高级摘要,且细节较少。
  • 生成的摘要可能包含不准确之处,例如性别、年龄和其他个人特征的不正确标识。
  • 如果原始视频包含不适当的内容:
    • 视频摘要输出提取可能不完整
    • 包含有关不当内容的免责声明
    • 包括实际不当的引用,这些引用可能带有免责声明,也可能不带。

使用 Arc 注释启用的 VI 进行关键帧的文本摘要

带有关键帧的文本摘要基于带有镜头检测的关键帧选择。 因此,适用于镜头检测的任何限制都适用于关键帧的文本摘要。

规范

已知限制和已知问题

  • 关键帧选择基于可能会出错的专有 AI 模型。
  • A100 的平均运行时是视频持续时间的大约 24%。 对于短视频,运行时可能低至约 20%。
  • 关键帧检测可能不会捕获视频的所有视觉方面,因此它们可能会在摘要中错过。
  • 对于可用于汇总视频部分的帧数有不同的限制。 在经过有害内容检测或其他筛选器过滤的部分中,帧可能会被丢弃。 因此,视频的某些部分或部分的汇总结果可能不完整或不正确

音频效果检测

音频效果检测

音频效果检测笔记

  • 避免使用短或低质量的音频,音频效果检测针对检测到的非音速事件提供概率和部分数据。 为了准确起见,音频效果检测至少需要 2 秒的清除非音速音频。 不支持语音命令或唱歌。  
  • 避免将音频与响亮的背景音乐或具有重复和/或线性扫描频率的音频结合使用,音频效果检测专为非音速音频而设计,因此无法对响亮音乐中的事件进行分类。 重复和/或线性扫描频率的音乐被错误地归类为警报或警笛。
  • 若要提升更准确的概率数据,请确保:
    • 音频效果只能在非音速段中检测到。
    • 非peech 节的持续时间应至少为 2 秒。
    • 低质量音频可能会影响检测结果。
    • 大声背景音乐中的事件未分类。
    • 重复和/或线性扫描频率的音乐可能错误地归类为警报或警笛。
    • 敲门或猛击门可能被贴上枪声或爆炸标签。
    • 长时间的喊叫声或身体工作的声音可能被错误地分类。
    • 一群人笑声可能被归类为笑声和人群。
    • 自然和非合成枪声和爆炸声音得到支持。

音频效果检测组件

在音频效果检测过程中,处理媒体文件中的音频,如下所示:

组件 定义
源文件 用户上传源文件进行索引。
细分 音频被分析。 识别非语音音频后,将其切分为短重叠片段。
分类 AI 过程分析每个细分,并将其内容分类为事件类别,例如人群反应或笑声。 然后根据部门特定的规则为每个事件类别创建概率列表。
可信度 每个音频效果的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

Clapper 板检测

场记板检测

Clapper 开发板检测说明

  • 检测算法可能无法正确识别这些值。
  • clapperboard 上显示的字段标题经过优化,可以识别出现在 clapperboard 顶部的最常见字段。
  • 字段检测算法可能无法正确识别手写文本或数字数字。
  • 算法经过优化,可识别水平显示的字段类别。
  • 如果框架模糊,或者上面写的文本无法被人眼读取,则可能无法检测到拍板。
  • 空字段的值可能会导致字段类别错误。

Clapper 开发板检测组件

未定义任何组件。

内容审核

请参阅认知服务内容审查。

人脸检测和名人识别

人脸检测名人识别

人脸检测笔记

人脸检测是许多行业使用负责任且谨慎的工具。 若要尊重他人的隐私和安全,并遵守本地和全球法规,建议遵循以下使用准则:

  • 仔细考虑结果的准确性。 为了促进更准确的检测,请检查视频的质量。 低质量视频可能会影响显示的见解。
  • 如果对执法部门使用人脸检测,请仔细查看结果。 如果人们很小、坐着、蹲下或被物体或其他人阻挠,则人们可能不会被检测到。 为了确保公平和高质量的决策,将基于人脸检测的自动化与人工监督相结合。
  • 不要对可能具有严重、不利影响的决策使用人脸检测。 基于错误输出的决策可能会产生严重、不利影响。 建议包括人工审查对可能对个人产生严重影响的决定。

人脸检测组件

下表介绍了在人脸检测过程中如何处理媒体文件中的图像:

组件 定义
源文件 用户上传源文件进行索引。
检测和聚合 人脸检测器标识每个帧中的人脸。 然后,将聚合和分组人脸。
识别 名人模型处理聚合组以识别名人。 如果已创建自己的人员模型,它还会处理组来识别其他人。 如果无法识别人员,则标记为 Unknown1、Unknown2 等。
置信度值 如果适用于已知人脸或可自定义列表中标识的人脸,则每个标签的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

关键字提取

关键字提取

关键字提取注释

始终上传高质量的音频和视频内容。 建议的最大帧大小为 HD,帧速率为 30 FPS。 框架应包含不超过 10 人。 将帧从视频输出到 AI 模型时,仅每秒发送大约 2 或 3 帧。 处理 10 个和更多帧可能会延迟 AI 结果。 执行分析至少需要 1 分钟的自发对话语音。 音频效果仅在非peech 段中检测到。 非peech 节的最小持续时间为 2 秒。 不支持语音命令和唱歌。

关键字提取组件

在关键字过程中,处理媒体文件中的音频和图像,如下所示:

组件 定义
源语言 用户上传源文件进行索引。
听录 API 音频文件将发送到 Azure AI 服务,并返回翻译后的转录输出。 如果指定了语言,则会对其进行处理。
视频的 OCR 媒体文件中的图像使用 Azure AI 视觉读取 API 处理,以提取文本、其位置和其他见解。
关键字提取 提取算法处理转录的音频。 然后,结果与 OCR 过程中视频中检测到的见解相结合。 关键字及其出现在媒体中的位置,然后检测和标识。
可信度 每个关键字的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

标签识别

标签标识

标签标识说明

  • 仔细考虑结果的准确性,促进更准确的检测,检查视频的质量,低质量的视频可能会影响检测到的见解。
  • 在对执法部门使用标签时,请仔细考虑,标签可能无法检测视频的某些部分。 为了确保公平和高质量的决策,请将标签与人工监督相结合。
  • 不要对可能具有严重不利影响的决策使用标签标识。 机器学习模型可能会导致未检测到或分类输出不正确。 基于错误输出的决策可能会产生严重的负面影响。 此外,建议包括人工审查对可能对个人产生严重影响的决定。

标签标识组件

在标签过程中,处理媒体文件中的对象,如下所示:

组件 定义
来源 用户上传源文件进行索引。
标记 图像已标记并标记。 例如,门、椅子、女人、耳机、牛仔裤。
筛选和聚合 标记根据其置信度进行筛选,并根据类别进行聚合。
可信度 每个标签的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

命名实体

命名实体

命名实体说明

  • 仔细考虑结果的准确性,促进更准确的检测,检查音频和图像的质量,低质量的音频和图像可能会影响检测到的见解。
  • 命名实体仅检测音频和图像中的见解。 可能不会检测到品牌名称中的徽标。
  • 请仔细考虑,当用于执法命名实体时,可能并不总是检测音频的某些部分。 为了确保公平和高质量的决策,始终将命名实体与人工监督相结合。
  • 不要将命名实体用于可能对个人和组产生严重不利影响的决策。 提取文本的机器学习模型可能会导致文本输出未检测到或不正确。 基于不正确的输出做出的决定可能会产生严重的负面影响,必须避免。 应始终包括人工审查对对个人有严重影响的决心。

组件

在命名实体提取过程中,将处理媒体文件,如下所示:

组件 定义
源文件 用户上传源文件进行索引。
文本提取 - 音频文件将发送到语音服务 API 以提取听录。
- 采样帧发送到 Azure AI 视觉 API 以提取 OCR。
分析 然后,见解将发送到文本分析 API 以提取实体。 例如,Microsoft、巴黎或像保罗或莎拉这样的人的名字。
处理和合并 然后处理结果。 在适用的情况下,会添加维基百科链接,并通过视频索引器内置且可自定义的品牌列表标识品牌。
置信度值 每个命名实体的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

观察到的人检测和匹配的人脸

观测到的人员检测和匹配的人脸

观察到的人检测和匹配的人脸笔记

  • 如果人们看起来很小(最低人高为 100 像素),通常不会检测到。
  • 最大帧大小是完全高清(FHD)。
  • 低质量视频(例如深色照明条件)可能会影响检测结果。
  • 建议的帧速率至少为 30 FPS。
  • 建议的视频输入应在单个帧中最多包含 10 人。 此功能可以在单个帧中检测更多人员,但检测结果在具有最高置信度的帧中最多检索 10 人。
  • 有类似衣服的人:(例如,人们穿制服,运动游戏中的玩家)可以检测为具有相同 ID 号码的人。
  • 障碍 - 可能存在障碍(场景/自我或其他人的障碍)的错误。
  • 姿势:轨道可能因不同的姿势而拆分(后/前)
  • 由于服装检测取决于人的身体的可见性,如果一个人完全可见,准确性更高。 当一个人没有衣服时,可能会出现错误。 在这种情况下,或其他可见性不佳的场景,可能会给出结果,例如长裤和裙子或裙子或连衣裙。

观察到的人检测和匹配的人脸组件

组件 定义
源文件 用户上传源文件进行索引。
检测 跟踪媒体文件,以检测观察到的人及其衣服。 例如,长袖衬衫、连衣裙或长裤。 要检测到,人员的完整上半身必须出现在媒体中。
本地分组 已识别的观察到的人脸将筛选为本地组。 如果检测到人员多次,则会为此人创建更多观察到的人脸实例。
匹配和分类 观察到的人脉实例与人脸匹配。 如果有已知的名人,则观察到的人的名字。 观察到的任意数量的人员实例都可以与同一人脸匹配。
置信度值 每个观察到的人的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

光学字符识别 (OCR)

光学字符识别

OCR 注释

  • 视频索引器每个索引视频的 OCR 限制为 50,000 个单词。 达到限制后,不会生成其他 OCR 结果。
  • 仔细考虑结果的准确性,促进更准确的检测,检查图像的质量,低质量图像可能会影响检测到的见解。
  • 仔细考虑何时用于执法。 OCR 可能会误读或未检测到文本的某些部分。 为了确保公平和高质量的 VI 决定,将基于 OCR 的自动化与人工监督相结合。
  • 提取手写文本时,请避免使用人类和计算机难以读取的签名的 OCR 结果。 使用 OCR 的更好方法是使用它来检测签名是否存在以进一步分析。
  • 不要将 OCR 用于可能对个人或组产生严重不利影响的决策。 提取文本的机器学习模型可能会导致文本输出未检测到或不正确。 基于错误输出的决策可能会对必须避免的严重不利影响。 应始终包括人工审查对可能对个人产生严重影响的决定。

OCR 组件

在 OCR 过程中,处理媒体文件中的文本图像,如下所示:

组件 定义
源文件 用户上传源文件进行索引。
“读取”模型 图像在媒体文件和文本中检测到,然后由 Azure AI 服务提取和分析。
获取读取结果模型 提取文本的输出显示在 JSON 文件中。
置信度值 每个单词的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

文本情感检测

文本情感检测

基于文本的情感检测说明

  • 此模型旨在帮助检测视频脚本中的情绪。 然而,它不适合对个人情绪状态、能力或整体表现进行评估。
  • 此情感检测模型旨在帮助确定视频脚本中句子背后的情绪。 但是,它仅适用于文本本身,对于讽刺输入或输入可能不明确或不清楚的情况,它可能无法很好地执行。
  • 为了提高此模型的准确性,建议输入数据采用清晰明确的格式。 用户还应注意,此模型没有有关输入数据的上下文,这可能会影响其准确性。
  • 此模型可以生成误报和误报。 为了降低任一情况的可能性,建议用户遵循输入数据和预处理的最佳做法,并在其他相关信息的上下文中解释输出。 请务必注意,系统没有任何输入数据的上下文。
  • 不应使用此模型的输出来评估个人的情感状态或其他人类特征。 此模型在英语中受支持,可能无法正常使用非英语输入。 不是英语输入在输入模型之前被翻译成英语,因此可能会产生不太准确的结果。
  • 模型不应用于评估员工绩效或监视个人。
  • 模型不应该用于对某人、情绪状态或能力进行评估。
  • 模型的结果可能不准确,应谨慎处理。
  • 还必须考虑到模型对其预测的置信度。
  • 非英语视频产生不太准确的结果。

基于文本的情感检测组件

在情感检测过程中,将处理视频的脚本,如下所示:

组件 定义
源语言 用户上传源文件进行索引。
听录 API 音频文件将发送到 Azure AI 服务,并返回翻译后的转录输出。 如果指定了语言,则会处理该语言。
情绪检测 每个句子都发送到情感检测模型。 模型生成每个情感的置信度。 如果置信度超过特定阈值,并且正面和消极情绪之间没有歧义,则会检测到情感。 在任何其他情况下,句子都标记为中性。
可信度 检测到的情感的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

主题推理

请参阅 主题推理

主题推理说明

  • 上传文件时,请始终使用高质量的视频内容。 建议的最大帧大小为 HD,帧速率为 30 FPS。 框架应包含不超过 10 人。 将帧从视频输出到 AI 模型时,每秒仅发送大约两到三帧。 处理 10 个和更多帧可能会延迟 AI 结果。
  • 上传文件时,始终使用高质量的音频和视频内容。 执行分析至少需要 1 分钟的自发对话语音。 音频效果仅在非peech 段中检测到。 非peech 节的最小持续时间为 2 秒。 不支持语音命令和唱歌。
  • 通常,200 像素以下的小人物或对象和坐着的人可能无法检测到。 穿类似衣服或制服的人可能被检测为同一个人,并得到相同的 ID 号。 可能无法检测到受阻的人员或对象。 正面和后部姿势的人的轨迹可能会拆分为不同的实例。

主题推理组件

组件 定义
源语言 用户上传源文件进行索引。
预处理 听录、OCR 和面部识别 AIS 从媒体文件中提取见解。
见解处理 主题 AI 分析预处理过程中提取的听录、OCR 和面部识别见解:
- 转录文本,每行转录的文本见解都使用基于本体学的 AI 技术进行检查。
- OCR 和面部识别见解使用基于本体学的 AI 技术一起检查。
后处理 - 转录文本、见解提取并绑定到主题类别以及转录文本的行号。 例如,第 7 行中的政治。
- OCR 和面部识别,每个见解与主题实例的时间一起绑定到媒体文件中的主题类别。 例如,20.00 的“人脉”和“音乐”类别中的弗雷迪水星。
置信度值 每个主题的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

听录、翻译和语言识别

转录和字幕

听录、翻译和语言识别说明

谨慎使用时,Azure AI 视频索引器是许多行业的宝贵工具。 必须始终尊重他人的隐私和安全,并遵守当地和全球法规。 我们建议:

  • 仔细考虑结果的准确性,促进更准确的数据,检查音频的质量,低质量音频可能会影响检测到的见解。
  • 视频索引器不执行说话人识别,因此不会在多个文件中为说话人分配标识符。 无法在多个文件或脚本中搜索单个说话人。
  • 说话人标识符是随机分配的,只能用于区分单个文件中的不同说话人。
  • 跨对话和重叠语音:当多个说话人同时交谈或相互中断时,模型很难准确区分和分配相应的说话人的正确文本。
  • 说话人重叠:有时,说话人可能具有类似的语音模式、口音或使用类似的词汇,从而使模型难以区分它们。
  • 干扰音频:音频质量差、背景噪音或低质量录音可能会妨碍模型正确识别和转录扬声器的能力。
  • 情感语音:语音中的情感变化,如喊叫、哭泣或极端兴奋,可能会影响模型准确分割说话人的能力。
  • 说话人伪装或模拟:如果说话人故意模仿或伪装其语音,则模型可能会误演说话人。
  • 模棱两可的说话人识别:某些语音段可能没有足够的独特特征,使模型能够自信地归因于特定说话人。
  • 包含所选语言以外的语言的音频会产生意外的结果。
  • 检测每种语言的最小段长度为 15 秒。
  • 语言检测偏移量平均为 3 秒。
  • 语音应是连续的。 语言之间的频繁交替可能会影响模型的性能。
  • 非本机说话人的语音可能会影响模型的性能(例如,当说话人使用其第一种语言并切换到另一种语言时)。
  • 该模型旨在通过合理的音频音响效果(而不是语音命令、唱歌等)识别自发对话语音。
  • 项目创建和编辑不适用于多语言视频。
  • 使用多语言检测时,自定义语言模型不可用。
  • 不支持添加关键字。
  • 导出的隐藏式字幕文件中不包含语言指示。
  • API 中的更新脚本不支持多种语言文件。
  • 该模型旨在识别自发的对话语音(而不是语音命令、唱歌等)。
  • 如果 Azure AI 视频索引器无法识别具有足够置信度(大于 0.6)的语言,则回退语言为英语。

下面是 支持的语言列表。

听录、翻译和语言识别组件

在听录、翻译和语言识别过程中,处理媒体文件中的语音,如下所示:

组件 定义
源语言 用户上传源文件进行索引,或者:
- 指定视频源语言。
- 选择自动检测单语言(LID)以标识文件的语言。 输出单独保存。
- 选择自动检测多语言(MLID)以识别文件中的多种语言。 将单独保存每种语言的输出。
听录 API 音频文件将发送到 Azure AI 服务,以获取转录和翻译的输出。 如果指定了语言,则会相应地处理它。 如果未指定任何语言,则运行 LID 或 MLID 进程以标识处理文件之后的语言。
输出统一 转录和翻译的文件统一到同一文件中。 输出的数据包括每个提取句子的说话人 ID 及其置信度。
置信度值 每个句子的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。