你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 内容理解视频解决方案(预览版)

重要

  • Azure AI 内容理解目前处于预览状态。 通过公共预览版,可以提前访问当前处于正在开发状态的功能。
  • 正式发布之前,功能、方法和流程可能会更改或具有有限的功能。
  • 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

使用 Azure AI 内容理解,可以使用生成模型的强大功能生成一组标准视频元数据并为特定用例创建自定义字段。 内容理解有助于高效管理、分类、检索视频资产并为其构建工作流。 它可增强媒体资源库,支持诸如精彩片段生成等工作流,对内容进行分类,并为检索增强生成 (RAG) 等应用提供便利。

内容理解视频处理流的插图。

预构建的视频分析器输出适用于 RAG 的 Markdown,其中包括:

  • 转录本: 标准 WEBVTT 格式的内嵌转录本
  • 描述: 具有视觉和语音上下文的自然语言段说明
  • 分割: 自动场景分段将视频分解成逻辑区块
  • 关键帧: 有序的关键帧缩略图,可实现更深入的分析

此格式可以直接放入矢量存储,以启用代理或 RAG 工作流 -- 无需后期处理。

可以从那里 自定义分析器 ,以便更精细地控制输出。 可以定义自定义字段、段或启用人脸识别。 通过自定义,可以使用生成模型的全部功能从视频的视觉和音频详细信息中提取深入见解。

例如,自定义允许你:

  • 定义自定义字段: 确定视频中看到或提及的产品和品牌。
  • 生成自定义段: 根据讨论的主题或新闻报道将新闻广播细分为章节。
  • 使用人员目录来识别人员,可以使客户通过人脸识别在录像中标记会议演讲者,例如CEO John DoeCFO Jane Smith

为什么为视频使用内容理解技术?

视频的内容理解具有广泛的潜在用途。 例如,你可以自定义元数据来标记培训视频中的特定场景,从而让员工能更轻松地定位并回顾重要部分。 你还可以利用元数据自定义来识别宣传视频中的产品植入,这有助于营销团队分析品牌曝光度。 其他用例包括:

  • 广播媒体和娱乐: 通过为每个资产生成详细的元数据来管理大型放映、电影和剪辑库。
  • 教育和电子学习: 在教育视频或讲座中为特定时刻编制索引和检索。
  • 公司培训: 按关键主题、场景或重要时刻组织培训视频。
  • 营销和广告: 分析促销视频,提取产品位置、品牌外观和关键消息。

预生成视频分析器示例

使用预建的视频分析器(预建视频分析器),可以上传视频并立即获取可用的知识资产。 服务会将每个剪辑打包为格式丰富的 Markdown 和 JSON。 在此过程,搜索索引或聊天代理可在没有自定义粘附代码的情况下引入。

  • 例如,按如下所示创建基础 prebuilt-videoAnalyzer

    {
      "config": {},
      "BaseAnalyzerId": "prebuilt-videoAnalyzer",
    }
    
  • 接下来,分析 30 秒的广告视频将导致以下输出:

       # Video: 00:00.000 => 00:30.000
       Width: 1280
       Height: 720
    
       ## Segment 1: 00:00.000 => 00:06.000
       A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Get new years ready.
    
       Key Frames
       - 00:00.600 ![](keyFrame.600.jpg)
       - 00:01.200 ![](keyFrame.1200.jpg)
    
       ## Segment 2: 00:06.000 => 00:10.080
       The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Go team!
    
       Key Frames
       - 00:06.200 ![](keyFrame.6200.jpg)
       - 00:07.080 ![](keyFrame.7080.jpg)
    
          *…additional data omitted for brevity…*
    

演练

我们最近发布了一份关于使用内容理解实现视频 RAG 的演练。 https://www.youtube.com/watch?v=fafneWnT2kw&lc=Ugy2XXFsSlm7PgIsWQt4AaABAg

能力

  1. 内容提取
  2. 字段提取
  3. 人脸识别

在底层,通过两个阶段将原始像素转换为业务就绪的见解。 下图展示了如何将提取结果用于生成,确保每个下游步骤具有其所需的上下文。

视频分析器流的屏幕截图。

该服务分两个阶段运行。 第一阶段的内容提取涉及捕获基础元数据,例如脚本、镜头和人脸。 第二阶段字段提取使用生成模型生成自定义字段和执行分段。 此外,还可以选择启用人脸加载项来标识个人并在视频中对其进行描述。

内容提取功能

第一阶段就是提取第一组细节 - 说话人、剪辑点和重复出现的面部。 它创建了一个坚实的元数据基础,后续步骤可以利用它进行推理。

  • 转录: 以 WebVTT 格式将对话音频转换为可搜索和分析的基于文本的脚本。 如果 "returnDetails": true 已设置,则句子级时间戳可用。 内容理解支持完整的 Azure AI 语音语音转文本语言集。 视频语言支持的详细信息与音频相同, 有关详细信息,请参阅音频语言处理 。 有必要考虑以下听录细节:

    • Diarization: 区分输出中对话中的说话人,将脚本的某些部分归因于特定说话人。

    • 多语言听录:生成多语言脚本。 在口述文本中,语言/区域设置按短语进行应用。 设置 "returnDetails": true 时,系统会输出短语。 与语言检测不同,如果未指定语言/区域设置,或者语言设置为 auto,则会启用此功能。

      注释

      使用多语言听录时,任何具有不受支持的区域设置的文件都基于最接近支持的区域设置生成结果,但结果很可能是不正确的。 此结果是已知行为。 请确保在不使用多语言听录支持的区域设置时配置区域设置,避免听录质量问题!

    • 关键帧提取: 从视频中提取关键帧以完全表示每个镜头,确保每个镜头有足够的关键帧,使现场提取能够有效工作。

    • 镜头检测:尽可能识别与镜头边界对齐的视频片段,从而允许对内容进行精确编辑和重新打包,且剪辑点与现有位置完全一致。 输出是时间戳列表(以毫秒为单位 cameraShotTimesMs)。 仅当设置 "returnDetails": true 时,才会返回输出。

字段提取与分割

接下来,生成模型将意义分层,标记场景,汇总动作,并按您的请求将素材分段切片。 此操作是将提示信息转换为结构化数据。

自定义字段

调整输出以匹配业务词汇。 使用一个 fieldSchema 对象,其中每个条目定义字段的名称、类型和说明。 在运行时,生成模型会为每个段填充这些字段。

示例:

  • 媒体资产管理:

    • 视频类别: 通过将编辑和制作人分类为新闻、体育、采访、纪录片、广告等,帮助编辑和制作人组织内容。可用于元数据标记和更快速的内容筛选和检索。
    • 配色方案: 传达情绪和气氛,对叙事一致性和观众参与至关重要。 识别颜色主题有助于找到匹配的剪辑,以加快视频编辑速度。
  • 广告:

    • 品牌: 标识品牌状态,对分析广告影响、品牌可见性和与产品的关联至关重要。 此功能使广告商能够评估品牌的突出程度,并确保符合品牌推广指南。
    • 广告类别: 按行业、产品类型或受众细分对广告类型进行分类,支持有针对性的广告策略、分类和性能分析。

示例:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

分段模式

注释

即使未定义任何字段,设置分段也会触发字段提取。

内容理解提供三种方法来处理视频,让你获得整部视频或短片所需的输出。 可以通过在 SegmentationMode 自定义分析器上设置属性来使用这些选项。

  • 全视频segmentationMode : noSegmentation 该服务将整个视频文件视为单个段,并在整个持续时间内提取元数据。

    示例:

    • 合规性检查会针对广告中的任何位置,查找是否存在特定品牌安全问题
    • 完整描述性摘要
  • 自动分段segmentationMode = auto 服务会分析时间线并对其进行分解。 将连续的镜头组合成逻辑连贯的场景,每个镜头的时长上限为 1 分钟。

    示例:

    • 根据节目创建情节提要
    • 在在逻辑停顿点插入中插广告。
  • 自定义分段 - segmentationMode : custom 使用自然语言描述逻辑,模型创建要匹配的段。 设置 segmentationDefinition 一个字符串,描述你希望如何对视频进行分段。 自定义模式允许根据提示生成时长从数秒到数分钟不等的片段。

    示例:

    • 将新闻广播分解为多个故事。
    {
      "segmentationMode": "custom",
      "segmentationDefinition": "news broadcasts divided by individual stories"
    }
    

人脸识别和描述加载项

注释

此功能为受限访问,涉及人脸识别和分组;客户需要通过人脸识别进行注册以获取访问权限。 人脸功能会产生额外的成本。

人脸识别描述是一个加载项,它使用人脸信息提供内容提取和字段提取的上下文。

内容提取 - 分组和标识

人脸加载项支持基于内容提取部分的输出实现分组和识别。 在分析器配置中设置"enableFace":true以启用人脸识别功能。

  • 分组:对视频中出现的人脸进行分组,为每个人提取一张具有代表性的人脸图像,并提供每个人脸出现的片段。 为分析器设置 returnDetails: true 时,分组后的人脸数据可作为元数据使用,并可用于生成自定义的元数据字段。
  • 鉴定: 使用基于人脸 API 人员目录的名称标记视频中的个人。 客户可以通过在分析器属性的当前资源 personDirectoryId 中提供人脸 API 目录的名称来启用此功能。 若要使用此功能,必须先创建 personDirectory,然后在分析器中引用它。 有关如何执行此作的详细信息,请查看 如何生成人员目录

字段提取 - 人脸描述

通过提供视频中已识别人脸的详细描述,增强了字段提取功能。 此功能包括面部毛发、情感和名人的存在等属性,这对于各种分析和索引目的至关重要。 在分析器配置中设置 disableFaceBlurring : true 以启用人脸描述功能。

示例:

  • 示例字段:emotionDescription:提供此剪辑中主要人员的情感状态的说明(例如,,happysadangry
  • 示例字段:facialHairDescription:描述面部毛发的类型(例如,beardmustacheclean-shaven

关键优势

与其他视频分析解决方案相比,内容理解具有若干关键优势:

  • 基于段的多帧分析: 通过分析每个视频段的多个帧,而不是单个帧,来识别动作、事件、主题和议题。
  • 自定义:通过根据特定用例修改架构来自定义字段和分段。
  • 生成模型: 用自然语言描述要提取的内容,内容理解使用生成模型提取该元数据。
  • 优化的预处理: 执行多个内容提取预处理步骤,例如听录和场景检测,经过优化,为 AI 生成模型提供丰富的上下文。

技术约束和限制

要记住的视频处理的具体限制:

  • 帧采样(约 1 FPS):分析器每秒检查大约一帧。 可能会错过快速动作或单帧事件。
  • 帧分辨率(512 × 512 像素):采样帧的大小调整为 512 像素方形。 小型文本或遥远的对象可能会丢失。
  • 语音:只转录口语。 将忽略音乐、声音效果和环境噪音。

输入要求

有关支持的格式,请参阅 服务配额和限制

支持的语言和区域

请参阅 语言和区域支持

数据隐私和安全性

与所有 Azure AI 服务一样,请查看Microsoft的数据 、保护和隐私 文档。

重要

如果处理 生物识别数据 (例如启用 人脸分组人脸识别),则必须满足 GDPR 或其他适用法律下的所有通知、同意和删除要求。 请参阅 人脸数据和隐私

后续步骤