获取关键字提取见解

本文介绍如何从 Azure AI 视频索引器(VI)获取关键字提取见解。 关键字提取在媒体文件中查找重要的关键字,并提供单语言和多语言媒体文件中的见解。

关键字提取用例

  • 关键字个性化以匹配客户兴趣。 例如,有关英格兰的网站发布有关英国电影或节日的促销。
  • 深入搜索档案以获得关于特定关键字的见解,进而创建有关公司、人物或技术的专题报道,例如由通讯社进行。

使用 Web 门户查看见解 JSON

上传视频并编制索引后,请从 Web 门户下载 JSON 格式的见解。

  1. 选择“ ”选项卡。
  2. 选择所需的媒体。
  3. 选择“下载”,然后选择“见解”(JSON)。 JSON 文件将在新的浏览器选项卡中打开。
  4. 查找示例响应中所述的密钥对。

使用 API

  1. 使用 “获取视频索引” 请求。 通过 &includeSummarizedInsights=false
  2. 查找示例响应中所述的密钥对。

示例响应

    "keywords": [
      {
        "id": 1,
        "text": "office insider",
        "confidence": 1,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:00:05.75",
            "start": "0:00:00",
            "end": "0:00:05.75"
          },
          {
            "adjustedStart": "0:01:21.82",
            "adjustedEnd": "0:01:24.7",
            "start": "0:01:21.82",
            "end": "0:01:24.7"
          },
          {
            "adjustedStart": "0:01:31.32",
            "adjustedEnd": "0:01:32.76",
            "start": "0:01:31.32",
            "end": "0:01:32.76"
          },
          {
            "adjustedStart": "0:01:35.8",
            "adjustedEnd": "0:01:37.84",
            "start": "0:01:35.8",
            "end": "0:01:37.84"
          }
        ]
      },
      {
        "id": 2,
        "text": "insider tip",
        "confidence": 0.9975,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:01:14.91",
            "adjustedEnd": "0:01:19.51",
            "start": "0:01:14.91",
            "end": "0:01:19.51"
          }
        ]
      }

重要

阅读所有 VI 功能的 透明度说明概述 。 每个见解也有其自己的透明度说明。

关键字提取注释

始终上传高质量的音频和视频内容。 建议的最大帧大小为 HD,帧速率为 30 FPS。 画面应包含不超过 10 人。 将帧从视频输出到 AI 模型时,仅每秒发送大约 2 或 3 帧。 处理 10 个和更多帧可能会延迟 AI 结果。 至少需要 1 分钟的自发对话语音才能执行分析。 只有在非语音段中检测到音频效果。 非语音节的最小持续时间为2秒。 不支持语音命令和唱歌。

关键字提取组件

在关键字过程中,处理媒体文件中的音频和图像,如下所示:

组件 定义
源语言 用户上传源文件进行索引。
听录 API 音频文件将发送到 Azure AI 服务,并返回翻译后的转录输出。 如果指定了语言,则会对其进行处理。
视频的 OCR 媒体文件中的图像使用 Azure AI 视觉读取 API 处理,以提取文本、其位置和其他见解。
关键字提取 提取算法处理转录的音频。 然后,结果与 OCR 过程中视频中检测到的见解相结合。 关键字及其在媒体中出现的位置会被检测和识别。
可信度 每个关键字的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

代码示例

查看所有 VI 示例