获取音频效果检测见解

音频效果检测可检测声学事件,并将其分类为笑声、人群反应、警报或警笛等类别。

音频效果用例

  • 通过记录非语言效果为听力受损的受众提供更多上下文来提高可访问性。
  • 提高为内容创建者创建原始数据时的效率。 例如,在媒体和娱乐中,可以识别促销和预告片中的重要时刻,例如笑声、人群反应、枪声或爆炸。
  • 检测和分类智能城市系统或其他公共环境中(包括摄像头和麦克风)中的枪声、爆炸和玻璃碎裂。

支持的音频类别

音频效果检测可以检测效果并将其分类为标准类别和高级类别。 有关详细信息,请参阅定价

下表显示根据预设名称仅音频 / 视频 + 音频高级音频 / 高级视频 + 音频)支持哪些类别。 使用 高级 索引时,类别将显示在 网站的“见解 ”窗格中。

标准索引编制 高级索引编制
人群反应 ✔️
静音 ✔️ ✔️
枪声或爆炸声 ✔️
玻璃碎裂 ✔️
警报或警笛声 ✔️
笑声 ✔️
✔️
钟声 ✔️
鸟叫声 ✔️
汽车 ✔️
引擎 ✔️
✔️
音乐播放中 ✔️
尖叫 ✔️
雷暴 ✔️

使用 Web 门户查看见解 JSON

上传视频并编制索引后,请从 Web 门户下载 JSON 格式的见解。

  1. 选择“ ”选项卡。
  2. 选择所需的媒体。
  3. 选择“下载”,然后选择“见解”(JSON)。 JSON 文件将在新的浏览器选项卡中打开。
  4. 查找示例响应中所述的密钥对。

使用 API

  1. 使用 “获取视频索引” 请求。 通过 &includeSummarizedInsights=false
  2. 查找示例响应中所述的密钥对。

示例响应

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

重要

阅读所有 VI 功能的 透明度说明概述 。 每个见解也有其自己的透明度说明。

音频效果检测说明

  • 避免使用短或低质量的音频,音频效果检测提供关于检测到的非语音音频事件的概率性和部分性数据。 为了精确,音频效果检测至少需要 2 秒的清晰非语音音频。 不支持语音命令或唱歌。  
  • 避免使用带有响亮背景音乐或具有重复和/或线性扫描频率的音乐作为音频,音频效果检测仅针对非语音音频设计,因此无法对响亮音乐中的事件进行分类。 具有重复和/或线性扫描频率的音乐可能会被错误地归类为警报或警笛。
  • 若要提升更准确的概率数据,请确保:
    • 音频效果只能在非语音片段中检测到。
    • 非语音部分的持续时间应至少为2秒。
    • 低质量音频可能会影响检测结果。
    • 嘈杂背景音乐中的事件不在分类之列。
    • 重复和/或线性扫描频率的音乐可能错误地归类为警报或警笛。
    • 敲门或关门可能会被标记为枪声或爆炸声。
    • 长时间的喊叫声或体力活动的声音可能被错误地分类。
    • 一群人的笑声既可以被归类为笑声,也可以被归类为人群。
    • 自然和非合成枪声和爆炸声音得到支持。

音频效果检测组件

在音频效果检测过程中,处理媒体文件中的音频,如下所示:

组件 定义
源文件 用户上传源文件进行索引。
细分 音频被分析。 识别非语音音频后,将其切分为短重叠片段。
分类 AI 过程分析每个细分,并将其内容分类为事件类别,例如人群反应或笑声。 然后根据部门特定的规则为每个事件类别创建概率列表。
可信度 每个音频效果的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

代码示例

查看所有 VI 示例


隐藏字幕

隐藏式字幕文件中的音频效果显示为方括号:

类型 示例
SRT 00:00:00,000 00:00:03,671
[枪声或爆炸声]
VTT 00:00:00.000 00:00:03.671
[枪声或爆炸声]
TTML 置信度:0.9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT 格式 [枪声或爆炸声]
CSV 0.9047,00:00:00.000,00:00:03.671,[枪声或爆炸声]

注意

  • Silence 事件类型不会添加到隐藏式字幕中。
  • 显示事件的最短计时器持续时间为 700 毫秒。

向隐藏式字幕文件添加音频效果

API(应用程序接口)

可以使用“获取视频字幕”请求为隐藏式字幕文件

注意

使用隐藏式字幕文件中的 更新脚本 或更新隐藏式字幕文件中 的自定义语言模型 时,将忽略这些文件中包含的音频效果。

网络门户

还可以通过选择下载 ->隐藏式字幕 ->包括音频效果来使用门户。