通过语言识别模型自动识别口述语言

重要

由于Azure 媒体服务停用公告,Azure AI 视频索引器会宣布 Azure AI 视频索引器功能调整。 请参阅 与 Azure 媒体服务(AMS)停用 相关的更改,了解 Azure AI 视频索引器帐户的含义。 请参阅 AMS 停用准备:VI 更新和迁移指南

Azure AI 视频索引器支持自动语言识别(LID),这是从音频内容自动识别口语的过程。 媒体文件以主要标识语言进行转录。

请参阅受支持语言的 Azure AI 视频索引器语言支持的列表。

请务必查看“ 指南和限制 ”部分。

在编制索引时选择自动语言识别

在使用 API 对视频编制索引或重新编制索引时,请在 sourceLanguage 参数中选择“auto detect”选项。

使用门户时,转到 Azure AI 视频索引器主页上的帐户视频,并将鼠标悬停在要重新编制索引的视频的名称上。 在右下角,选择 “重新索引 ”按钮。 在“重新索引视频”对话框中,从“视频源语言”下拉框中选择“自动检测”。

显示选择自动检测的位置的屏幕截图。

模型输出

Azure AI 视频索引器根据该语言 > 0.6的置信度根据最有可能的语言转录视频。 如果该语言无法通过置信度识别,则视频索引器会假定所讲语言为英语。

模型主导语言在见解 JSON 中以 sourceLanguage 属性(在“root/videos/insights”下)的形式提供。 相应的置信度分数也会在 sourceLanguageConfidence 属性下提供。

"insights": {
        "version": "1.0.0.0",
        "duration": "0:05:30.902",
        "sourceLanguage": "fr-FR",
        "language": "fr-FR",
        "transcript": [...],
        . . .
        "sourceLanguageConfidence": 0.8563
      }

指导原则和限制

自动语言识别 (LID) 支持以下语言:

请参阅受支持语言的 Azure AI 视频索引器语言支持的列表。

  • 如果音频包含受支持列表以外的语言,则结果意外。
  • 如果 Azure AI 视频索引器无法识别具有足够置信度(大于 0.6)的语言,则回退语言为英语。
  • 目前,不支持使用混合语言音频的文件。 如果音频包含混合语言,则会出现意外结果。
  • 低质量音频可能会影响模型结果。
  • 该模型要求音频中至少有一分钟的语音。
  • 该模型旨在识别自发的对话语音(而不是语音命令、唱歌等)。