媒体听录、翻译和语言识别

项目
03/22/2024

重要

由于Azure 媒体服务停用公告，Azure AI 视频索引器会宣布 Azure AI 视频索引器功能调整。请参阅与 Azure 媒体服务（AMS）停用相关的更改，了解 Azure AI 视频索引器帐户的含义。请参阅 AMS 停用准备：VI 更新和迁移指南。

Azure AI 视频索引器听录、翻译和语言识别会自动检测、转录语音，并将媒体文件中的语音翻译为 50 多种语言。

Azure AI 视频索引器处理音频文件中的语音，以提取随后翻译成多种语言的听录。选择翻译为特定语言时，听录和关键字 (keyword)、主题、标签或 OCR 等见解将翻译成指定语言。听录可以按原样使用，也可以与说话人见解结合使用，这些见解将脚本分配给演讲者。可以在音频文件中检测到多个扬声器。向每个说话人分配一个 ID，并显示在其转录的语音下。
Azure AI 视频索引器语言识别（LID）会自动识别视频文件中支持的主导口语。有关详细信息，请参阅 “应用 LID”。
Azure AI 视频索引器多语言识别（MLID）会自动识别音频文件中不同段中的口语，并发送每个段以标识的语言进行转录。此过程结束时，所有听录合并到同一文件中。有关详细信息，请参阅应用 MLID。生成的见解在 JSON 文件中的分类列表中生成，其中包含 ID、语言、转录文本、持续时间和置信度分数。
使用多个扬声器为媒体文件编制索引时，Azure AI 视频索引器执行说话人分割，用于标识视频中的每个说话人，并将每个转录行的属性都转录为扬声器。为说话人提供唯一标识，例如说话人 #1 和说话人 #2。这允许在对话期间识别说话人，并可用于各种场景，例如医生-患者对话、代理-客户交互和法庭诉讼。

先决条件

查看透明度说明概述

一般原则

本文讨论听录、翻译和语言识别以及负责任地使用此技术的关键注意事项。在决定如何使用和实现 AI 支持的功能时，需要考虑许多事项：

此功能在我的方案中是否表现良好？在将听录、翻译和语言识别用于方案之前，请测试它如何使用真实数据执行，并确保它可以提供所需的准确性。
我们是否具备识别并应对错误的能力？ AI 提供支持的产品和功能不会准确 100%，因此请考虑如何识别和响应可能发生的任何错误。

查看见解

若要查看网站上的见解，请执行以下操作：

转到 Insight 并滚动到听录和翻译。

若要查看语言 insights.json见解，请执行以下操作：

选择“下载 -> 见解”（JSON）。

复制所需的元素，并将其 insights粘贴到联机 JSON 查看器中。

"insights": {
  "version": "1.0.0.0",
  "duration": "0:01:50.486",
  "sourceLanguage": "en-US",
  "sourceLanguages": [
    "en-US"
  ],
  "language": "en-US",
  "languages": [
    "en-US"
  ],
  "transcript": [
    {
      "id": 1,
      "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
      "confidence": 0.8879,
      "speakerId": 1,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:00",
          "adjustedEnd": "0:00:05.75",
          "start": "0:00:00",
          "end": "0:00:05.75"
        }
      ]
    },
    {
      "id": 2,
      "text": "Emily Tran, with office graphics.",
      "confidence": 0.8879,
      "speakerId": 1,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:05.75",
          "adjustedEnd": "0:00:07.01",
          "start": "0:00:05.75",
          "end": "0:00:07.01"
        }
      ]
    },

若要通过 API 下载 JSON 文件，请使用 Azure AI 视频索引器开发人员门户。

听录、翻译和语言识别组件

在听录、翻译和语言识别过程中，处理媒体文件中的语音，如下所示：

组件	定义
源语言	用户上传源文件进行索引，或者： - 指定视频源语言。 - 选择自动检测单语言（LID）以标识文件的语言。输出单独保存。 - 选择自动检测多语言（MLID）以识别文件中的多种语言。将单独保存每种语言的输出。
听录 API	音频文件将发送到 Azure AI 服务，以获取转录和翻译的输出。如果指定了语言，则会相应地处理该语言。如果未指定任何语言，则运行 LID 或 MLID 进程以标识处理文件之后的语言。
输出统一	转录和翻译的文件统一到同一文件中。输出的数据包括每个提取句子的说话人 ID 及其置信度。
置信度值	每个句子的估计置信度计算为 0 到 1 的范围。置信度分数表示结果准确性的确定性。例如，82% 的确定性表示为 0.82 分数。

示例用例：

通过使用 Azure AI 视频索引器为听力障碍者提供内容来生成语音转文本听录和翻译成多种语言，从而提升辅助功能。
通过使用 Azure AI 视频索引器的听录和翻译功能以多种语言提供内容，从而改善不同区域和语言中不同受众的内容分发。
利用 Azure AI 视频索引器的听录和翻译功能，以及使用 Azure AI 视频索引器以支持的格式之一生成的封闭描述文字，增强和改进手动关闭描述文字和字幕生成。
使用语言识别（LID）或多语言识别（MLID）以未知语言转录视频，使 Azure AI 视频索引器能够自动识别视频中显示的语言并相应地生成听录。

选择用例时的注意事项和限制

谨慎使用时，Azure AI 视频索引器是许多行业的宝贵工具。为了尊重他人的隐私和安全，并遵守当地和全球法规，建议执行以下操作：

仔细考虑结果的准确性，促进更准确的数据，检查音频的质量，低质量的音频可能会影响检测到的见解。
始终尊重个人的隐私权利，并且只出于合法和合理的目的引入视频。
不要故意披露不适当的媒体，显示年幼儿童或名人的家庭成员或其他内容可能有害或对个人的个人自由构成威胁。
致力于在分析媒体的设计和部署中尊重和促进人权。
使用第三方材料时，在分发派生自它们的内容之前，请注意所需的任何现有版权或权限。
使用来自未知来源的媒体时，请始终寻求法律建议。
始终获得适当的法律和专业建议，以确保上传的视频受到保护，并拥有足够的控制，以保持内容的完整性，并防止未经授权的访问。
提供反馈通道，使用户和个人能够报告服务问题。
请注意有关处理、分析和共享包含人员的媒体的任何适用的法律或法规。
使人处于循环中。不要将任何解决方案用作人工监督和决策的替代方法。
全面检查和查看用于了解其功能和限制的任何 AI 模型的潜力。
视频索引器不执行说话人识别，因此不会在多个文件中为说话人分配标识符。无法在多个文件或脚本中搜索单个说话人。
说话人标识符是随机分配的，只能用于区分单个文件中的不同说话人。
跨对话和重叠语音：当多个说话人同时交谈或相互中断时，模型很难准确区分和分配相应的说话人的正确文本。
说话人重叠：有时，说话人可能具有类似的语音模式、口音或使用类似的词汇，使模型难以区分它们。
干扰音频：音频质量差、背景噪音或低质量录音可能会妨碍模型正确识别和转录扬声器的能力。
情感语音：语音中的情感变化，如喊叫、哭泣或极端兴奋，可能会影响模型准确分割说话人的能力。
说话人伪装或模拟：如果说话人故意模仿或伪装其语音，则模型可能会误演说话人。
模棱两可的说话人识别：某些语音段可能没有足够的独特特征，使模型能够自信地归因于特定说话人。

有关详细信息，请参阅：语言检测和听录中的准则和限制。