你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 内容理解音频解决方案(预览版)

重要

  • Azure AI 内容理解目前处于预览状态。 通过公共预览版,可以提前访问当前处于正在开发状态的功能。
  • 正式发布 (GA) 之前,功能、方法和流程可能会发生更改或具有受限的功能。
  • 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

音频分析器支持聊天音频的听录和分割,提取结构化字段,例如摘要、情绪和关键主题。 使用 Azure AI Foundry 门户开始生成结果,根据业务需求自定义音频分析器模板。

下面是聊天音频数据处理的常见方案:

  • 通过汇总和情绪分析获取客户见解。
  • 评估和验证呼叫中心的通话质量和合规性。
  • 创建用于播客发布的自动摘要和元数据。

文档分析器功能

内容理解音频功能的插图。

内容理解是语音分析解决方案的基石,可为音频文件启用以下功能:

内容提取

音频内容提取是听录音频文件的过程。 此过程包括按说话人分隔听录,并涉及可选功能,例如角色检测,将说话人结果更新为有意义的说话人角色。 它还可能包含字词级时间戳等详细结果。

语言处理

我们支持在转录过程中处理语言的不同选项。

下表概述了通过“区域设置”配置控制的选项:

区域设置 文件大小 支持的处理 支持的区域设置 结果延迟
自动或为空 ≤ 300 MB 和/或 ≤ 2 小时 多语言转录 de-DEen-AU en-CAen-GBen-INen-USes-ESes-MXfr-CAfr-FRhi-INit-ITja-JPko-KRzh-CN 准实时
自动或为空 > 300 MB 且 >2 HR ≤ 4 小时 多语言转录 en-USes-ESes-MXfr-FRhi-INit-ITja-JPko-KRpt-BRzh-CN 常规的
单个区域设置 ≤ 1 GB 和/或 ≤ 4 小时 单语言转录 所有支持的区域设置[^1] • ≤ 300 MB 和/或 ≤ 2 小时:近实时
• > 300 MB 且 >2 HR ≤ 4 小时:常规
多个区域设置 ≤ 1 GB 和/或 ≤ 4 小时 单语言听录(基于语言检测) 所有支持的区域设置[^1] • ≤ 300 MB 和/或 ≤ 2 小时:近实时
• > 300 MB 且 >2 HR ≤ 4 小时:常规

[^1]:内容理解功能支持 Azure AI 语音的语音转文本语言的完整集。 对于快速听录支持的语言以及文件≤ 300 MB 和/或 ≤ 2 小时,听录时间会大幅减少。

  • 听录。 将对话音频转换为可搜索和分析的 WebVTT 格式的脚本记录。 可以从听录数据生成可自定义字段。 可根据请求提供句子级和字级时间戳。

  • 分割。 区分对话中的说话人,将脚本的各个部分归属于特定说话人。

  • 说话人角色检测。 标识联系人中心通话数据中的代理和客户角色。

  • 多语言听录。 生成多语言记录,每个短语应用语言/区域设置。 与语言检测不同,如果未指定语言/区域设置,或者语言设置为 auto,则会启用此功能。

注释

使用多语言听录时,任何具有不受支持的区域设置的文件都基于最接近支持的区域设置生成结果,但结果很可能是不正确的。 此结果是已知行为。 请确保在不使用多语言听录支持的区域设置时配置区域设置,避免听录质量问题!

  • 语言检测。 自动检测用于转录文件的主导语言/区域设置。 设置多种语言/区域设置以启用语言检测。

字段提取

通过字段提取,可以从音频文件中提取结构化数据,例如摘要、情绪和呼叫日志中提到的实体。 可以从自定义建议的分析器模板或从头开始创建一个分析器模板入手。

主要优势

高级音频功能,包括:

  • 可自定义的数据提取。 通过修改字段架构来根据特定需求定制输出,以便精确生成和提取数据。

  • 生成式模型。 利用生成式 AI 模型以自然语言指定要提取的内容,并且服务会生成所需的输出。

  • 集成的预处理。 受益于内置的预处理步骤,如听录、分割和角色检测,为生成式模型提供丰富的上下文。

  • 应用场景适应性。 通过生成自定义字段并提取相关数据,使服务适应你的要求。

预生成的音频分析器

预生成的分析器允许提取有价值的音频内容见解,而无需创建分析器设置。

所有音频分析器都以标准 WEBVTT 格式生成由说话人分隔的转录文本。

注释

预设分析器被设置为使用多语言转录并已启用 returnDetails

可以使用以下预生成分析器:

调用后分析 (prebuilt-callCenter)。 分析通话记录以生成:

  • 具有说话人角色检测结果的对话记录
  • 电话摘要
  • 通话情绪
  • 提及的前 5 篇文章
  • 提到的公司列表
  • 提及的人员列表(姓名和职务/角色)
  • 相关呼叫类别列表

示例结果:

{
  "id": "bc36da27-004f-475e-b808-8b8aead3b566",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-callCenter",
    "apiVersion": "2025-05-01-preview",
    "createdAt": "2025-05-06T22:53:28Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
          },
          "Topics": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Point balance inquiry"
              },
              {
                "type": "string",
                "valueString": "Identity confirmation"
              },
              {
                "type": "string",
                "valueString": "Customer service"
              }
            ]
          },
          "Companies": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Contoso"
              }
            ]
          },
          "People": {
            "type": "array",
            "valueArray": [
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "John Doe"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Agent"
                  }
                }
              },
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "Maria Smith"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Customer"
                  }
                }
              }
            ]
          },
          "Sentiment": {
            "type": "string",
            "valueString": "Positive"
          },
          "Categories": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Business"
              }
            ]
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Agent",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Customer",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

对话分析 (prebuilt-audioAnalyzer)。 分析录音以生成:

  • 对话记录
  • 对话摘要

示例结果:

{
  "id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-audioAnalyzer",
    "apiVersion": "2025-05-01-preview",
    "createdAt": "2025-05-06T23:00:12Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Speaker 1",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Speaker 2",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

您还可以通过定义自定义字段来调整预设分析器,从而更灵活地控制输出。 通过自定义,可以使用生成模型的全部功能从音频中提取深入见解。 例如,自定义允许你:

  • 生成其他见解。
  • 控制字段提取输出的语言。
  • 配置听录行为。

对话知识挖掘解决方案加速器

有关语音分析解决方案的端到端快速入门,请参阅 对话知识挖掘解决方案加速器

通过识别关键主题、模式和关系,从大量聊天数据中获得可作的见解。 此解决方案使用 Azure AI Foundry、Azure AI 内容理解、Azure AI Foundry 模型中的 Azure OpenAI 和 Azure AI 搜索,分析非结构化对话并将其映射到有意义的结构化见解。

主题建模、关键短语提取、语音转文本听录和交互式聊天等功能使用户能够自然地浏览数据并更快地做出更明智的决策。

处理大量对话数据的分析师可以使用此解决方案通过自然语言交互来提取见解。 它支持识别客户支持趋势、提高联系中心质量以及发现运营智能等任务,使团队能够发现模式、处理反馈并更快地做出明智的决策。

输入要求

有关受支持的音频格式的详细列表, 请参阅服务限制和编解码器

支持的语言和区域

有关支持的区域、语言和区域设置的完整列表,请参阅 语言和区域支持

数据隐私和安全性

使用此服务的开发人员应查看Microsoft客户数据策略。 有关详细信息, 请参阅数据、保护和隐私

后续步骤