다음을 통해 공유


Azure AI Content Understanding 오디오 솔루션(미리 보기)

중요합니다

  • Azure AI Content Understanding은 미리 보기로 제공됩니다. 공개 미리 보기 릴리스는 활성 개발 중인 기능에 대한 초기 액세스를 제공합니다.
  • 기능, 접근 방식 및 프로세스는 GA(일반 공급) 전에 기능이 변경되거나 제한될 수 있습니다.
  • 자세한 내용은 Microsoft Azure 미리 보기에 대한 추가 사용 약관을 참조하세요.

오디오 분석기를 사용하면 대화형 오디오의 전사 및 일기를 사용하여 요약, 감정 및 주요 항목과 같은 구조화된 필드를 추출할 수 있습니다. Azure AI Foundry 포털을 사용하여 비즈니스 요구 사항에 맞게 오디오 분석기 템플릿을 사용자 지정하여 결과 생성을 시작합니다.

대화형 오디오 데이터 처리에 대한 일반적인 시나리오는 다음과 같습니다.

  • 요약 및 감정 분석을 통해 고객 인사이트를 얻습니다.
  • 콜 센터에서 통화 품질 및 규정 준수를 평가하고 확인합니다.
  • 팟캐스트 게시를 위한 자동화된 요약 및 메타데이터를 만듭니다.

오디오 분석기 기능

Content Understanding 오디오 기능의 일러스트레이션.

Content Understanding은 음성 분석 솔루션의 초석 역할을 하며 오디오 파일에 대해 다음 기능을 사용할 수 있습니다.

콘텐츠 추출

오디오 콘텐츠 추출은 오디오 파일을 전사하는 프로세스입니다. 이 프로세스에는 전사를 화자로 구분하는 것이 포함되며, 역할 검색과 같은 선택적 기능을 포함하여 화자 결과를 의미 있는 화자 역할로 업데이트할 수 있습니다. 단어 수준 타임스탬프를 비롯한 자세한 결과를 포함할 수도 있습니다.

언어 처리

전사 중에 언어 처리를 처리하는 다양한 옵션을 지원합니다.

다음 표에서는 '로캘' 구성을 통해 제어되는 옵션에 대한 개요를 제공합니다.

지역 설정 파일 크기 지원되는 처리 지원되는 로캘 결과 대기 시간
자동 또는 비어 있음 ≤ 300MB 및/또는 ≤ 2시간 다국어 전사 de-DE, en-AU, en-CA, en-GB, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, hi-IN, it-IT, ja-JP, 및 ko-KR, zh-CN 거의 실시간으로
자동 또는 비어 있음 > 300MB 및 >2시간 ≤ 4시간 다국어 전사 en-US, es-ES, es-MX, fr-FR, hi-IN, it-IT, ja-JPko-KR, pt-BRzh-CN 일반
단일 로캘 ≤ 1GB 및/또는 ≤ 4시간 단일 언어 전사 지원되는 모든 로캘[^1] • ≤ 300MB 및/또는 ≤ 2시간: 거의 실시간으로
• > 300MB 및 >2시간 ≤ 4시간: 일반
여러 로캘 ≤ 1GB 및/또는 ≤ 4시간 단일 언어 전사(언어 감지 기반) 지원되는 모든 로캘[^1] • ≤ 300MB 및/또는 ≤ 2시간: 거의 실시간으로
• > 300MB 및 >2시간 ≤ 4시간: 일반

[^1]: Content Understanding은 텍스트 언어에 대한 Azure AI Speech Speech의 전체 집합을 지원합니다. 빠른 전사 기능이 지원되는 언어의 경우, 파일이 300MB 이하이거나 2시간 이하인 경우 전사 시간이 크게 줄어듭니다.

  • 전사. 대화형 오디오를 WebVTT 형식의 검색 가능하고 분석 가능한 텍스트 기반 대본으로 변환합니다. 기록 데이터에서 사용자 지정 가능한 필드를 생성할 수 있습니다. 요청 시 문장 수준 및 단어 수준 타임스탬프를 사용할 수 있습니다.

  • 다이어리화. 대화의 화자를 구분하여 대본의 일부를 특정 화자의 특성으로 지정합니다.

  • 화자 역할 검색. 연락처 센터 통화 데이터 내에서 에이전트 및 고객 역할을 식별합니다.

  • 다국어 전사. 각 문장마다 언어/로캘을 적용하여 다국어 기록을 생성합니다. 언어 감지에서 벗어나는 이 기능은 언어/로캘이 지정되지 않거나 언어가 로 설정 auto될 때 활성화됩니다.

비고

다국어 전사를 사용하는 경우 지원되지 않는 로캘이 있는 모든 파일은 지원되는 가장 가까운 로캘을 기반으로 결과를 생성합니다. 이는 올바르지 않을 수 있습니다. 이 결과는 알려진 동작입니다. 다국어 전사를 지원하는 로캘을 사용하지 않을 때 로캘을 미리 구성하여 전사 품질 문제를 방지하세요.

  • 언어 감지. 파일을 전사하는 데 사용되는 주요 언어/로캘을 자동으로 검색합니다. 언어 감지를 사용하도록 여러 언어/로캘을 설정합니다.

필드 추출

필드 추출을 사용하면 통화 로그에서 요약, 감정 및 언급된 엔터티와 같은 오디오 파일에서 구조화된 데이터를 추출할 수 있습니다. 먼저 제안된 분석기 템플릿을 사용자 지정하거나 처음부터 만들 수 있습니다.

주요 이점

다음을 포함한 고급 오디오 기능:

  • 사용자 지정 가능한 데이터 추출 필드 스키마를 수정하여 정확한 데이터 생성 및 추출을 허용하여 특정 요구 사항에 맞게 출력을 조정합니다.

  • 생성 모델. 생성 AI 모델을 활용하여 추출하려는 콘텐츠를 자연어로 지정하고 서비스에서 원하는 출력을 생성합니다.

  • 통합 전처리. 전사, 일지화 및 역할 검색과 같은 기본 제공 전처리 단계를 통해 생성 모델에 풍부한 컨텍스트를 제공합니다.

  • 시나리오 적응성. 사용자 지정 필드를 생성하여 요구 사항에 맞게 서비스를 조정하고 관련 데이터를 추출합니다.

미리 빌드된 오디오 분석기

미리 빌드된 분석기를 사용하면 분석기 설정을 만들 필요 없이 오디오 콘텐츠에 대한 중요한 인사이트를 추출할 수 있습니다.

모든 오디오 분석기는 스피커로 구분된 표준 WEBVTT 형식으로 대본을 생성합니다.

비고

미리 구성된 분석기는 다국어 전사를 사용하고 returnDetails 기능이 활성화됩니다.

다음과 같은 미리 빌드된 분석기를 사용할 수 있습니다.

호출 후 분석(미리 빌드된 callCenter). 통화 녹음을 분석하여 결과를 생성:

  • 화자 역할 검색 결과를 사용하는 대화 대본
  • 통화 요약
  • 감정 호출
  • 언급된 상위 5개 문서
  • 언급된 회사 목록
  • 언급된 사용자 목록(이름 및 제목/역할)
  • 관련 통화 범주 목록

예제 결과:

{
  "id": "bc36da27-004f-475e-b808-8b8aead3b566",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-callCenter",
    "apiVersion": "2025-05-01-preview",
    "createdAt": "2025-05-06T22:53:28Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
          },
          "Topics": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Point balance inquiry"
              },
              {
                "type": "string",
                "valueString": "Identity confirmation"
              },
              {
                "type": "string",
                "valueString": "Customer service"
              }
            ]
          },
          "Companies": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Contoso"
              }
            ]
          },
          "People": {
            "type": "array",
            "valueArray": [
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "John Doe"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Agent"
                  }
                }
              },
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "Maria Smith"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Customer"
                  }
                }
              }
            ]
          },
          "Sentiment": {
            "type": "string",
            "valueString": "Positive"
          },
          "Categories": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Business"
              }
            ]
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Agent",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Customer",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

대화 분석(미리 빌드된 audioAnalyzer). 기록을 분석하여 생성합니다.

  • 대화 내용
  • 대화 요약

예제 결과:

{
  "id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-audioAnalyzer",
    "apiVersion": "2025-05-01-preview",
    "createdAt": "2025-05-06T23:00:12Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Speaker 1",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Speaker 2",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

사용자 지정 필드를 정의하여 출력을 보다 세밀하게 제어하기 위해 미리 빌드된 분석기를 사용자 지정할 수도 있습니다. 사용자 지정을 사용하면 생성 모델의 모든 기능을 사용하여 오디오에서 심층 인사이트를 추출할 수 있습니다. 예를 들어 사용자 지정을 사용하면 다음을 수행할 수 있습니다.

  • 다른 인사이트를 생성합니다.
  • 필드 추출 출력의 언어를 제어합니다.
  • 전사 동작을 구성합니다.

대화형 지식 마이닝 솔루션 가속기

Speech Analytics 솔루션에 대한 엔드-투-엔드 빠른 시작 가이드는 대화 지식 마이닝 솔루션 가속기를 참조하세요.

주요 테마, 패턴 및 관계를 식별하여 대량의 대화형 데이터에서 실행 가능한 인사이트를 얻습니다. 이 솔루션은 Azure AI Foundry, Azure AI Content Understanding, Azure AI Foundry 모델의 Azure OpenAI 및 Azure AI Search를 사용하여 구조화되지 않은 대화를 분석하고 의미 있고 구조화된 인사이트에 매핑합니다.

토픽 모델링, 핵심 구 추출, 음성 텍스트 변환 전사 및 대화형 채팅과 같은 기능을 통해 사용자는 데이터를 자연스럽게 탐색하고 더 빠르고 정보에 입각한 의사 결정을 내릴 수 있습니다.

많은 양의 대화형 데이터를 사용하는 분석가는 이 솔루션을 사용하여 자연어 상호 작용을 통해 인사이트를 추출할 수 있습니다. 고객 지원 추세 식별, 컨택 센터 품질 개선 및 운영 인텔리전스 발견과 같은 작업을 지원합니다. 이를 통해 팀은 패턴을 파악하고 피드백을 처리하며 정보에 입각한 의사 결정을 더 빠르게 내릴 수 있습니다.

입력 요구 사항

지원되는 오디오 형식의 자세한 목록은 서비스 제한 및 코덱을참조하세요.

지원되는 언어 및 지역

지원되는 지역, 언어 및 로캘의 전체 목록은 언어 및 지역 지원을 참조하세요.

데이터 개인 정보 보호 및 보안

이 서비스를 사용하는 개발자는 고객 데이터에 대한 Microsoft의 정책을 검토해야 합니다. 자세한 내용은 데이터, 보호 및 개인 정보를참조하세요.

다음 단계