대화 기록 다중 채널 다이어리화란? (프리뷰)
참고 항목
이 기능은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 사용하지 않는 것이 좋습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
대화 기록 다중 채널 다이어리화는 모든 대화의 실시간 또는 비동기 전사를 제공하는 음성 텍스트 변환 솔루션입니다. 이 기능은 음성 인식, 화자 식별, 문장 특성을 결합하여 대화에서 누가, 언제, 무엇을 말했는지를 파악합니다.
Important
대화 기록 다중 채널 분리(미리 보기)는 2025년 3월 28일에 사용 중지됩니다. 다른 음성 텍스트 변환 기능으로 마이그레이션하는 것에 대한 자세한 내용은 대화 기록 다중 채널 분리에서 마이그레이션을 참조하세요.
대화 전사 다중 채널 다이어리화에서 멀리 마이그레이션
대화 기록 다중 채널 분리(미리 보기)는 2025년 3월 28일에 사용 중지됩니다.
음성 텍스트 변환을 일기로 계속 사용하려면 다음 기능을 대신 사용합니다.
이러한 음성 텍스트 변환 기능은 단일 채널 오디오에 대한 다이어리화만 지원합니다. 대화 전사 다중 채널 분할과 함께 사용한 다중 채널 오디오는 지원되지 않습니다.
주요 특징
다음과 같은 대화 기록 기능이 유용할 수 있습니다.
- 타임스탬프: 각 화자 발화에는 타임스탬프가 있으므로 언제 구문을 이야기했는지 쉽게 찾을 수 있습니다.
- 읽을 수 있는 음성 텍스트: 음성 텍스트에 서식과 문장 부호가 자동으로 추가되어 텍스트가 실제 발화와 근접하게 일치합니다.
- 사용자 프로필: 사용자 음성 샘플을 수집하고 이를 서명 생성으로 전송하여 사용자 프로필을 생성합니다.
- 화자 식별: 사용자 프로필을 사용하여 화자가 식별되고 각각에게 화자 식별자가 할당됩니다.
- 다중 화자 분할: 오디오 스트림과 각 화자 식별자를 합성하여 누가 말을 했는지 파악합니다.
- 실시간 대화 내용 기록 – 대화가 진행되는 동안 누가, 언제, 무슨 말을 했는지에 대한 실시간 음성 텍스트가 제공됩니다.
- 비동기 대화 내용 기록: 다중 채널 오디오 스트림을 사용하여 정확도가 높은 음성 텍스트를 제공합니다.
참고 항목
대화 기록에는 화자 수에 대한 제한이 없지만 세션당 2~10명의 화자에 최적화되어 있습니다.
사용 사례
청각 장애인 및 난청 환자를 포함한 모든 참가자를 포용하는 회의가 되려면 실시간으로 대화 내용 기록을 유지하는 것이 중요합니다. 실시간 모드의 대화 기록에서는 회의 오디오를 사용하고 누가 무슨 말을 하고 있는지 파악하므로 모든 회의 참가자가 음성 텍스트를 팔로우하고 지연 없이 회의에 참여할 수 있습니다.
회의 참가자는 회의에 집중할 수 있으며, 메모를 할 필요가 없습니다. 참가자는 회의 도중 메모를 남기다 내용을 놓치는 대신 음성 텍스트를 활용하여 회의에 적극적으로 참여하고 빠르게 다음 단계를 진행할 수 있습니다.
작동 방식
다음 다이어그램에서는 기능 작동 방식에 대한 개략적인 개요를 보여줍니다.
예상 입력
대화 기록은 다음 두 가지 유형의 입력을 사용합니다.
- 다중 채널 오디오 스트림: 사양 및 설계 세부 정보는 마이크 배열 권장 사항을 참조하세요.
- 사용자 음성 샘플: 화자 식별에 대한 대화에 앞서 대화 기록에 사용자 프로필이 필요합니다. 각 사용자로부터 오디오 녹음을 수집한 다음, 서명 생성 서비스로 녹음을 보내 오디오의 유효성을 검사하고 사용자 프로필을 생성합니다.
음성 서명에 대한 사용자 음성 샘플은 화자 식별에 필요합니다. 음성 샘플이 없는 화자는 미확인으로 인식됩니다. DifferentiateGuestSpeakers
속성이 활성화된 경우 알 수 없는 화자가 계속 차별화될 수 있습니다(다음 예제 참조). 그런 다음, 대화 내용 기록 출력은 화자를 미리 등록된 특정 화자 이름으로 인식하는 대신 Guest_0 및 Guest_1로 표시합니다.
config.SetProperty("DifferentiateGuestSpeakers", "true");
실시간 또는 비동기
다음 섹션에서는 선택할 수 있는 대화 내용 기록 모드에 대해 자세히 설명합니다.
실시간
오디오 데이터가 라이브로 처리되어 화자 식별자와 음성 텍스트를 반환합니다. 대화 내용 기록 솔루션 요구 사항이 회의 참가자에게 진행 중인 회의의 실시간 음성 텍스트 보기를 제공해야 하는 경우 이 모드를 선택합니다. 예를 들어 청각 장애인과 난청이 있는 참가자가 회의에 더 쉽게 참가할 수 있도록 애플리케이션을 빌드하는 것이 실시간 대화 내용 기록의 이상적인 사용 사례입니다.
비동기
오디오 데이터가 일괄 처리되어 화자 식별자와 음성 텍스트를 반환합니다. 대화 내용 기록 솔루션 요구 사항이 실시간 음성 텍스트 보기 없이 더 높은 정확도를 제공하는 것인 경우 이 모드를 선택합니다. 예를 들어 회의 참가자가 놓친 회의 내용을 쉽게 파악할 수 있도록 애플리케이션을 빌드하려면 비동기 대화 내용 기록 모드를 사용하여 정확도가 높은 대화 내용 기록을 얻을 수 있습니다.
실시간 + 비동기
오디오 데이터가 라이브로 처리되어 화자 식별자 및 음성 텍스트를 반환하며, 추가로 비동기 처리를 통해 정확도가 높은 음성 텍스트를 요청합니다. 애플리케이션에 실시간 대화 내용 기록이 필요하고 회의 종료 후 사용하기 위해 정확도가 더 높은 음성 텍스트가 필요한 경우 이 모드를 선택합니다.
언어 및 지역 지원
현재 대화 텍스트 변환은 centralus
, eastasia
, eastus
, westeurope
지역에서 모든 음성-텍스트 언어를 지원합니다.