화자 인식이란?

화자 인식은 오디오 클립에서 말하는 사람을 결정하는 데 도움이 될 수 있습니다. 이 서비스는 음성 생체 측정을 사용하여 말하는 사람의 고유한 음성 특성으로 말하는 사람을 확인하고 식별할 수 있습니다.

단일 화자에 대한 오디오 학습 데이터를 제공하면 해당 화자 음성의 고유한 특성을 기반으로 등록 프로필이 생성됩니다. 그런 다음, 이 프로필과 오디오 음성 샘플을 비교 확인하여 화자가 동일한 사람인지 확인할 수 있습니다(화자 검증). 등록된 화자 프로필 그룹에 대해 오디오 음성 샘플을 교차 확인하여 그룹의 프로필(화자 식별)과 일치하는지 확인할 수도 있습니다.

중요

Microsoft에서는 화자 인식에 대한 액세스를 제한합니다. Azure Cognitive Services 화자 인식 제한된 액세스 검토를 통해 액세스를 신청할 수 있습니다. 자세한 내용은 화자 인식에 대한 제한된 액세스를 참조하세요.

화자 검증

화자 검증은 암호 또는 자유 형식의 음성 입력을 사용하여 등록된 화자의 ID를 확인하는 프로세스를 간소화합니다. 예를 들어, 콜센터에서 고객 ID 검증 또는 비접촉 시설 액세스에 사용할 수 있습니다.

화자 검증 작동 방법

다음 순서도는 작동 방식에 대한 시각적 개체를 제공합니다.

화자 검증 작동 방식을 보여 주는 순서도.

화자 검증은 텍스트 종속적이거나 텍스트 독립적일 수 있습니다. 텍스트 종속 검증은 화자가 등록 및 확인 단계에서 사용할 동일한 암호를 선택해야 함을 의미합니다. 텍스트 독립 검증은 화자가 등록 및 확인 문구를 일상적인 언어로 말할 수 있음을 의미합니다.

텍스트 종속 검증의 경우 사전 정의된 구문 집합의 암호를 말하여 화자의 음성을 등록합니다. 음성 기능은 오디오 녹음에서 추출되어 고유한 음성 서명을 구성하며 선택한 암호도 인식됩니다. 음성 서명과 암호를 함께 사용하여 화자를 확인합니다.

텍스트에 대한 독립성 확인은 등록을 활성화하기 위한 초기 활성화 구 외에 등록 중에 말하는 사람이 말하는 내용에 제한이 없습니다. 음성 특징만 추출하여 유사성을 평가하므로 검증할 오디오 샘플에 대한 제한이 없습니다.

이 API는 오디오가 실제 사용자의 것인지 또는 등록된 화자를 흉내낸 것인지 또는 녹음에서 나온 것인지를 확인하기 위한 것이 아닙니다.

화자 식별

화자 식별은 등록된 화자 그룹 내에서 알 수 없는 화자의 신원을 확인하는 데 도움이 됩니다. 화자 식별을 사용하면 음성을 개별 화자에게 부여할 수 있으므로 다음과 같이 여러 화자가 있는 시나리오에서 유용합니다.

  • 원격 회의 생산성을 위한 지원 솔루션.
  • 다중 사용자 디바이스 개인 설정 빌드.

화자 식별 작동 방법

화자 식별 등록은 텍스트와 독립적입니다. 등록을 활성화하기 위한 초기 활성화 구 외에 화자가 오디오에서 말하는 내용에는 제한이 없습니다. 화자 검증과 마찬가지로 등록 단계에서 말하는 사람의 음성을 녹음하고 음성 특징을 추출하여 고유한 음성 서명을 형성합니다. 식별 단계에서는 입력된 음성 샘플이 등록된 음성의 지정된 목록(각 요청마다 최대 50개)과 비교됩니다.

데이터 보안 및 개인 정보

스피커 등록 데이터는 등록용 음성 오디오 및 음성 서명 기능을 포함하여 보안 시스템에 저장됩니다. 등록용 음성 오디오는 알고리즘이 업그레이드된 경우에만 사용되며 특징을 다시 추출해야 합니다. 서비스는 인식 단계 동안 서비스로 전송되는 음성 녹음 또는 추출된 음성 특징을 보관하지 않습니다.

데이터 보존 기간은 사용자가 제어합니다. API 호출을 통해 개별 화자의 등록 데이터를 생성, 업데이트 및 삭제할 수 있습니다. 구독이 삭제되면 구독과 연결된 모든 화자 등록 데이터도 삭제됩니다.

모든 Cognitive Services 리소스와 마찬가지로 화자 인식을 사용하는 개발자는 고객 데이터에 대한 Microsoft 정책을 알고 있어야 합니다. 사용자로부터 적절한 권한을 받았는지 확인해야 합니다. 자세한 내용은 화자 인식을 위한 데이터 및 개인 정보 보호를 참조하세요. 자세한 내용은 Microsoft Trust Center의 Cognitive Services 페이지를 참조하세요.

일반적인 질문 및 솔루션

질문 해결 방법
화자 인식을 사용할 가능성이 가장 높은 상황은 무엇인가요? 콜 센터 고객 검증, 음성 기반 환자 체크 인, 회의 전사, 다중 사용자 디바이스 개인 설정이 좋은 예입니다.
식별과 검증의 차이점은 무엇인가요? 식별은 화자 그룹에서 어떤 구성원이 말하고 있는지 감지하는 프로세스입니다. 검증은 화자가 등록된 알려진 음성과 일치하는지 확인하는 작업입니다.
어떤 언어가 지원되나요? 화자 인식 언어 지원을 참조하세요.
어떤 Azure 지역이 지원되나요? 화자 인식 지역 지원을 참조하세요.
지원되는 오디오 형식은 무엇인가요? Mono 16비트, 16kHz PCM으로 인코딩된 WAV.
한 명의 화자를 여러 번 등록할 수 있나요? 예, 텍스트 종속 검증의 경우 최대 50번까지 화자를 등록할 수 있습니다. 텍스트 독립 검증 또는 화자 식별의 경우 최대 300초의 오디오를 등록할 수 있습니다.
Azure에는 어떤 데이터가 저장되나요? 등록 오디오는 음성 프로필을 삭제할 때까지 서비스에 저장됩니다. 인식 오디오 샘플은 유지되거나 저장되지 않습니다.

다음 단계