Speaker Recognition

아티클
08/05/2023

Azure AI Services - Speech Service 스피커 인식은 고유한 음성 특성으로 스피커를 확인하고 식별하는 알고리즘을 제공합니다. 화자 인식은 "누가 말하는가?"라는 질문에 대답하는 데 사용됩니다. 자세히 알아보세요.

음성에는 개인과 연관지을 수 있는 고유한 특징이 있습니다. Speaker Recognition 기술의 두 가지 주요 애플리케이션에 대해 Speaker Verification API 및 Speaker Identification API를 제공합니다.

화자 검증

화자 검증은 텍스트 종속적이거나 텍스트 독립적일 수 있습니다. 텍스트 종속 검증을 사용하려면 화자가 등록 및 확인 단계에서 사용할 동일한 암호를 선택해야 합니다. 음성 콘텐츠와 음성 서명을 모두 확인하면 다단계 확인 시나리오가 용이합니다. 텍스트 독립적 확인은 화자가 등록 및 확인 문구에서 일상적인 언어로 말할 수 있는 것을 의미합니다.

텍스트 종속 화자 확인

화자 등록 단계에서는 미리 정의된 구 집합의 암호를 말하여 화자의 음성을 녹음합니다. 음성 기능은 오디오 녹음에서 추출되어 선택한 암호를 인식하는 동안 고유한 음성 서명을 형성합니다. 음성 서명과 암호를 함께 사용하여 화자를 확인합니다.

확인 단계에서 확인할 개인과 연결된 ID는 화자 확인 API로 전송됩니다. 화자 확인 서비스는 입력 음성 녹음에서 음성 기능 및 암호를 추출합니다. 그런 다음 음성 기능과 암호를 해당 화자의 등록 프로필과 비교합니다.

응답은 유사성 점수가 0에서 1 사이의 "수락" 또는 "거부"를 반환합니다. "수락" 또는 "거부" 응답은 화자 확인 결과와 음성 인식 결과를 결합한 결과이며 유사성 점수는 음성 유사성만 측정합니다. 음성 인식 결과가 등록 구와 일치하고 음성 유사성 점수가 0.5보다 크거나 같으면 "수락"을 반환합니다. 그러나 사용 중인 시나리오 및 기타 확인 요인에 따라 결과를 결정해야 합니다. 사용자 고유의 데이터를 실험하고 임계값을 결정하여 "수락" 또는 "거부" 응답을 적절하게 재정의하는 것이 좋습니다.

현재 버전의 텍스트 종속 화자 확인 API에서는 화자가 선택할 수 있는 10개의 영어 구를 제공합니다.

나는 그에게 그가 거절할 수 없는 제안을 할 것이다.
휴스턴에는 문제가 있었습니다.
내 목소리는 내 여권이 나를 확인하는 것입니다.
사과 주스는 치약 후 재미 맛.
암호 없이 로그인할 수 있습니다.
이제 보안 시스템을 활성화할 수 있습니다.
내 목소리는 암호보다 강하다.
내 암호는 비즈니스가 아닙니다.
내 이름은 알 수 없습니다.
다른 모든 사람들이 이미 찍은 자신을"

텍스트 독립적 화자 확인 API 및 음성 텍스트 변환 API에 별도의 요청을 전송하여 고유한 암호를 만들 수 있습니다. 화자 확인 결과와 음성 인식 결과를 결합하여 화자의 ID를 확인할 수 있습니다.

이 API는 오디오가 실제 사용자의 것인지 또는 등록된 화자를 흉내낸 것인지 또는 녹음된 것인지를 결정하기 위한 것이 아닙니다. 스피커가 읽을 임의의 구를 생성하는 것은 재생 공격을 방지하는 데 효과적인 것으로 간주됩니다.

텍스트 독립 화자 확인

화자 확인은 텍스트에 독립적일 수도 있습니다. 즉, 스피커가 오디오에서 말하는 내용에 제한이 없습니다.

등록 단계에서 음성 기능은 스피커의 오디오에서 추출되어 고유한 음성 서명을 형성합니다.

확인 단계에서 확인할 개인과 연결된 오디오 및 ID가 화자 확인 API로 전송됩니다. 화자 확인 서비스는 입력 음성 녹음에서 음성 기능을 추출합니다. 그런 다음, 해당 화자의 등록 프로필에서 음성 서명과 음성 기능을 비교합니다.

응답은 유사성 점수가 0에서 1 사이의 "수락" 또는 "거부"를 반환합니다. 유사성 점수가 0.5보다 크거나 같으면 "수락" 응답이 반환됩니다. 그러나 사용 중인 시나리오 및 기타 확인 요인에 따라 결과를 결정해야 합니다. 사용자 고유의 데이터를 실험하고 임계값을 결정하여 "수락" 또는 "거부" 응답을 적절하게 재정의하는 것이 좋습니다.

이 API는 오디오가 실제 사용자의 것인지 또는 등록된 화자를 흉내낸 것인지 또는 녹음된 것인지를 결정하기 위한 것이 아닙니다.

화자 식별

화자 식별은 후보 연사 집합 중 알 수 없는 음성의 ID를 결정하는 작업입니다. Speaker Identification API는 제공된 ID 목록에 대한 유사성 점수를 기반으로 "가장 일치하는 항목" 목록을 반환합니다. Speaker Identification API는 등록 및 인식에서 말한 내용을 비교하지 않으므로 텍스트와 독립적입니다.

텍스트 독립 화자 식별

화자 식별 등록은 텍스트와 관련이 없으므로 화자가 오디오에서 말하는 내용에 대한 제한이 없습니다. 암호는 필요하지 않습니다. 등록 단계에서 화자의 음성이 녹음되고, 고유한 음성 서명을 구성하기 위해 음성 특징이 추출됩니다.

식별 단계에서 화자 식별 서비스는 입력 음성 녹음에서 음성 특징을 추출합니다. 그런 다음, 지정된 화자 목록의 등록 데이터에서 음성 서명과 기능을 비교합니다(각 요청에서 최대 50명의 후보 화자). 응답에는 식별된 ID 1개와 유사성 점수가 0~1인 상위 순위 ID 5개가 포함되었습니다. 식별된 ID는 가장 일치하는 화자의 유사성 점수에 따라 결정됩니다. 후보 화자가 0.5보다 크거나 같은 유사성 점수를 반환하지 않으면 응답은 "일치하는 항목을 찾을 수 없음"을 나타내는 0 문자열을 반환합니다. 그러나 결과는 시나리오 및 사용 중인 다른 요인에 따라 결정되어야 합니다. 데이터를 실험하고 임계값을 결정하여 기본 "일치 또는 일치 안 함"을 적절하게 재정의하는 것이 좋습니다.