화자 인식

Azure AI Services - Speech Service 스피커 인식은 고유한 음성 특성으로 스피커를 확인하고 식별하는 알고리즘을 제공합니다. 화자 인식은 "누가 말하는가?"라는 질문에 대답하는 데 사용됩니다. 자세히알아보세요.

음성에는 개인과 연결할 수 있는 고유한 특성이 있습니다. 우리는 스피커 인식 기술의 두 가지 주요 응용 프로그램에 대한 스피커 확인 API와 스피커 식별 API를 제공합니다.

화자 확인

화자 검증은 텍스트 종속적이거나 텍스트 독립적일 수 있습니다. 텍스트 종속 확인은 화자가 등록 및 확인 단계 모두에서 사용할 동일한 암호를 선택해야 한다는 것을 의미합니다. 음성 콘텐츠와 음성 서명을 모두 확인하면 다단계 인증 시나리오가 용이합니다. 텍스트 독립적 확인은 화자가 등록 및 확인 구문에서 일상적인 언어로 말할 수 있는 것을 의미합니다.

텍스트 종속 화자 확인

화자 등록 단계에서는 미리 정의된 구 집합의 암호를 말함으로써 화자의 음성을 녹음합니다. 음성 기능은 오디오 녹음에서 추출되어 선택한 암호를 인식하는 동안 고유한 음성 서명을 형성합니다. 음성 서명과 암호를 함께 사용하여 스피커를 확인합니다.

확인 단계에서 확인할 개인과 연결된 ID는 화자 확인 API로 전송됩니다. 화자 확인 서비스는 입력 음성 녹음에서 음성 기능 및 암호를 추출합니다. 그런 다음 음성 기능과 암호를 해당 화자의 등록 프로필과 비교합니다.

응답은 유사성 점수가 0에서 1 사이의 "Accept" 또는 "Reject"를 반환합니다. "수락" 또는 "거부" 응답은 화자 확인 결과와 음성 인식 결과를 결합한 결과이며 유사성 점수는 음성 유사성만 측정합니다. 음성 인식 결과가 등록 구와 일치하고 음성 유사성 점수가 0.5보다 크거나 같으면 "수락"을 반환합니다. 그러나 사용 중인 시나리오 및 기타 확인 요인에 따라 결과를 결정해야 합니다. 사용자 고유의 데이터를 실험하고 임계값을 결정하여 "수락" 또는 "거부" 응답을 적절하게 재정의하는 것이 좋습니다.

텍스트 종속 화자 확인 API의 현재 버전에서는 발표자가 선택할 수 있는 10개의 영어 구를 제공합니다.

나는 그에게 그가 거절할 수 없는 제안을 할 것이다.
휴스턴에는 문제가 있었습니다.
내 목소리는 내 여권 확인입니다.
사과 주스는 치약 후 재미 맛.
암호 없이 로그인할 수 있습니다.
이제 보안 시스템을 활성화할 수 있습니다.
내 목소리는 암호보다 강하다.
내 암호는 비즈니스가 아닙니다.
내 이름은 당신에게 알 수 없습니다.
다른 모든 사람이 이미 찍은 자신을"라고 말했다.

텍스트 독립적 화자 확인 API 및 음성 텍스트 변환 API에 별도의 요청을 전송하여 고유한 암호를 만들 수 있습니다. 화자 확인 결과와 음성 인식 결과를 결합하여 화자의 ID를 확인할 수 있습니다.

API는 오디오가 라이브 사용자로부터 온 것인지, 등록된 스피커의 모조인지 또는 녹음 중인지를 확인하기 위한 것이 아닙니다. 스피커가 읽을 임의의 구를 생성하는 것은 재생 공격을 방지하는 데 효과적인 것으로 간주됩니다.

텍스트 독립 화자 확인

화자 확인은 텍스트와 독립적일 수도 있습니다. 즉, 스피커가 오디오에서 말하는 내용에 제한이 없습니다.

등록 단계에서 음성 기능은 스피커의 오디오에서 추출되어 고유한 음성 서명을 형성합니다.

확인 단계에서는 확인할 개인과 연결된 오디오 및 ID가 화자 확인 API로 전송됩니다. 화자 확인 서비스는 입력 음성 녹음에서 음성 기능을 추출합니다. 그런 다음, 해당 화자의 등록 프로필에서 음성 서명과 음성 기능을 비교합니다.

응답은 유사성 점수가 0에서 1 사이의 "Accept" 또는 "Reject"를 반환합니다. 유사성 점수가 0.5보다 크거나 같으면 "수락" 응답이 반환됩니다. 그러나 사용 중인 시나리오 및 기타 확인 요인에 따라 결과를 결정해야 합니다. 사용자 고유의 데이터를 실험하고 임계값을 결정하여 "수락" 또는 "거부" 응답을 적절하게 재정의하는 것이 좋습니다.

API는 오디오가 라이브 사용자로부터 온 것인지, 등록된 스피커의 모조인지 또는 녹음 중인지를 확인하기 위한 것이 아닙니다.

화자 식별

화자 식별은 후보 연사 집합 중 알 수 없는 음성의 ID를 결정하는 작업입니다. Speaker Identification API는 제공된 ID 목록에 대한 유사성 점수를 기반으로 "가장 일치하는 항목" 목록을 반환합니다. Speaker Identification API는 등록 및 인식에서 말한 내용을 비교하지 않으므로 텍스트 독립적입니다.

텍스트 독립 화자 식별

화자 식별 등록은 텍스트 독립적이므로 스피커가 오디오에서 말하는 내용에 제한이 없음을 의미합니다. 암호가 필요하지 않습니다. 등록 단계에서는 화자의 음성이 녹음되고 음성 기능이 추출되어 고유한 음성 서명을 형성합니다.

식별 단계에서 화자 식별 서비스는 입력 음성 녹음에서 음성 기능을 추출합니다. 그런 다음, 지정된 화자 목록(각 요청에서 최대 50명의 후보 화자)의 등록 데이터에서 음성 서명과 기능을 비교합니다. 응답에는 식별된 ID 1개와 유사성 점수가 0에서 1 사이의 상위 순위 ID 5개가 포함되었습니다. 식별된 ID는 가장 일치하는 화자의 유사성 점수에 따라 결정됩니다. 후보 화자 중 어느 누구도 0.5보다 크거나 같은 유사성 점수를 반환하지 않으면 응답은 "일치하는 항목을 찾을 수 없음"을 나타내는 0 문자열을 반환합니다. 그러나 시나리오 및 사용 중인 다른 요인에 따라 결과를 결정해야 합니다. 데이터를 실험하고 임계값을 결정하여 기본 "일치 또는 일치 안 함"을 적절하게 재정의하는 것이 좋습니다.

API는 오디오가 라이브 사용자로부터 온 것인지, 등록된 스피커의 모조인지 또는 녹음 중인지를 확인하기 위한 것이 아닙니다.

또한 참조하십시오

화자 인식이란?

Last updated on 2025-04-01