다음을 통해 공유


투명성 메모

중요합니다

영어가 아닌 번역은 편의를 위해서만 제공됩니다. 최종 버전은 이 문서의 EN-US 버전을 참조하세요.

AI 시스템에는 기술뿐만 아니라 기술을 사용하는 사람, 영향을 받는 사람, 배포되는 환경이 포함됩니다. 의도한 목적에 맞는 시스템을 만들려면 기술의 작동 방식, 기능 및 제한 사항, 최상의 성능을 달성하는 방법에 대한 이해가 필요합니다.

Microsoft는 AI 기술의 작동 방식을 이해하는 데 도움이 되는 투명성 고지를 제공합니다. 여기에는 시스템 성능 및 동작, 기술, 사람, 환경을 포함하는 전체 시스템에 대한 사고의 중요성에 영향을 줄 수 있는 시스템 소유자가 할 수 있는 선택이 포함됩니다. 투명성 고지는 자체 시스템을 개발 또는 배포할 때 사용하거나 시스템을 사용하거나 시스템의 영향을 받을 사람들과 공유할 수 있습니다.

투명성 고지는 AI 원칙을 실천하기 위한 Microsoft의 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft의 AI 원칙을 참조하세요.

발음 평가 소개

발음 평가 API는 음성 발음을 평가하기 위해 오디오 입력을 사용하고 음성 오디오의 정확성, 유창성 및 완전성에 대한 발표자 피드백을 제공합니다. 발음 평가 기능에는 음성 발음, 어휘 사용, 문법 정확성 및 주제 이해의 다양한 측면에 대한 보다 포괄적인 피드백이 포함되어 있어 언어 기술에 대한 자세한 평가를 제공합니다. 스크립팅된 평가와 스크립트되지 않은 평가가 모두 지원되므로 발음 및 언어 숙련도를 더 쉽게 평가할 수 있습니다. 발음 평가는 광범위한 언어를 지원합니다.

발음 평가를 통해 언어 학습자는 자신 있는 말과 프레젠테이션을 할 수 있도록 연습하고, 즉각적인 피드백을 받고, 발음을 개선할 수 있습니다. 교육자는 발음 평가를 사용하여 여러 화자의 발음을 실시간으로 평가할 수 있습니다.

발음 평가의 기본 사항

발음 평가 API는 네이티브 전문가가 수행한 음성 평가와 밀접하게 일치하는 기계 학습 기반 접근 방식을 사용하여 음성 평가 결과를 제공합니다. 발음, 유창성, 발음, 어휘 사용, 문법 정확성 및 주제 이해에 대한 귀중한 피드백을 제공하여 언어 능력을 향상시키고 새로운 언어로 자신있게 의사 소통할 수 있도록 도와줍니다. 발음 평가 모델은 원어민의 100,000시간 이상의 음성 데이터로 학습되었습니다. 사용자가 참조 텍스트와 비교하여 구를 놓치거나 반복하거나 추가할 때 정확한 결과를 제공할 수 있습니다. 또한, 구성 매개 변수를 통해 API를 유연하게 사용할 수 있으며, 평가에서 정보의 세분성을 변경하기 위해 분성을 설정하는 등의 기능을 지원합니다. (자세한 내용은 샘플 코드에서 자세히 참조하세요.)

발음 평가는 발음 및 콘텐츠의 여러 측면인 정확도, 유창성, 완전성, 발음, 어휘 사용, 문법 정확성 및 토픽 이해를 평가합니다. 또한 여러 수준의 세분성에서 평가를 제공하고 특정 음소, 음절, 단어, 문장 또는 전체 문서에 대한 정확도 점수를 반환합니다. 자세한 내용은 발음 평가 기능에 Speech SDK를 사용하는 방법을 참조하세요.

다음 표에서는 주요 결과를 설명합니다. 자세한 내용은 전체 응답 매개 변수를 참조하세요. NLP(자연어 처리) 기술과 EnableMiscue 설정을 사용하여 발음 평가는 참조 텍스트와 비교할 때 추가, 누락 또는 반복 단어와 같은 오류를 감지할 수 있습니다. 이 정보는 진단 정보로 사용할 보다 정확한 점수를 얻는 데 도움이 됩니다. 이 기능은 긴 텍스트 단락에 유용합니다.

매개 변수 설명
AccuracyScore 음성의 발음 정확도 정확도는 음소가 원어민의 발음에 얼마나 근접하게 일치하는지를 나타냅니다. 음절, 단어 및 전체 텍스트 정확도 점수는 음소 수준 정확도 점수에서 집계되고 평가 목표를 사용하여 구체화됩니다.
FluencyScore 지정된 음성의 능숙도입니다. 능숙도는 음성이 원어민이 사용하는 단어 사이의 무음 분리에 얼마나 근접하게 일치하는지를 나타냅니다.
CompletenessScore 입력 참조 텍스트에 대한 발음 단어의 비율로 계산된 음성의 완전성입니다.
ProsodyScore 지정된 연설의 운율. 운율은 강세, 억양, 말하기 속도 및 리듬을 포함하여 주어진 음성이 얼마나 자연스러운지를 나타냅니다.
PronScore 지정된 음성의 발음 품질을 나타내는 전체 점수입니다. 이는 AccuracyScore, FluencyScore 및 CompletenessScore에서 가중치로 집계됩니다.
ErrorType 이 값은 ReferenceText에 비해 단어가 생략되었거나, 삽입되었거나, 잘못 발음되었거나, 불필요한 중단과 함께 잘못 삽입되었거나, 문장 부호에서 중단이 누락되었거나, 발화가 단조롭게 상승, 하강 또는 평평한지를 나타냅니다. 가능한 값은 None (이 단어에 오류가 없음), Omission, Insertion, Mispronunciation, UnexpectedBreakMissingBreakMonotone.

발음 평가에서 반환된 또 다른 매개 변수 집합은 오프셋 및 기간("타임스탬프"라고 함)입니다. 음성 타임스탬프는 구조적 JSON 형식으로 반환됩니다. 발음 평가는 각 음소에서 발음 오류를 계산할 수 있습니다. 발음 평가는 입력 오디오의 특정 타임스탬프에 오류 플래그를 지정할 수도 있습니다. 애플리케이션을 개발하는 고객은 신호를 사용하여 학생들이 여러 가지 방법으로 오류에 집중할 수 있도록 학습 경로를 제공할 수 있습니다. 예를 들어 애플리케이션은 원래 음성을 강조 표시하거나, 오디오에 회신하여 표준 발음과 비교하거나, 연습할 유사한 단어를 추천할 수 있습니다.

매개 변수 설명
상쇄 인식된 음성이 오디오 스트림에서 시작하는 시간(100나노초 단위)입니다.
기간 오디오 스트림에서 인식된 음성의 기간(100나노초 단위)입니다.

사용 사례 예

발음 평가는 원격 학습, 시험 연습 또는 발음 피드백을 요구하는 다른 시나리오에 사용할 수 있습니다. 다음 예제는 배포되거나 발음 평가를 사용하여 고객을 위해 디자인한 사용 사례입니다.

  • 교육 서비스 공급자: 공급자는 발음 평가를 사용하여 애플리케이션을 빌드하여 학생들이 실시간 피드백을 통해 원격으로 언어 학습을 연습할 수 있도록 지원합니다. 이 사용 사례는 애플리케이션이 실시간 피드백을 지원해야 하는 경우에 일반적입니다. 즉각적인 피드백을 위해 오디오 파일에 대한 스트리밍 업로드 를 지원합니다.
  • 게임 교육: 예를 들어 앱 개발자는 게임의 포괄적인 수업과 최신 음성 기술을 결합하여 아이들이 영어를 배울 수 있도록 지원하여 언어 학습 앱을 빌드할 수 있습니다. 이 프로그램은 말하기, 읽기 및 듣기와 같은 다양한 영어 기술을 다룰 수 있으며, 영어를 배우는 아이들을 지원하는 데 사용되는 발음 평가를 통해 문법과 어휘에 대해 어린이를 교육할 수 있습니다. 이러한 여러 학습 형식은 아이들이 재미있는 학습 스타일에 따라 쉽게 영어를 배울 수 있도록 합니다.
  • 커뮤니케이션 앱의 교육: Microsoft Teams 읽기 진행률은 교사가 생략, 삽입 및 잘못된 발음에 대한 자동 검색 지원을 통해 학생의 말하기 과제를 평가하는 데 도움을 줍니다. 또한 학생들이 숙제를 제출하기 전에 발음을 더 편리하게 연습할 수 있습니다. Microsoft Teams의 Speaker Progress 기능은 학습 발전 도구로서 학생들이 프레젠테이션 및 대중 연설 기술을 개발하는 데에도 도움을 줄 수 있습니다.

다른 사용 사례를 선택할 때의 고려 사항

학교와 조직이 새로운 연결 방법과 교육 방법에 적응함에 따라 온라인 학습은 빠르게 성장했습니다. 음성 기술은 모든 배경을 가진 학생들이 원거리 학습을 보다 매력적이고 쉽게 이용할 수 있도록 하는 데 중요한 역할을 할 수 있습니다. 개발자는 Azure AI 서비스를 사용하여 애플리케이션에 음성 기능을 빠르게 추가하여 온라인 학습에 생명을 불어넣을 수 있습니다.

언어 학습의 한 가지 핵심 요소는 발음 기술을 향상시키는 것입니다. 새로운 언어 학습자의 경우 발음을 연습하고 적시에 피드백을 받는 것이 더 유창한 화자가 되기 위해서는 필수적입니다. 언어 학습에서 학습자 또는 학생을 지원하려는 솔루션 공급자의 경우 발음 평가를 사용하여 언제 어디서나 연습할 수 있는 기능이 이 시나리오에 적합합니다. 또한 교사를 위한 가상 도우미로 통합되고 효율성을 개선하는 데 도움이 될 수 있습니다.

다음 권장 사항은 발음 평가를 신중하게 사용해야 하는 사용 사례와 관련이 있습니다.

  • 공식 시험 시나리오에 대한 휴먼 인 더 루프를 포함합니다. 발음 평가 시스템은 AI 시스템에 의해 구동되며 음성 품질 및 배경 소음과 같은 외부 요인은 정확도에 영향을 미칠 수 있습니다. 공식 시험에서 사람이 개입된 방식은 평가 결과가 예상대로 보장되도록 합니다.
  • 시나리오당 다른 임계값을 사용하는 것이 좋습니다. 현재 발음 평가 점수는 모델을 학습하는 데 사용되는 네이티브 스피커와의 유사성 거리만 나타냅니다. 이러한 유사성 거리는 규칙 기반 조건 또는 가중 계산을 사용하여 다양한 시나리오에 매핑되어 발음 피드백을 제공할 수 있습니다. 예를 들어, 어린이 학습에 대한 채점 방법은 성인 학습만큼 엄격하지 않을 수 있습니다. 성인 학습에서는 더 높은 발음 오류 감지 임계값을 설정하는 것이 권장됩니다.
  • 오차를 고려하는 기능 고려: 시나리오에서 긴 단락을 읽는 경우 사용자는 실수 없이 참조 텍스트를 따르기가 어려울 수 있습니다. 누락, 삽입 및 반복을 포함한 이러한 실수는 오차로 계산됩니다. EnableMiscue를 사용하면 발음된 단어가 참조 텍스트와 비교되고 비교에 따라 생략, 삽입, 반복으로 표시됩니다.

법률 및 규제 고려 사항: 조직은 모든 업계 또는 시나리오에서 사용하기에 적합하지 않을 수 있는 AI 서비스 및 솔루션을 사용할 때 잠재적인 특정 법률 및 규제 의무를 평가해야 합니다. 또한 AI 서비스나 솔루션은 해당 서비스 약관 및 관련 행동 강령에서 금지하는 방식으로 설계되지 않았으며, 그러한 방식으로 사용될 수 없습니다.