음성 텍스트 변환이란?

이 개요에서는 Azure AI 서비스의 일부인 음성 서비스의 음성 텍스트 변환 기능의 이점과 기능에 대해 알아봅니다. 음성 텍스트 변환은 오디오 스트림을 실시간으로 또는 일괄적으로 텍스트로 기록하는 데 사용할 수 있습니다.

참고 항목

실시간일괄 기록의 가격 책정을 비교하려면 음성 서비스 가격 책정을 참조하세요.

지원되는 음성 텍스트 변환 언어의 전체 목록은 언어 및 음성 지원에서 확인할 수 있습니다.

실시간 음성 텍스트 변환

실시간 음성 텍스트 변환을 사용하면 마이크나 파일에서 음성이 인식될 때 오디오의 대화 내용이 기록됩니다. 다음과 같이 실시간으로 오디오의 대화 내용을 기록해야 하는 애플리케이션에 실시간 음성 텍스트 변환 기능을 사용하세요.

  • 실시간 모임을 위한 대화 내용 기록, 캡션 또는 자막
  • 일기화
  • 발음 평가
  • 고객 센터 에이전트 지원
  • 받아쓰기
  • 음성 에이전트

실시간 음성 텍스트 변환은 Speech SDKSpeech CLI를 통해 사용할 수 있습니다.

전사 일괄 처리

일괄 대화 내용 기록은 저장소에 있는 많은 양의 오디오 대화 내용을 기록하는 데 사용됩니다. SAS(공유 액세스 서명) URI가 있는 오디오 파일을 가리키고 비동기적으로 전사 결과를 받을 수 있습니다. 다음과 같이 오디오를 대량으로 대화 내용 기록해야 하는 애플리케이션에는 일괄 대화 내용 기록을 사용하세요.

  • 사전 녹음된 오디오의 대화 내용 기록, 캡션 또는 자막
  • 고객 센터 사후 통화 분석
  • 화자 분리

일괄 대화 내용 기록은 다음을 통해 사용할 수 있습니다.

사용자 지정 음성

사용자 지정 음성을 사용하면 애플리케이션 및 제품에 대한 음성 인식의 정확도를 평가하고 개선할 수 있습니다. 사용자 지정 음성 모델은 실시간 음성 텍스트 변환, 음성 번역일괄 대화 기록에 사용할 수 있습니다.

호스트된 배포 엔드포인트의 경우 사용자 지정 음성을 일괄 대화 내용 기록 API와 함께 사용할 필요가 없습니다. 사용자 지정 음성 모델이 일괄 대화 내용 기록에만 사용되는 경우 리소스를 보존할 수 있습니다. 자세한 내용은 Speech Service 가격 책정을 참조하세요.

기본적으로 음성 인식은 유니버설 언어 모델을 Microsoft 소유의 데이터로 학습되고 일반적으로 사용되는 구어를 반영하는 기본 모델로 활용합니다. 기본 모델은 다양한 공통 도메인을 나타내는 방언 및 음성학으로 미리 학습됩니다. 음성 인식을 요청하면 기본적으로 각 지원되는 언어에 대한 최신 기본 모델이 사용됩니다. 기본 모델은 대부분의 음성 인식 시나리오에서 잘 작동합니다.

사용자 지정 모델을 사용하면 모델을 학습시키는 텍스트 데이터를 제공함으로써 기본 모델을 보강하여 애플리케이션과 관련된 도메인별 어휘의 인지를 개선할 수 있습니다. 또한 오디오 데이터에 참조 전사를 제공하여 애플리케이션의 특정 오디오 조건에 따른 인지를 개선하는 데 사용할 수 있습니다. 자세한 내용은 사용자 지정 음성Speech-to-text REST API를 참조하세요.

사용자 지정 옵션은 언어 또는 로캘에 따라 다릅니다. 지원을 확인하려면 Speech Service에 대한 언어 및 음성 지원을 참조하세요.

책임 있는 AI

AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 시스템에서의 책임감 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.

다음 단계