텍스트 음성 변환이란?

이 개요에서는 Azure AI 서비스의 일부인 Speech Service의 텍스트 음성 변환 기능의 이점과 기능에 대해 알아봅니다.

텍스트 음성 변환을 사용하면 애플리케이션, 도구 또는 디바이스가 텍스트를 사람처럼 합성된 음성으로 변환할 수 있습니다. 텍스트 음성 변환 기능을 음성 합성이라고도 합니다. 즉시 사용 가능한 인간과 유사한 미리 빌드된 인공신경망 음성을 사용하거나 제품 또는 브랜드에 고유한 사용자 지정 신경망 음성을 만듭니다. 지원되는 음성, 언어 및 로캘의 전체 목록은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.

핵심 기능

텍스트 음성 변환에는 다음 기능이 포함됩니다.

기능 요약 데모
미리 빌드된 인공신경망 음성(가격 책정 페이지에서 신경망이라고 함) 매우 자연스러운 즉시 사용 가능한 음성. Azure 계정과 Speech Service 구독을 만든 다음, Speech SDK를 사용하거나 Speech Studio 포털을 방문하여 미리 빌드된 인공신경망 음성을 선택하여 시작합니다. 가격 책정 세부 정보를 확인하세요. 음성 갤러리를 확인하고 비즈니스 요구 사항에 적합한 음성을 확인합니다.
사용자 지정 신경망 음성(가격 책정 페이지에서 사용자 지정 신경망이라고 함) 책임감 있는 사용을 위해 제한된 액세스로 자연스러운 브랜드 보이스를 만들기 위한 사용하기 쉬운 셀프 서비스입니다. Azure 계정 및 Speech Services 구독(S0 계층 포함)을 만들고 사용자 지정 신경망 기능을 사용하도록 신청합니다. 액세스 권한을 부여받은 후 Speech Studio 포털을 방문한 다음, Custom Voice를 선택하여 시작합니다. 가격 책정 세부 정보를 확인하세요. 음성 샘플을 확인하세요.

신경망 텍스트 음성 변환 기능에 대한 자세한 정보

Azure에서 Speech Service의 텍스트 음성 변환 기능이 신경망 텍스트 음성 변환 엔진으로 완전히 업그레이드되었습니다. 이 엔진은 심층 신경망을 사용하여 컴퓨터의 음성을 녹음된 사람의 목소리와 거의 구별할 수 없도록 만듭니다. 단어의 명확한 표현을 통해 인공신경망 텍스트 음성 변환은 사용자가 AI 시스템과 상호 작용할 때 수신 대기 피로를 크게 줄입니다.

구어의 강세와 억양 패턴을 운율이라고 합니다. 기존 텍스트 음성 변환 시스템은 prosody를 독립 모델에 의해 제어되는 별도의 언어 분석 및 음향 예측 단계로 나뉘어 줍니다. 그 결과 희미하고 윙윙거리는 음성 합성이 발생할 수 있습니다.

다음은 Speech Service의 인공신경망 텍스트 음성 변환 기능과 기존 텍스트 음성 변환 시스템의 한계를 극복하는 방법에 대한 자세한 정보입니다.

  • 실시간 음성 합성: Speech SDK 또는 REST API 를 사용하여 미리 빌드된 신경망 음성 또는 사용자 지정 신경망 음성을 사용하여 텍스트를 음성으로 변환합니다.

  • 긴 오디오의 비동기 합성: 일괄 처리 합성 API (미리 보기)를 사용하여 텍스트를 10분 이상 음성 파일에 비동기적으로 합성합니다(예: 오디오 책 또는 강의). Speech SDK 또는 Speech to text REST API를 통해 수행되는 합성과 달리 응답은 실시간으로 반환되지 않습니다. 요청이 비동기적으로 전송되고, 응답이 폴링되며, 서비스에서 사용할 수 있을 때 합성된 오디오가 다운로드될 것으로 예상됩니다.

  • 미리 빌드된 신경망 음성: Microsoft 인공신경망 텍스트 음성 변환 기능은 심층 신경망을 사용하여 음성 언어의 스트레스 및 인톤과 관련하여 기존의 음성 합성의 한계를 극복합니다. 운율 예측 및 음성 합성은 동시에 발생하여 더 부드럽고 자연스럽게 들리는 출력이 생성됩니다. 미리 빌드된 각 신경망 음성 모델은 24kHz 및 고충실도 48kHz에서 사용할 수 있습니다. 인공신경망 음성을 사용하여 다음을 수행할 수 있습니다.

    • 챗봇 및 음성 도우미와의 상호 작용을 보다 자연스럽고 매력적으로 만듭니다.
    • 전자책과 같은 디지털 텍스트를 오디오북으로 변환합니다.
    • 차량 내 내비게이션 시스템을 개선합니다.

    플랫폼 인공신경망 음성의 전체 목록은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.

  • SSML을 사용하여 텍스트-음성 출력 미세 조정: SSML(Speech Synthesis Markup Language)은 텍스트-음성 출력을 사용자 지정하는 데 사용되는 XML 기반 태그 언어입니다. SSML을 사용하면 피치를 조정하고, 중단을 추가하고, 발음을 개선하고, 말하는 속도를 변경하고, 볼륨을 조정하고, 단일 문서에 여러 음성을 지정할 수 있습니다.

    SSML을 사용하여 고유한 어휘를 정의하거나 다른 말하기 스타일로 전환할 수 있습니다. 다국어 음성 기능을 사용하면 SSML을 통해 말하는 언어를 조정할 수도 있습니다. 시나리오에 대한 음성 출력을 미세 조정하려면 Speech Synthesis Markup Language를 사용하여 합성 향상오디오 콘텐츠 만들기 도구를 사용한 음성 합성을 참조하세요.

  • Visemes: Viseme는 특정 음소를 생성할 때 입술, 턱 및 혀의 위치를 포함하여 관찰된 음성의 주요 포즈입니다. Viseme는 음성 및 음소와 강력한 상관 관계가 있습니다.

    Speech SDK에서 viseme 이벤트를 사용하여 얼굴 애니메이션 데이터를 생성할 수 있습니다. 이런 데이터는 독화술 커뮤니케이션, 교육, 엔터테인먼트 및 고객 서비스에서 얼굴 애니메이션에 사용할 수 있습니다. Viseme은 현재 en-US(미국 영어) 인공신경망 음성에 대해서만 지원됩니다.

참고

2024년에는 기존/표준 음성 및 비신경망 사용자 지정 음성을 사용 중지할 계획입니다. 그 후에는 더 이상 지원하지 않습니다.

애플리케이션, 도구 또는 제품이 표준 음성 및 Custom Voice를 사용하는 경우 인공신경망 버전으로 마이그레이션해야 합니다. 자세한 내용은 인공신경망 음성으로 마이그레이션을 참조하세요.

시작하기

텍스트 음성 변환을 시작하려면 빠른 시작을 참조하세요. 음성 변환 텍스트는 Speech SDK, REST APISpeech CLI를 통해 사용할 수 있습니다.

코드 없는 접근 방식을 사용하여 텍스트를 음성으로 변환하려면 Speech Studio에서 오디오 콘텐츠 만들기 도구를 사용해 보세요.

예제 코드

텍스트 음성 변환 샘플 코드는 GitHub에서 사용할 수 있습니다. 이러한 샘플은 가장 인기 있는 프로그래밍 언어로 텍스트 음성 변환을 다룹니다.

사용자 지정 신경망 음성

미리 빌드된 인공신경망 음성 외에도 제품 또는 브랜드 고유의 사용자 지정 신경망 음성을 만들고 미세 조정할 수 있습니다. 몇 가지 오디오 파일과 연결된 대화 내용 기록만 있으면 시작할 수 있습니다. 자세한 내용은 사용자 지정 신경망 음성 시작을 참조하세요.

가격 책정 메모

청구 가능 문자

텍스트 음성 변환 기능을 사용하면 문장 부호를 포함하여 음성으로 변환되는 각 문자에 대한 요금이 청구됩니다. SSML 문서 자체에는 요금이 청구되지 않지만 음소 및 피치 같이 텍스트가 음성으로 변환되는 방법을 조정하는 데 사용되는 선택적 요소는 청구 대상 문자로 계산됩니다. 청구 대상 항목 목록은 다음과 같습니다.

  • 요청의 SSML 본문에 있는 텍스트 음성 변환 기능에 전달된 텍스트
  • <speak><voice> 태그를 제외한 SSML 형식의 요청 본문 텍스트 필드에 있는 모든 태그
  • 문자, 문장 부호, 공백, 탭, 태그 및 모든 공백 문자
  • 유니코드에 정의된 모든 코드 포인트

자세한 내용은 Speech Service 가격 책정을 참조하세요.

중요

각 한자는 2자로 계산되어 청구됩니다(일본어에서 사용되는 한자, 한국어에서 사용되는 한자 또는 다른 언어에서 사용되는 한자를 포함).

사용자 지정 신경망 음성에 대한 모델 학습 및 호스팅 시간

사용자 지정 신경망 음성 학습 및 호스팅은 시간별로 계산되며 초당 요금이 청구됩니다. 청구 단가는 Speech Service 가격 책정을 참조하세요.

CNV(사용자 지정 신경망 음성) 학습 시간은 ‘컴퓨팅 시간‘(컴퓨터 실행 시간을 측정하는 단위)으로 측정됩니다. 일반적으로 음성 모델을 학습시킬 때 두 개의 컴퓨팅 작업이 병렬로 실행됩니다. 따라서 계산된 컴퓨팅 시간은 실제 학습 시간보다 더 깁니다. 평균적으로 CNV Lite 음성을 학습하는 데 1시간 미만의 컴퓨팅 시간이 걸립니다. 하지만 CNV Pro의 경우 일반적으로 단일 스타일 음성을 학습하는 데 20~40시간의 컴퓨팅 시간, 다중 스타일 음성을 학습하는 데 약 90시간의 컴퓨팅 시간이 걸립니다. CNV 학습 시간은 최대 96시간의 컴퓨팅 시간에 대한 요금이 청구됩니다. 따라서 음성 모델이 98시간으로 학습되는 경우 96시간의 컴퓨팅 시간으로만 요금이 청구됩니다.

CNV(사용자 지정 신경망 음성) 엔드포인트 호스팅은 실제 시간(시간)으로 측정됩니다. 각 엔드포인트의 호스팅 시간(시간)은 이전 24시간 동안 매일 00:00 UTC에 계산됩니다. 예를 들어 엔드포인트가 첫날 24시간 동안 활성화된 경우 두 번째 날 00:00 UTC에 24시간에 대한 요금이 청구됩니다. 엔드포인트가 새로 만들어지거나 하루 동안 일시 중단된 경우 두 번째 날 00:00 UTC까지 누적된 실행 시간에 대한 요금이 청구됩니다. 엔드포인트가 현재 호스트되지 않으면 요금이 청구되지 않습니다. 매일 00:00 UTC의 일일 계산 외에도 엔드포인트가 삭제되거나 일시 중단될 때 청구가 즉시 트리거됩니다. 예를 들어 12월 1일 08:00 UTC에 생성된 엔드포인트의 경우 호스팅 시간은 12월 2일 00:00 UTC에 16시간으로, 12월 3일 00:00 UTC에 24시간으로 계산됩니다. 사용자가 12월 3일 16:30 UTC에 엔드포인트 호스팅을 일시 중단하면 12월 3일 00:00에서 16:30 UTC까지 기간(16.5시간)이 청구를 위해 계산됩니다.

참조 문서

Responsible AI

AI 시스템에는 기술뿐만 아니라 기술을 사용하는 사람, 영향을 받는 사람, 배포되는 환경이 포함됩니다. 시스템의 책임 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.

다음 단계