텍스트 음성 변환이란?

2025-06-02

이 개요에서는 Azure AI 서비스의 일부인 음성 서비스의 텍스트 음성 변환 기능의 이점과 기능에 대해 알아봅니다.

텍스트 음성 변환을 사용하면 애플리케이션, 도구 또는 디바이스에서 텍스트를 인간과 유사한 합성된 음성으로 변환할 수 있습니다. 텍스트 음성 변환 기능은 음성 합성이라고도 합니다. 기본 제공되는 인간 같은 표준 음성을 사용하거나, 제품 또는 브랜드에 고유한 맞춤형 음성을 만드세요. 지원되는 음성, 언어 및 로캘의 전체 목록은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.

핵심 기능

텍스트 음성 변환에는 다음 기능이 포함됩니다.

기능	요약	데모
표준 음성(가격 책정 페이지에서신경망이라고 함)	매우 자연스러운 즉시 사용 가능한 음성. Azure 구독 및 Speech 리소스를 만든 다음 Speech SDK 를 사용하거나 Speech Studio 포털 을 방문하여 표준 음성을 선택하여 시작합니다. 가격 책정 세부 정보를 확인하세요.	음성 갤러리를 확인하고 귀하의 비즈니스 요구에 적합한 음성을 결정하세요.
사용자 지정 음성	책임감 있는 사용을 위해 제한된 액세스로 자연스러운 브랜드 보이스를 만들기 위한 사용하기 쉬운 셀프 서비스입니다. Azure 구독 및 Azure AI Foundry 리소스를 만든 다음 , 사용자 지정 음성을 사용하도록 적용합니다. 액세스 권한이 부여되면 전문 음성 미세 조정 설명서 로 이동하여 시작합니다. 가격 책정 세부 정보를 확인하세요.	음성 샘플을 확인하세요.

인공신경망 텍스트 음성 변환 기능에 대한 추가 정보

텍스트 음성 변환은 심층 신경망을 사용하여 컴퓨터의 음성을 사람의 녹음과 거의 구분할 수 없도록 만듭니다. 단어의 명확한 표현을 통해 인공신경망 텍스트 음성 변환은 사용자가 AI 시스템과 상호 작용할 때 청취 피로를 크게 줄여줍니다.

구어의 강세와 억양 패턴을 운율이라고 합니다. 기존의 TTS(텍스트 음성 변환) 시스템은 운율을 독립적인 모델에 의해 관리되는 별도의 언어 분석 및 음향 예측 단계로 나눕니다. 그 결과 희미하고 윙윙거리는 음성 합성이 발생할 수 있습니다.

음성 서비스의 인공신경망 텍스트 음성 변환 기능과 이러한 기능이 기존 텍스트 음성 변환 시스템의 한계를 극복하는 방법에 대한 자세한 내용은 다음과 같습니다.

실시간 음성 합성: Speech SDK 또는 REST API 를 사용하여 표준 음성 또는 사용자 지정 음성을 사용하여 텍스트를 음성으로 변환합니다.
긴 오디오의 비동기 합성: 10분보다 긴 텍스트 음성 변환 파일(예: 오디오북 또는 오디오 강의)을 비동기적으로 합성하려면 일괄 처리 합성 API를 사용합니다. Speech SDK 또는 음성 텍스트 변환 REST API를 통해 수행한 합성과 달리 응답은 실시간으로 반환되지 않습니다. 요청이 비동기적으로 전송되고, 응답이 폴링되며, 서비스에서 사용할 수 있을 때 합성된 오디오가 다운로드될 것으로 예상됩니다.
표준 음성: Azure AI Speech는 심층 신경망을 사용하여 음성 언어의 스트레스 및 인톤에 관한 기존 음성 합성의 한계를 극복합니다. 운율 예측 및 음성 합성은 동시에 발생하여 더 부드럽고 자연스럽게 들리는 출력이 생성됩니다. 각 표준 음성 모델은 24kHz 및 고화질 48kHz에서 사용할 수 있습니다. 인공신경망 음성을 사용하여 다음을 수행할 수 있습니다.
- 챗봇 및 음성 도우미와의 상호 작용을 보다 자연스럽고 매력적으로 만듭니다.
- 전자책과 같은 디지털 텍스트를 오디오북으로 변환합니다.
- 차량 내 내비게이션 시스템을 개선합니다.
표준 Azure AI Speech 신경망 음성의 전체 목록은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.
SSML을 사용하여 텍스트 음성 변환 출력 개선: SSML(Speech Synthesis Markup Language)은 텍스트 음성 변환 출력을 사용자 지정하는 데 사용되는 XML 기반 생성 언어입니다. SSML을 사용하면 피치를 조정하고, 중단을 추가하고, 발음을 개선하고, 말하는 속도를 변경하고, 볼륨을 조정하고, 단일 문서에 여러 음성을 지정할 수 있습니다.

SSML을 사용하여 고유한 어휘를 정의하거나 다른 말하기 스타일로 전환할 수 있습니다. 다국어 음성 기능을 사용하면 SSML을 통해 말하는 언어를 조정할 수도 있습니다. 시나리오에 대한 음성 출력을 개선하려면 Speech Synthesis Markup Language를 사용하여 합성 향상 및 오디오 콘텐츠 만들기 도구를 사용한 음성 합성을 참조하세요.
Visemes: Viseme는 특정 음소를 생성할 때 입술, 턱 및 혀의 위치를 포함하여 관찰된 음성의 주요 포즈입니다. Viseme는 음성 및 음소와 강력한 상관 관계가 있습니다.

Speech SDK에서 viseme 이벤트를 사용하여 얼굴 애니메이션 데이터를 생성할 수 있습니다. 이런 데이터는 독화술 커뮤니케이션, 교육, 엔터테인먼트 및 고객 서비스에서 얼굴 애니메이션에 사용할 수 있습니다. Viseme은 현재 en-US(미국 영어) 인공신경망 음성에 대해서만 지원됩니다.

참고 항목

Azure AI Speech 신경망(비 HD) 음성 외에도 Azure AI Speech HD(고화질) 음성 및 Azure OpenAI 신경망(HD 및 비 HD) 음성을 사용할 수도 있습니다 . HD 음성은 보다 다양한 시나리오에 더 높은 품질을 제공합니다.

일부 음성은 모든 SSML(Speech Synthesis Markup Language) 태그를 지원하지 않습니다. 여기에는 HD 음성을 음성으로 변환하는 신경망 텍스트, 개인 음성 및 포함된 음성이 포함됩니다.

Azure AI Speech HD(고화질) 음성의 경우 여기에서 SSML 지원을 확인하세요.
개인 음성의 경우 여기에서 SSML 지원을 찾을 수 있습니다.
포함된 음성의 경우 여기에서 SSML 지원을 확인하세요.

시작하기

텍스트 음성 변환을 시작하려면 빠른 시작을 참조하세요. 텍스트 음성 변환은 Speech SDK, REST API 및 Speech CLI를 통해 사용할 수 있습니다.

팁

코드 없는 접근 방식으로 텍스트를 음성으로 변환하려면 Speech Studio에서 오디오 콘텐츠 만들기 도구를 사용해 보세요.

샘플 코드

텍스트 음성 변환을 위한 샘플 코드는 GitHub에서 사용할 수 있습니다. 다음 샘플은 가장 널리 사용되는 프로그래밍 언어의 텍스트 음성 변환을 다룹니다.

사용자 지정 음성

표준 음성 외에도 제품 또는 브랜드에 고유한 사용자 지정 음성을 만들 수 있습니다. 사용자 지정 음성은 전문적인 음성 미세 조정 및 개인 음성을 포함하는 우산 용어입니다. 몇 가지 오디오 파일과 연결된 대화 내용 기록만 있으면 시작할 수 있습니다. 자세한 내용은 전문 음성 미세 조정 설명서를 참조하세요.

가격 책정 메모

청구 가능 문자

텍스트 음성 변환 기능을 사용하면 구두점을 포함하여 음성으로 변환된 각 문자에 대해 요금이 청구됩니다. SSML 문서 자체에는 요금이 청구되지 않지만 음소 및 피치 같이 텍스트가 음성으로 변환되는 방법을 조정하는 데 사용되는 선택적 요소는 청구 대상 문자로 계산됩니다. 청구 대상 항목 목록은 다음과 같습니다.

요청의 SSML 본문에 있는 텍스트 음성 변환 기능에 전달된 텍스트
<speak> 및 <voice> 태그를 제외한 SSML 형식의 요청 본문 텍스트 필드에 있는 모든 태그
문자, 문장 부호, 공백, 탭, 태그 및 모든 공백 문자
유니코드에 정의된 모든 코드 포인트

자세한 내용은 Speech Service 가격 책정을 참조하세요.

중요합니다

각 한자는 2자로 계산되어 청구됩니다(일본어에서 사용되는 한자, 한국어에서 사용되는 한자 또는 다른 언어에서 사용되는 한자를 포함).

사용자 지정 음성에 대한 모델 학습 및 호스팅 시간

사용자 지정 음성 학습 및 호스팅은 모두 시간별로 계산되며 초당 요금이 청구됩니다. 청구 단가는 Speech Service 가격 책정을 참조하세요.

전문 음성 미세 조정 시간은 "컴퓨팅 시간"(컴퓨터 실행 시간을 측정하는 단위)으로 측정됩니다. 일반적으로 음성 모델을 학습시킬 때 두 개의 컴퓨팅 작업이 병렬로 실행됩니다. 따라서 계산된 컴퓨팅 시간은 실제 학습 시간보다 깁니다. 전문적인 음성 미세 조정의 경우 단일 스타일의 음성을 학습하는 데 보통 20~40시간, 멀티 스타일 음성을 학습하는 데 컴퓨팅 시간은 약 90시간이 걸립니다. 전문 음성 미세 조정 시간은 96 컴퓨팅 시간의 상한으로 청구됩니다. 따라서 음성 모델이 98시간으로 학습되는 경우 96시간의 컴퓨팅 시간으로만 요금이 청구됩니다.

사용자 지정 음성 엔드포인트 호스팅은 실제 시간(시간)으로 측정됩니다. 각 엔드포인트의 호스팅 시간(시간)은 이전 24시간 동안 매일 00:00 UTC에 계산됩니다. 예를 들어 엔드포인트가 첫날 24시간 동안 활성화된 경우 두 번째 날 00:00 UTC에 24시간에 대한 요금이 청구됩니다. 하루 동안 엔드포인트가 새로 만들어지거나 일시 중단된 경우 둘째 날 00:00 UTC까지의 누적 실행 시간에 대해 요금이 청구됩니다. 엔드포인트가 현재 호스트되지 않으면 요금이 청구되지 않습니다. 매일 00:00 UTC의 일일 계산 외에도 엔드포인트가 삭제되거나 일시 중단될 때 청구가 즉시 트리거됩니다. 예를 들어 12월 1일 08:00 UTC에 생성된 엔드포인트의 경우 호스팅 시간은 12월 2일 00:00 UTC에 16시간으로, 12월 3일 00:00 UTC에 24시간으로 계산됩니다. 사용자가 12월 3일 16:30 UTC에 엔드포인트 호스팅을 일시 중단하면 12월 3일 00:00에서 16:30 UTC까지 기간(16.5시간)이 청구를 위해 계산됩니다.

개인 음성

개인 음성 기능을 사용하면 프로필 스토리지 및 합성 비용이 모두 청구됩니다.

프로필 스토리지: 개인 음성 프로필을 만든 후 시스템에서 제거될 때까지 요금이 청구됩니다. 일별 음성 단위로 청구됩니다. 음성 스토리지가 24시간 미만으로 지속되는 경우 하루 종일 요금이 청구됩니다.
종합: 문자별로 요금이 청구됩니다. 청구 가능 문자에 대한 자세한 내용은 위의 청구 가능 문자를 참조하세요.

텍스트 음성 변환 아바타

텍스트 음성 변환 아바타 기능을 사용하는 경우 비디오 출력 길이에 따라 초당 요금이 청구됩니다. 그러나 실시간 아바타의 경우 아바타가 활성 상태인 시간에 따라 초당 요금이 청구됩니다. 실시간 아바타 사용에 대한 비용을 최적화하려면 아바타 채팅 샘플 코드에 제공된 "유휴 상태의 로컬 비디오 사용" 팁을 참조하세요.

사용자 지정 텍스트 음성 변환 아바타 학습은 "컴퓨팅 시간"(머신 실행 시간)으로 측정되고 초당 요금이 청구됩니다. 학습 기간은 사용하는 데이터 양에 따라 달라집니다. 일반적으로 사용자 지정 아바타를 학습하는 데 평균 20~40시간이 걸립니다. 아바타 학습 시간은 계산 시간 96시간의 한도로 청구됩니다. 따라서 아바타 모델이 컴퓨팅 시간 98시간으로 학습되는 경우 컴퓨팅 시간은 96시간만 청구됩니다.

아바타 호스팅은 엔드포인트별로 초당 요금이 청구됩니다. 비용을 절약하기 위해 엔드포인트를 일시 중단할 수 있습니다. 엔드포인트를 일시 중단하려면 직접 삭제할 수 있습니다. 다시 사용하려면 엔드포인트를 다시 배포합니다.

Azure 텍스트 음성 변환 메트릭 모니터링

텍스트 음성 변환 서비스와 관련된 주요 메트릭을 모니터링하는 것은 리소스 사용량을 관리하고 비용을 제어하는 데 매우 중요합니다. 이 섹션에서는 Azure Portal에서 사용량 정보를 찾고 주요 메트릭에 대한 자세한 정의를 제공하는 방법을 안내합니다. Azure Monitor 메트릭에 대한 자세한 내용은 Azure Monitor 메트릭 개요를 참조하세요.

Azure Portal에서 사용량 정보를 찾는 방법

Azure 리소스를 효과적으로 관리하려면 정기적으로 사용량 정보에 액세스하고 검토해야 합니다. 사용량 정보를 찾는 방법은 다음과 같습니다.

Azure Portal로 이동하여 Azure 계정으로 로그인합니다.
리소스로 이동하고 모니터링할 리소스를 선택합니다.
왼쪽 메뉴의 모니터링 아래에서 메트릭을 선택합니다.
메트릭 보기를 사용자 지정합니다.

리소스 종류, 메트릭 형식, 시간 범위 및 기타 매개 변수를 기준으로 데이터를 필터링하여 모니터링 요구 사항에 맞는 사용자 지정 보기를 만들 수 있습니다. 또한 대시보드에 저장을 선택하여 메트릭 보기를 대시보드에 저장하면 자주 사용하는 메트릭에 쉽게 액세스할 수 있습니다.
경고 설정.

사용량을 좀 더 효과적으로 관리하려면 왼쪽 메뉴에서 모니터링 아래의 경고 탭으로 이동하여 경고를 설정합니다. 경고는 사용량이 특정 임계값에 도달하면 알려 예기치 않은 비용을 방지할 수 있습니다.

메트릭 정의

다음은 Azure 텍스트 음성 변환에 대한 주요 메트릭을 요약한 표입니다.

메트릭 이름	설명
합성 문자	표준 음성 및 사용자 지정 음성을 포함하여 음성으로 변환된 문자 수를 추적합니다. 청구 가능 문자에 대한 자세한 내용은 청구 가능 문자를 참조하세요.
비디오 초 합성	일괄 처리 아바타 합성, 실시간 아바타 합성 및 사용자 지정 아바타 합성을 포함하여 합성된 비디오의 총 기간을 측정합니다.
아바타 모델 호스팅 초	사용자 지정 아바타 모델이 호스트되는 총 시간(초)을 추적합니다.
음성 모델 호스팅 시간	사용자 지정 음성 모델이 호스트되는 총 시간(시간)을 추적합니다.
음성 모델 학습(분)	사용자 지정 음성 모델을 학습하기 위한 총 시간(분)을 측정합니다.

참조 문서

책임 있는 AI

AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 시스템에서의 책임감 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.