텍스트 음성 변환 아바타 개요

2025-06-02

텍스트 음성 변환 아바타는 자연스레 들리는 음성으로 말하는 광실주의적 인간(표준 아바타 또는 사용자 지정 텍스트 음성 아바타)의 디지털 비디오로 텍스트를 변환합니다. 텍스트 음성 변환 아바타 비디오는 비동기적으로 또는 실시간으로 합성할 수 있습니다. 개발자는 API를 통해 텍스트 음성 변환 아바타와 통합된 애플리케이션을 빌드하거나, Speech Studio에서 콘텐츠 만들기 도구를 사용하여 코딩 없이 비디오 콘텐츠를 만들 수 있습니다.

텍스트 음성 변환 아바타의 고급 신경망 모델을 사용하면 사용자는 책임 있는 AI 사례를 준수하면서 다양한 애플리케이션에 실생활과 유사한 고품질 합성 대화 아바타 비디오를 제공할 수 있습니다.

팁

코드 없는 방법으로 텍스트를 음성으로 변환하려면 Speech Studio에서 텍스트 음성 변환 아바타 도구를 사용해 보세요.

아바타 기능

텍스트 음성 변환 아바타 기능에는 다음이 포함됩니다.

텍스트를 Azure AI 텍스트 음성 변환에서 구동하는 자연스러운 음성을 사용하여 포토리얼리스틱하게 인간이 말하는 디지털 비디오로 변환합니다.
표준 아바타 컬렉션을 제공합니다.
Azure AI 텍스트 음성 변환은 아바타의 음성을 생성합니다. 자세한 내용은 아바타 음성 및 언어를 참조하세요.
일괄 처리 합성 API를 사용하거나 실시간으로 텍스트 음성 변환 아바타 비디오를 비동기적으로 합성합니다.
코딩하지 않고 비디오 콘텐츠를 만들 수 있도록 Speech Studio에서 콘텐츠 만들기 도구를 제공합니다.
Speech Studio에서 라이브 채팅 아바타 도구를 통해 라이브 아바타 대화를 사용하도록 설정합니다.

텍스트 음성 변환 아바타의 고급 신경망 모델을 사용하면 책임 있는 AI 사례를 준수하면서 다양한 애플리케이션에 실생활과 유사한 고품질 합성 대화 아바타 비디오를 제공할 수 있습니다.

아바타 음성 및 언어

아바타에 대한 다양한 표준 음성 중에서 선택할 수 있습니다. 텍스트 음성 변환 아바타에 지원되는 언어는 텍스트 음성 변환을 지원하는 언어와 같습니다. 제사한 내용은 Speech Service에 대한 언어 및 음성 지원을 참조하세요. 표준 텍스트 음성 변환 아바타는 Speech Studio 포털 또는 API를 통해 액세스할 수 있습니다.

가상 비디오의 음성은 Azure AI Speech 표준 음성 또는 사용자가 선택한 음성 인재의 사용자 지정 음성 일 수 있습니다.

아바타 비디오 출력

일괄 처리 합성 및 실시간 합성 해상도 모두 1920 x 1080이고 FPS(초당 프레임 수)는 25입니다. 형식이 mp4인 경우 배치 합성 코덱은 h264, hevc 또는 av1일 수 있으며, 형식이 webm인 경우 코덱을 vp9 또는 av1로 설정할 수 있습니다. 알파 채널은 vp9에만 포함될 수 있습니다. 실시간 합성 코덱은 h264입니다. 요청의 일괄 처리 합성 및 실시간 합성 모두에 비디오 비트 전송률을 구성할 수 있습니다. 기본값은 2000000이며 샘플 코드에서 더 자세한 구성을 확인할 수 있습니다.

	일괄 처리 합성	실시간 합성
해결 방법	1920 x 1080	1920 x 1080
FPS	이십오 (25)	이십오 (25)
코덱	h264/hevc/vp9/av1	h264

사용자 지정 텍스트 음성 변환 아바타

제품이나 브랜드에 고유한 사용자 지정 텍스트 음성 변환 아바타를 만들 수 있습니다. 비디오 녹화를 시작하는 데 10분이 걸립니다. 또한 배우의 전문적인 목소리를 미세 조정하는 경우 아바타는 매우 현실적일 수 있습니다.

아바타의 음성 동기화는 학습 비디오의 오디오를 활용하는 사용자 지정 아바타와 함께 학습됩니다. 음성은 사용자 지정 아바타와 단독으로 연결되며 독립적으로 사용할 수 없습니다.

전문 음성 미세 조정 및 사용자 지정 텍스트 음성 변환 아바타는 별도의 기능입니다. 개별적으로 또는 함께 사용할 수 있습니다. 텍스트로 음성 아바타로 전문 음성 미세 조정을 사용하려는 경우 세밀하게 조정된 전문 음성 모델을 아바타 지원 지역 중 하나에 배포하거나 복사해야 합니다.

자세한 내용은 사용자 지정 텍스트 음성 변환 음성 아바타란을 참조하세요.

샘플 코드

GitHub에서 텍스트 음성 변환 아바타 샘플 코드를 사용할 수 있습니다. 이러한 샘플에서 가장 인기 있는 시나리오를 다룹니다.

일괄 처리 합성(REST)
실시간 합성(SDK)
(SDK) 뒤에서 Azure OpenAI를 사용하여 라이브 채팅
Azure OpenAI On Your Data를 사용하여 라이브 채팅 앱을 만들려면 이 샘플 코드를 참조할 수 있습니다("On Your Data" 검색).

가격 책정

아바타 실시간 세션 또는 일괄 처리 콘텐츠 만들기 전체에서 텍스트 음성 변환, 음성 텍스트 변환, Azure OpenAI 또는 기타 Azure 서비스는 별도로 청구됩니다.
아바타에 대한 음성 동기화(사용자 지정 아바타 학습을 통해)는 음성 생성 및 합성 측면에서 개인 음성과 동일하게 청구됩니다. 음성 저장은 무료입니다.
텍스트 음성 변환 아바타 기능에 대한 청구가 어떻게 작동하는지 알아보려면 텍스트 음성 변환 아바타 가격 책정 참고를 참조하세요.
자세한 가격 책정은 Speech Service 가격 책정을 참조하세요. 아바타 가격은 동남 아시아, 북유럽, 서유럽, 스웨덴 중부, 미국 중남부, 미국 동부 2 및 미국 서부 2를 포함하여 기능을 사용할 수 있는 서비스 지역에만 표시됩니다.

사용 가능한 위치

텍스트 음성 변환 아바타 기능은 동남 아시아, 북유럽, 서유럽, 스웨덴 중부, 미국 중남부, 미국 동부 2 및 미국 서부 2 서비스 지역에서만 사용할 수 있습니다.

책임 있는 AI

Microsoft는 AI를 사용하는 사람들과 기술에 관심이 있는 만큼 AI의 영향을 받는 사람들을 중요하게 여깁니다. 자세한 내용은 책임 있는 AI 투명성 고지 및 음성 및 아바타 성우에 대한 공개를 참조하세요.