다음을 통해 공유


텍스트 음성 변환 아바타 개요(미리 보기)

참고 항목

텍스트 음성 변환 아바타는 현재 공개 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 사용하지 않는 것이 좋습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

텍스트 음성 변환 아바타는 자연스럽게 들리는 음성으로 말하는 사실적인 인간(미리 빌드된 아바타 또는 사용자 지정 텍스트 음성 변환 아바타)의 디지털 비디오로 텍스트를 변환합니다. 텍스트 음성 변환 아바타 비디오는 비동기적으로 또는 실시간으로 합성할 수 있습니다. 개발자는 API를 통해 텍스트 음성 변환 아바타와 통합된 애플리케이션을 빌드하거나, Speech Studio에서 콘텐츠 만들기 도구를 사용하여 코딩 없이 비디오 콘텐츠를 만들 수 있습니다.

텍스트 음성 변환 아바타의 고급 신경망 모델을 사용하면 사용자는 책임 있는 AI 사례를 준수하면서 다양한 애플리케이션에 실생활과 유사한 고품질 합성 대화 아바타 비디오를 제공할 수 있습니다.

참고 항목

텍스트 음성 변환 아바타 기능은 미국 서부 2, 서유럽 및 동남 아시아 지역에서만 사용 가능합니다.

Azure AI 텍스트 음성 변환 아바타 기능은 다음과 같습니다.

  • 텍스트를 Azure AI 텍스트 음성 변환에서 구동하는 자연스러운 음성을 사용하여 포토리얼리스틱하게 인간이 말하는 디지털 비디오로 변환합니다.
  • 미리 빌드된 아바타 컬렉션을 제공합니다.
  • 아바타 음성은 Azure AI 텍스트 음성 변환에서 생성됩니다. 자세한 내용은 아바타 음성 및 언어를 참조하세요.
  • 일괄 처리 합성 API를 사용하거나 실시간으로 텍스트 음성 변환 아바타 비디오를 비동기적으로 합성합니다.
  • 코딩하지 않고 비디오 콘텐츠를 만들 수 있도록 Speech Studio에서 콘텐츠 만들기 도구를 제공합니다.
  • Speech Studio에서 라이브 채팅 아바타 도구를 통해 라이브 아바타 대화를 사용하도록 설정합니다.

텍스트 음성 변환 아바타의 고급 신경망 모델을 사용하면 책임 있는 AI 사례를 준수하면서 다양한 애플리케이션에 실생활과 유사한 고품질 합성 대화 아바타 비디오를 제공할 수 있습니다.

코드 없는 방법으로 텍스트를 음성으로 변환하려면 Speech Studio에서 텍스트 음성 변환 아바타 도구를 사용해 보세요.

아바타 음성 및 언어

미리 빌드된 다양한 아바타 음성 중에서 선택할 수 있습니다. 텍스트 음성 변환 아바타에 지원되는 언어는 텍스트 음성 변환을 지원하는 언어와 같습니다. 제사한 내용은 Speech Service에 대한 언어 및 음성 지원을 참조하세요. Speech Studio 포털이나 API를 통해 미리 빌드된 텍스트 음성 변환 아바타에 액세스할 수 있습니다.

합성 비디오의 음성은 Azure AI Speech에서 사용할 수 있는 미리 빌드된 인공신경망 음성이나 자동으로 선택된 성우의 사용자 지정 인공신경망 음성일 수 있습니다.

아바타 비디오 출력

일괄 처리 합성 및 실시간 합성 해상도 모두 1920 x 1080이고 FPS(초당 프레임 수)는 25입니다. 형식이 mp4인 경우 일괄 처리 합성 코덱은 h264 또는 h265일 수 있으며 형식이 webm인 경우에는 코덱을 vp9로 설정할 수 있습니다. webm만 알파 채널을 포함할 수 있습니다. 실시간 합성 코덱은 h264입니다. 요청의 일괄 처리 합성 및 실시간 합성 모두에 비디오 비트 전송률을 구성할 수 있습니다. 기본값은 2000000이며 샘플 코드에서 더 자세한 구성을 확인할 수 있습니다.

일괄 처리 합성 실시간 합성
해결 방법 1920 x 1080 1920 x 1080
FPS 25 25
Codec h264/h265/vp9 h264

사용자 지정 텍스트 음성 변환 아바타

제품이나 브랜드에 고유한 사용자 지정 텍스트 음성 변환 아바타를 만들 수 있습니다. 비디오 녹화를 시작하는 데 10분이 걸립니다. 또한 작업자의 사용자 지정 인공신경망 음성을 만드는 경우 아바타는 매우 현실적일 수 있습니다. 자세한 내용은 사용자 지정 텍스트 음성 변환 음성 아바타란을 참조하세요.

사용자 지정 인공신경망 음성사용자 지정 텍스트 음성 변환 아바타는 별도의 기능입니다. 개별적으로 또는 함께 사용할 수 있습니다. 텍스트 음성 변환 아바타에서 사용자 지정 인공신경망 음성을 사용하려는 경우 사용자 지정 인공신경망 음성 모델을 아바타 지원 지역 중 하나에 배포하거나 복사해야 합니다.

샘플 코드

GitHub에서 텍스트 음성 변환 아바타 샘플 코드를 사용할 수 있습니다. 이러한 샘플에서 가장 인기 있는 시나리오를 다룹니다.

가격 책정

  • 텍스트 음성 변환 아바타 기능을 사용하는 경우 비디오 출력 시간(분)에 따라 요금이 발생합니다. 그러나 실시간 아바타의 경우 아바타가 적극적으로 말하고 있는지 아니면 침묵하는지에 관계없이 아바타 활성화 시간(분)을 기준으로 요금이 부과됩니다. 실시간 아바타 사용 비용을 최적화하려면 샘플 코드에서 제공된 팁을 참조하세요("Use Local Video for Idle" 검색).
  • 아바타 실시간 세션 또는 일괄 처리 콘텐츠 만들기 전체에서 텍스트 음성 변환, 음성 텍스트 변환, Azure OpenAI 또는 기타 Azure 서비스는 별도로 청구됩니다.
  • 자세한 내용은 Speech Service 가격 책정을 참조하세요. 아바타 가격은 미국 서부 2, 서유럽 및 동남 아시아를 포함하여 기능을 사용할 수 있는 서비스 지역에만 표시됩니다.

사용 가능한 위치

텍스트 음성 변환 아바타 기능은 미국 서부 2, 서유럽 및 동남 아시아 지역에서만 사용 가능합니다.

책임 있는 AI

Microsoft는 AI를 사용하는 사람들과 기술에 관심이 있는 만큼 AI의 영향을 받는 사람들을 중요하게 여깁니다. 자세한 내용은 책임 있는 AI 투명성 고지음성 및 아바타 성우에 대한 공개를 참조하세요.

다음 단계