사용자 지정 텍스트 음성 변환 아바타란? (프리뷰)

아티클
02/24/2024

참고 항목

텍스트 음성 변환 아바타는 현재 공개 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 사용하지 않는 것이 좋습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

사용자 지정 텍스트 음성 변환 아바타를 사용하면 애플리케이션에 대한 사용자 지정 가상 대화 아바타를 만들 수 있습니다. 사용자 지정 텍스트 음성 아바타를 사용하면 선택한 행위자의 비디오 녹화 데이터를 제공하여 제품 또는 브랜드에 대한 고유하고 자연스러운 아바타를 빌드할 수 있습니다. 또한 동일한 행위자를 위한 사용자 지정 신경망 음성 을 만들고 아바타의 음성으로 사용하는 경우 아바타는 더욱 현실적입니다.

Important

사용자 지정 텍스트 음성 변환 아바타 액세스는 자격 및 사용 기준에 따라 제한 됩니다. 접수 양식에서 액세스 권한을 요청하세요.

작동 방식

아바타를 음성으로 변환하는 사용자 지정 텍스트를 만들려면 아바타 재능을 학습 데이터로 10분 이상 녹화해야 하며, 먼저 배우 재능의 동의를 얻어야 합니다.

Important

현재 사용자 지정 텍스트 음성 아바타의 경우 데이터 처리 및 모델 학습이 수동으로 수행됩니다.

시작하기 전에 몇 가지 고려 사항은 다음과 같습니다.

사용 사례: 아바타를 사용하여 교육 자료, 제품 소개와 같은 비디오 콘텐츠를 만들거나 고객과의 실시간 대화에서 아바타를 가상 영업 사원으로 사용하시겠습니까? 다른 사용 사례에 대한 몇 가지 기록 요구 사항이 있습니다.

아바타의 모양: 사용자 지정 텍스트 음성 변환 아바타는 학습 데이터의 아바타 특성과 같으며, 옷, 헤어스타일 등 아바타 모델의 모양을 사용자 지정하는 것을 지원하지 않습니다. 따라서 애플리케이션에 동일한 아바타의 여러 스타일이 필요한 경우 아바타의 각 스타일이 단일 아바타 모델로 간주되므로 각 스타일에 대한 학습 데이터를 준비해야 합니다.

아바타의 음성: 사용자 지정 음성 변환 텍스트 아바타는 미리 빌드된 신경망 음성과 사용자 지정 신경망 음성 모두에서 작동할 수 있습니다. 아바타 재능에 대한 사용자 지정 신경망 음성을 만들고 아바타와 함께 사용하면 아바타 환경의 자연스러움이 크게 향상됩니다.

다음은 사용자 지정 텍스트 음성 변환 아바타를 만드는 단계의 개요입니다.

동의 비디오 가져오기: 동의 문의 비디오 녹화를 가져옵니다. 동의 문은 성명을 읽는 아바타 인재의 비디오 녹화로, 이미지 및 음성 데이터를 사용하여 사용자 지정 텍스트를 음성 아바타 모델로 학습시키는 데 동의합니다.
학습 데이터 준비: 비디오 녹화가 올바른 형식인지 확인합니다. 전문적인 품질의 비디오 촬영 스튜디오에서 비디오 녹화를 촬영하여 클린 배경 이미지를 가져오는 것이 좋습니다. 결과 아바타의 품질은 학습에 사용되는 녹화된 비디오에 따라 크게 달라집니다. 말하기 속도, 신체 상태, 얼굴 표정, 손 제스처, 배우의 위치 일관성, 비디오 녹화 조명과 같은 요소는 매력적인 사용자 지정 텍스트를 만들어 음성 아바타를 만드는 데 필수적입니다.
아바타 모델 학습: 아바타 특성의 동의 문을 확인한 후 사용자 지정 텍스트 음성 변환 모델 학습을 시작합니다. 이 서비스의 미리 보기 단계에서 이 단계는 Microsoft에서 수동으로 수행합니다. 모델이 성공적으로 학습되면 알림이 표시됩니다.
APP에서 아바타 모델 배포 및 사용

구성 요소 시퀀스

사용자 지정 텍스트 음성 변환 아바타 모델에는 텍스트 분석기, 텍스트 음성 변환기 오디오 신시사이저 및 텍스트 음성 변환기 비디오 렌더러의 세 가지 구성 요소가 포함되어 있습니다.

아바타 모델을 사용하여 아바타 비디오 파일 또는 스트림을 생성하기 위해 텍스트는 먼저 텍스트 분석기에 입력되어 음소 시퀀스의 형태로 출력을 제공합니다.
오디오 신시사이저는 입력 텍스트에 대한 음성 오디오를 합성하며, 이러한 두 부분은 텍스트 음성 변환 또는 사용자 지정 신경망 음성 모델을 통해 제공됩니다.
마지막으로, 인공신경망 텍스트 음성 아바타 모델은 합성 비디오가 생성되도록 음성 오디오와 립싱크 이미지를 예측합니다.

인공신경망 텍스트 음성 아바타 모델은 다양한 언어로 된 인간 비디오의 녹화 샘플을 기반으로 심층 신경망을 사용하여 학습됩니다. 미리 빌드된 음성 및 사용자 지정 신경망 음성의 모든 언어를 지원합니다.

사용자 지정 음성 및 사용자 지정 텍스트 음성 변환 아바타

사용자 지정 음성 변환 아바타는 미리 빌드된 신경망 음성 또는 사용자 지정 신경망 음성을 아바타의 음성으로 사용할 수 있습니다. 자세한 내용은 아바타 음성 및 언어를 참조 하세요.

사용자 지정 신경망 음성 및 사용자 지정 텍스트 음성 아바타는 별도의 기능입니다. 독립적으로 또는 함께 사용할 수 있습니다. 텍스트 음성 아바타와 함께 사용자 지정 신경망 음성을 사용하려는 경우 사용자 지정 신경망 음성 모델을 아바타 지원 지역 중 하나에 배포하거나 복사해야 합니다.

다음을 통해 공유

사용자 지정 텍스트 음성 변환 아바타란? (프리뷰)

작동 방식

구성 요소 시퀀스

사용자 지정 음성 및 사용자 지정 텍스트 음성 변환 아바타

다음 단계

추가 리소스