텍스트 음성 변환 아바타에 대한 일괄 처리 합성 속성

아티클
04/21/2024

일괄 처리 합성 속성은 다음 표에 설명된 아바타 관련 속성, 일괄 처리 작업 관련 속성 및 텍스트 음성 변환 관련 속성으로 그룹화할 수 있습니다.

새 일괄 처리 합성 작업을 만들 때 JSON 형식의 일부 속성이 필요합니다. 다른 속성은 선택 사항입니다. 일괄 처리 합성 응답에는 합성 상태 및 결과에 대한 정보를 제공하는 다른 속성이 포함되어 있습니다. 예를 들어, outputs.result 속성에는 아바타 동영상이 포함된 동영상 파일을 다운로드할 수 있는 위치가 포함되어 있습니다. outputs.summary에서 요약 및 디버그 세부 정보에 액세스할 수 있습니다.

아바타 속성

다음 표에서는 아바타 속성에 대해 설명합니다.

속성	설명
avatarConfig.talkingAvatarCharacter	말하는 아바타의 캐릭터 이름입니다. 지원되는 아바타 캐릭터는 여기에서 찾을 수 있습니다. 이 속성은 필수입니다.
avatarConfig.talkingAvatarStyle	말하는 아바타의 스타일 이름입니다. 지원되는 아바타 스타일은 여기에서 찾을 수 있습니다. 이 속성은 미리 빌드된 아바타에 필요하며 사용자 지정된 아바타의 경우 선택 사항입니다.
avatarConfig.customized	사용할 아바타가 사용자 지정된 아바타인지 여부를 나타내는 부울 값입니다. 사용자 지정된 아바타의 경우 true이고 미리 빌드된 아바타의 경우 false입니다. 이 속성은 선택 사항이며 기본값은 `false`입니다.
avatarConfig.videoFormat	출력 비디오 파일의 형식은 mp4 또는 webm일 수 있습니다. `webm` 형식은 투명한 배경에 필요합니다. 이 속성은 선택 사항이며 기본값은 mp4입니다.
avatarConfig.videoCodec	출력 비디오의 코덱은 h264, hevc 또는 vp9일 수 있습니다. Vp9는 투명한 배경에 필요합니다. Vp9 인코딩 속도가 느리기 때문에 vp9 코덱을 사용하면 합성 속도가 느려집니다. 이 속성은 선택 사항이며 기본값은 hevc입니다.
avatarConfig.bitrateKbps	정수 값에 단위는 kbps인 비디오 출력의 비트 전송률입니다. 이 속성은 선택 사항이며 기본값은 2000입니다.
avatarConfig.videoCrop	이 속성을 사용하면 비디오 출력을 자를 수 있습니다. 즉, 원본 비디오의 직사각형 하위 영역을 출력할 수 있습니다. 이 속성에는 사각형의 왼쪽 위 꼭짓점과 오른쪽 아래 꼭짓점을 정의하는 두 개의 필드가 있습니다. 이 속성은 선택 사항이며 기본 동작은 전체 비디오를 출력하는 것입니다.
avatarConfig.videoCrop.topLeft	비디오 자르기를 위한 직사각형의 왼쪽 상단 꼭지점입니다. 이 속성에는 꼭짓점의 가로 및 세로 위치를 정의하는 두 개의 필드 x와 y가 있습니다. 이 속성은 properties.videoCrop이 설정된 경우에 필요합니다.
avatarConfig.videoCrop.bottomRight	비디오 자르기를 위한 직사각형의 오른쪽 하단 꼭지점입니다. 이 속성에는 꼭짓점의 가로 및 세로 위치를 정의하는 두 개의 필드 x와 y가 있습니다. 이 속성은 properties.videoCrop이 설정된 경우에 필요합니다.
avatarConfig.subtitleType	아바타 비디오 파일의 자막 형식은 `external_file`, `soft_embedded`, `hard_embedded`또는 `none`일 수 있습니다. 이 속성은 선택 사항이며 기본값은 `soft_embedded`입니다.
avatarConfig.backgroundImage	`avatarConfig.backgroundImage` 속성을 사용하여 배경 이미지를 추가합니다. 속성 값은 원하는 이미지를 가리키는 URL이어야 합니다. 이 속성은 선택 사항입니다.
avatarConfig.backgroundColor	#RRGGBBAA 형식의 문자열인 아바타 비디오의 배경색입니다. 이 문자열에서 RR, GG, BB 및 AA는 빨간색, 녹색, 파란색 및 알파 채널을 의미하며, 16진수 값 범위는 00~FF입니다. 알파 채널은 투명도를 제어하며, 투명은 00, 불투명은 FF, 반투명은 00에서 FF 사이의 값으로 설정할 수 있습니다. 이 속성은 선택 사항이며 기본값은 #FFFFFFFF(흰색)입니다.
outputs.result	합성된 아바타가 포함된 비디오 파일인 일괄 합성 결과 파일의 위치입니다. 이 속성은 읽기 전용입니다.
properties.DurationInMilliseconds	동영상 출력 기간(밀리초)입니다. 이 속성은 읽기 전용입니다.

일괄 처리 합성 작업 속성

다음 표는 일괄 처리 합성 작업 속성에 대해 설명합니다.

속성	설명
createdDateTime	일괄 처리 합성 작업이 만들어진 날짜 및 시간입니다. 이 속성은 읽기 전용입니다.
description	일괄 처리 합성에 대한 설명입니다. 이 속성은 선택 사항입니다.
ID	일괄 처리 합성 작업 ID입니다. 이 속성은 읽기 전용입니다.
lastActionDateTime	상태 속성 값이 변경된 가장 최근 날짜 및 시간입니다. 이 속성은 읽기 전용입니다.
속성	선택적 일괄 처리 합성 구성 설정의 정의된 집합입니다.
properties.destinationContainerUrl	일괄 처리 합성 결과는 쓰기 가능한 Azure 컨테이너에 저장할 수 있습니다. SAS(공유 액세스 서명) 토큰으로 컨테이너 URI를 지정하지 않으면 Speech Services는 Microsoft에서 관리하는 컨테이너에 결과를 저장합니다. 저장된 액세스 정책이 있는 SAS는 지원되지 않습니다. 합성 작업이 삭제되면 결과 데이터도 삭제됩니다. 이 선택적 속성은 합성 작업을 가져올 때 응답에 포함되지 않습니다.
properties.timeToLiveInHours	합성 작업이 만들어진 후 합성 결과가 자동으로 삭제되는 기간(시간)입니다. 최대 라이브 시간은 744시간입니다. "성공" 또는 "실패" 상태의 합성 작업에 대한 자동 삭제 날짜 및 시간은 lastActionDateTime 및 timeToLive 속성의 합으로 계산됩니다. 그렇지 않으면 delete 합성 메서드를 호출하여 작업을 더 빨리 제거할 수 있습니다.
status	일괄 처리 합성 처리 상태입니다. 상태는 "NotStarted"에서 "Running"으로, 마지막으로 "Succeeded" 또는 "Failed"로 진행되어야 합니다. 이 속성은 읽기 전용입니다.

텍스트 음성 변환 속성

다음 표에서는 텍스트 음성 변환 속성에 대해 설명합니다.

속성	설명
customVoices	사용자 지정 인공 신경망 음성은 "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"}와 같이 이름 및 배포 ID와 연결됩니다. `inputKind`이(가) "PlainText"로 설정된 경우에는 `synthesisConfig.voice`에 음성 이름을 사용할 수 있고, `inputKind`이(가) "SSML"로 설정된 경우에는 입력의 SSML 텍스트 내에 음성 이름을 사용할 수 있습니다. 이 속성은 Custom Voice을 사용하는 데 필요합니다. 여기에 정의되지 않은 Custom Voice을 사용하려고 하면 서비스에서 오류를 반환합니다.
inputs	합성할 일반 텍스트 또는 SSML입니다. inputKind가 "PlainText"로 설정된 경우 다음과 같이 일반 텍스트를 제공합니다. "inputs": [{"content": "무지개에는 일곱 가지 색이 있습니다."}]. inputKind가 "SSML"로 설정된 경우 다음과 같이 SSML(Speech Synthesis Markup Language)로 텍스트를 제공합니다. [{"content": "<speak version=''1.0''' xml:lang=''en-US'''><voice xml:lang=''en-US''' xml:gender=''Female''' name=''en-US-AvaMultilingualNeural'''>무지개에는 일곱 가지 색이 있습니다."}]. 여러 비디오 출력 파일을 원하는 경우 최대 1,000개의 텍스트 개체를 포함합니다. 다음은 두 개의 동영상 출력 파일로 합성되어야 하는 입력 텍스트의 예입니다. "inputs": [{"content": "synthesize this to a file"},{"content": "synthesize this to another file"}]. 새 단락에 대해 별도의 텍스트 입력이 필요하지 않습니다. 최대 1,000개의 텍스트 입력 내에서 "\r\n"(개행) 문자열을 사용하여 새 단락을 지정할 수 있습니다. 다음은 동일한 오디오 출력 파일로 합성해야 하는 두 단락이 있는 입력 텍스트 예입니다. "inputs": [{"content": "이것을 같은 파일에 있는 다른 단락에 file\r\nsynthesize로 합성"}] 이 속성은 새 일괄 처리 합성 작업을 만들 때 필요합니다. 이 속성은 합성 작업을 가져올 때 응답에 포함되지 않습니다.
properties.billingDetails	customNeural 대 인공 신경망(미리 빌드된) 음성에서 처리되고 청구된 단어의 수입니다. 이 속성은 읽기 전용입니다.
synthesisConfig	일반 텍스트의 일괄 처리 합성에 사용할 구성 설정입니다. 이 속성은 inputKind가 "PlainText"로 설정된 경우에만 적용 가능합니다.
synthesisConfig.pitch	오디오 출력의 피치입니다. 허용되는 값에 대한 자세한 내용은 SSML(Speech Synthesis Markup Language) 설명서의 prosody 조정 표를 참조하세요. 유효하지 않은 값은 무시됩니다. 이 선택적 속성은 inputKind가 "PlainText"로 설정된 경우에만 적용 가능합니다.
synthesisConfig.rate	오디오 출력의 속도입니다. 허용되는 값에 대한 자세한 내용은 SSML(Speech Synthesis Markup Language) 설명서의 prosody 조정 표를 참조하세요. 유효하지 않은 값은 무시됩니다. 이 선택적 속성은 inputKind가 "PlainText"로 설정된 경우에만 적용 가능합니다.
synthesisConfig.style	일부 음성의 경우 말하기 스타일을 조정하여 명랑함, 공감, 차분함과 같은 다양한 감정을 표현할 수 있습니다. 고객 서비스, 뉴스캐스트, 음성 지원 등의 여러 시나리오에 맞게 음성을 최적화할 수 있습니다. 음성별로 사용 가능한 스타일에 대한 자세한 내용은 음성 스타일 및 역할을 참조하세요. 이 선택적 속성은 inputKind가 "PlainText"로 설정된 경우에만 적용 가능합니다.
synthesisConfig.voice	오디오 출력을 말하는 음성입니다. 사용 가능한 미리 빌드된 신경망 음성에 대한 자세한 내용은 언어 및 음성 지원을 참조하세요. Custom Voice을 사용하려면 customVoices 속성에 유효한 Custom Voice 및 배포 ID 매핑을 지정해야 합니다. 이 속성은 inputKind가 "PlainText"로 설정된 경우 필요합니다.
synthesisConfig.volume	오디오 출력의 볼륨입니다. 허용되는 값에 대한 자세한 내용은 SSML(Speech Synthesis Markup Language) 설명서의 prosody 조정 표를 참조하세요. 유효하지 않은 값은 무시됩니다. 이 선택적 속성은 inputKind가 "PlainText"로 설정된 경우에만 적용 가능합니다.
inputKind	입력 텍스트 속성이 일반 텍스트인지 아니면 SSML인지를 나타냅니다. 가능한 대/소문자 구분 값은 "PlainText" 및 "SSML"입니다. inputKind가 "PlainText"로 설정된 경우 합성 구성 음성 속성도 설정해야 합니다. 이 속성은 필수입니다.

배경을 편집하는 방법

아바타 일괄 처리 합성 API는 현재 백그라운드 동영상 설정을 지원하지 않습니다. 정적 배경 이미지만 지원합니다. 그러나 후반 작업 중에 동영상 배경을 추가하려는 경우 투명한 배경이 있는 동영상을 생성할 수 있습니다.

정적 배경 이미지를 설정하려면 avatarConfig.backgroundImage 속성을 사용하고 원하는 이미지를 가리키는 URL을 지정합니다. 또한 avatarConfig.backgroundColor 속성을 사용하여 아바타 동영상의 배경색을 설정할 수 있습니다.

투명한 배경 비디오를 생성하려면 다음 속성을 일괄 처리 합성 요청의 필수 값으로 설정해야 합니다.

속성	배경 투명도를 위한 필수 값
properties.videoFormat	webm
properties.videoCodec	vp9
properties.backgroundColor	#00000000(또는 투명)

Clipchamp는 일괄 처리 합성 API로 생성된 투명 배경 비디오를 지원하는 동영상 편집 도구의 한 예입니다.

일부 비디오 편집 소프트웨어는 webm 형식을 직접 지원하지 않으며 Adobe Premiere Pro와 같은 .mov 형식의 투명한 배경 비디오 입력만 지원합니다. 이러한 경우 먼저 FFMPEG와 같은 도구를 사용하여 비디오 형식을 webm에서 .mov(으)로 변환해야 합니다.

FFMPEG 명령줄:

ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>

FFMPEG는 ffmpeg.org에서 다운로드할 수 있습니다. 명령줄에서 <input.webm>과(와) <output.mov>을(를) 로컬 경로와 파일 이름으로 바꿉니다.

다음을 통해 공유

텍스트 음성 변환 아바타에 대한 일괄 처리 합성 속성

아바타 속성

일괄 처리 합성 작업 속성

텍스트 음성 변환 속성

배경을 편집하는 방법

다음 단계

피드백

피드백

추가 리소스