Long Audio API에서 Batch 합성 API로 코드 마이그레이션

아티클
04/04/2024

Batch 합성 API는 긴 형식 텍스트 음성 변환의 비동기 합성을 제공합니다. 이 문서에서는 Long Audio API에서 Batch 합성 API로 업그레이드할 때의 이점과 이를 수행하는 방법에 대해 자세히 설명합니다.

Important

Batch 합성 API 는 일반적으로 사용할 수 있습니다. Long Audio API는 2027년 4월 1일에 사용 중지됩니다.

기본 경로 및 버전

엔드포인트 https://YourSpeechRegion.customvoice.api.speech.microsoft.com 를 업데이트하거나 https://YourSpeechRegion.api.cognitive.microsoft.com 사용자 지정 작업을 대신 사용할 수 있습니다기본. https://{customDomainName}.cognitiveservices.azure.com/

코드의 기본 경로를 .로 /texttospeech/v3.0/longaudiosynthesis 업데이트합니다 /texttospeech/batchsyntheses.

기본 경로에서 쿼리 문자열 /texttospeech/v3.0/longaudiosynthesis 로 버전을 업데이트합니다 ?api-version=2024-04-01.

예를 들어 eastus 지역의 음성 리소스에 대한 합성 작업을 나열하려면 https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis 대신 https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01를 사용합니다.

지역 및 엔드포인트

Batch 합성 API는 더 많은 Speech 지역에서 사용할 수 있습니다.

Long Audio API는 다음 지역으로 제한됩니다.

지역	엔드포인트
오스트레일리아 동부	`https://australiaeast.customvoice.api.speech.microsoft.com`
미국 동부	`https://eastus.customvoice.api.speech.microsoft.com`
인도 중부	`https://centralindia.customvoice.api.speech.microsoft.com`
미국 중남부	`https://southcentralus.customvoice.api.speech.microsoft.com`
동남아시아	`https://southeastasia.customvoice.api.speech.microsoft.com`
영국 남부	`https://uksouth.customvoice.api.speech.microsoft.com`
서유럽	`https://westeurope.customvoice.api.speech.microsoft.com`

음성 목록

Batch 합성 API는 모든 텍스트 음성 변환 음성 및 스타일을 지원합니다.

Long Audio API는 https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices에 대한 GET 요청에서 반환되는 음성 세트로 제한됩니다.

텍스트 입력

일괄 처리 합성 텍스트 입력은 최대 2MB의 JSON 페이로드로 전송됩니다.

Long Audio API 텍스트 입력은 다음 요구 사항을 충족하는 파일에서 업로드됩니다.

BOM(바이트 순서 표시)이 포함된 UTF-8로 인코딩된 하나의 일반 텍스트(.txt) 또는 SSML 텍스트(.txt) 파일입니다. ZIP과 같은 압축 파일을 사용하지 마세요. 입력 파일이 두 개 이상 있는 경우 여러 요청을 제출해야 합니다.
일반 텍스트의 경우 400자 또는 SSML 텍스트의 경우 400 청구 가능 문자 초과 및 1만 단락 이하를 포함합니다. 일반 텍스트의 경우 각 단락은 새 줄로 구분됩니다. SSML 텍스트의 경우 각 SSML 조각이 단락으로 간주됩니다. 다른 단락으로 SSML 부분을 구분합니다.

Batch 합성 API를 사용하면 audio, mstts:backgroundaudio 및 lexicon 요소를 포함하여 지원되는 SSML 요소를 사용할 수 있습니다. 긴 오디오 API는 , mstts:backgroundaudio및 lexicon 요소를 지원하지 audio않습니다.

오디오 출력 형식

Batch 합성 API는 모든 텍스트 음성 변환 오디오 출력 형식을 지원합니다.

Long Audio API는 다음 오디오 출력 형식 세트로 제한됩니다. 긴 오디오 음성의 샘플 속도는 48kHz가 아닌 24kHz입니다. 합성 시 업샘플링 또는 다운샘플링을 통해 다른 샘플 속도를 가져올 수 있습니다.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

결과 가져오기

일괄 처리 합성 API를 사용하면 HTTP GET 일괄 처리 합성 응답의 속성에서 outputs.result URL을 사용합니다. 결과는 오디오(예: 0001.wav), 요약 및 디버그 세부 정보가 포함된 ZIP 파일에 있습니다.

Long Audio API 텍스트 입력 및 결과는 다음 예제와 같이 두 개의 별도 콘텐츠 URL을 통해 반환됩니다. "kind": "LongAudioSynthesisScript"가 포함된 하나는 제출된 입력 스크립트입니다. "kind": "LongAudioSynthesisResult"가 포함된 다른 하나는 이 요청의 결과입니다. 두 ZIP 파일은 모두 links.contentUrl 속성의 URL에서 다운로드할 수 있습니다.

리소스 정리

Batch 합성 API는 "성공" 또는 "실패"의 상태 없는 최대 300개의 일괄 처리 합성 작업을 지원합니다. Speech Service는 최대 31일 동안 각 합성 기록을 유지하거나 요청 timeToLiveInHours 속성의 기간을 더 빨리 유지합니다. 자동 삭제 날짜 및 시간(상태가 "성공" 또는 "실패"인 합성 작업의 경우)은 lastActionDateTime + timeToLiveInHours 속성과 같습니다.

Long Audio API는 각 Azure 구독 계정에 대해 20,000개의 요청으로 제한됩니다. Speech Service는 작업 기록을 자동으로 제거하지 않습니다. 제한을 초과하는 새 요청을 만들기 전에 이전 작업 실행 기록을 제거해야 합니다.