Long Audio API에서 Batch 합성 API로 코드 마이그레이션
Batch 합성 API는 긴 형식 텍스트 음성 변환의 비동기 합성을 제공합니다. 이 문서에서는 Long Audio API에서 Batch 합성 API로 업그레이드할 때의 이점과 이를 수행하는 방법에 대해 자세히 설명합니다.
Important
Batch 합성 API 는 일반적으로 사용할 수 있습니다. Long Audio API는 2027년 4월 1일에 사용 중지됩니다.
기본 경로 및 버전
엔드포인트 https://YourSpeechRegion.customvoice.api.speech.microsoft.com
https://YourSpeechRegion.api.cognitive.microsoft.com
를 업데이트하거나 사용자 지정 도메인을 대신 https://{customDomainName}.cognitiveservices.azure.com/
사용할 수 있습니다.
코드의 기본 경로를 .로 /texttospeech/v3.0/longaudiosynthesis
업데이트합니다 /texttospeech/batchsyntheses
.
기본 경로에서 쿼리 문자열 /texttospeech/v3.0/longaudiosynthesis
로 버전을 업데이트합니다 ?api-version=2024-04-01
.
예를 들어 eastus
지역의 음성 리소스에 대한 합성 작업을 나열하려면 https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
대신 https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
를 사용합니다.
지역 및 엔드포인트
Batch 합성 API는 더 많은 Speech 지역에서 사용할 수 있습니다.
Long Audio API는 다음 지역으로 제한됩니다.
지역 | 엔드포인트 |
---|---|
오스트레일리아 동부 | https://australiaeast.customvoice.api.speech.microsoft.com |
미국 동부 | https://eastus.customvoice.api.speech.microsoft.com |
인도 중부 | https://centralindia.customvoice.api.speech.microsoft.com |
미국 중남부 | https://southcentralus.customvoice.api.speech.microsoft.com |
동남아시아 | https://southeastasia.customvoice.api.speech.microsoft.com |
영국 남부 | https://uksouth.customvoice.api.speech.microsoft.com |
서유럽 | https://westeurope.customvoice.api.speech.microsoft.com |
음성 목록
Batch 합성 API는 모든 텍스트 음성 변환 음성 및 스타일을 지원합니다.
Long Audio API는 https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
에 대한 GET 요청에서 반환되는 음성 세트로 제한됩니다.
텍스트 입력
일괄 처리 합성 텍스트 입력은 최대 2MB의 JSON 페이로드로 전송됩니다.
Long Audio API 텍스트 입력은 다음 요구 사항을 충족하는 파일에서 업로드됩니다.
- BOM(바이트 순서 표시)이 포함된 UTF-8로 인코딩된 하나의 일반 텍스트(.txt) 또는 SSML 텍스트(.txt) 파일입니다. ZIP과 같은 압축 파일을 사용하지 마세요. 입력 파일이 두 개 이상 있는 경우 여러 요청을 제출해야 합니다.
- 일반 텍스트의 경우 400자 또는 SSML 텍스트의 경우 400 청구 가능 문자 초과 및 1만 단락 이하를 포함합니다. 일반 텍스트의 경우 각 단락은 새 줄로 구분됩니다. SSML 텍스트의 경우 각 SSML 조각이 단락으로 간주됩니다. 다른 단락으로 SSML 부분을 구분합니다.
Batch 합성 API를 사용하면 audio
, mstts:backgroundaudio
및 lexicon
요소를 포함하여 지원되는 SSML 요소를 사용할 수 있습니다. 긴 오디오 API는 , mstts:backgroundaudio
및 lexicon
요소를 지원하지 audio
않습니다.
오디오 출력 형식
Batch 합성 API는 모든 텍스트 음성 변환 오디오 출력 형식을 지원합니다.
Long Audio API는 다음 오디오 출력 형식 세트로 제한됩니다. 긴 오디오 음성의 샘플 속도는 48kHz가 아닌 24kHz입니다. 합성 시 업샘플링 또는 다운샘플링을 통해 다른 샘플 속도를 가져올 수 있습니다.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
결과 가져오기
일괄 처리 합성 API를 사용하면 HTTP GET 일괄 처리 합성 응답의 속성에서 outputs.result
URL을 사용합니다. 결과는 오디오(예: 0001.wav
), 요약 및 디버그 세부 정보가 포함된 ZIP 파일에 있습니다.
Long Audio API 텍스트 입력 및 결과는 다음 예제와 같이 두 개의 별도 콘텐츠 URL을 통해 반환됩니다. "kind": "LongAudioSynthesisScript"
가 포함된 하나는 제출된 입력 스크립트입니다. "kind": "LongAudioSynthesisResult"
가 포함된 다른 하나는 이 요청의 결과입니다. 두 ZIP 파일은 모두 links.contentUrl
속성의 URL에서 다운로드할 수 있습니다.
리소스 정리
Batch 합성 API는 "성공" 또는 "실패" 상태가 없는 최대 300개의 일괄 처리 합성 작업을 지원합니다. Speech Service는 최대 31일 동안 각 합성 기록을 유지하거나 요청 timeToLiveInHours
속성의 기간을 더 빨리 유지합니다. 자동 삭제 날짜 및 시간(상태가 "성공" 또는 "실패"인 합성 작업의 경우)은 lastActionDateTime
+ timeToLiveInHours
속성과 같습니다.
Long Audio API는 각 Azure 구독 계정에 대해 20,000개의 요청으로 제한됩니다. Speech Service는 작업 기록을 자동으로 제거하지 않습니다. 제한을 초과하는 새 요청을 만들기 전에 이전 작업 실행 기록을 제거해야 합니다.