SSML(Speech Synthesis Markup Language) 개요
SSML(Speech Synthesis Markup Language)은 피치, 발음, 말하기 속도, 음량 등과 같은 텍스트 음성 변환 출력 특성을 미세 조정하는 데 사용할 수 있는 XML 기반 태그 언어입니다. 일반 텍스트 입력보다 더 많은 제어와 유연성을 제공합니다.
팁
음성 갤러리를 사용하여 다양한 스타일과 피치로 예 텍스트를 읽는 음성을 들을 수 있습니다.
사용 사례 시나리오
SSML을 사용하면 음성 출력을 소리 내는 방법을 유연하게 선택할 수 있고 해당 출력을 사용자 지정하는 방법에 대한 다양한 속성을 사용할 수 있습니다. SSML을 사용하여 다음을 수행할 수 있습니다.
- 텍스트 음성 변환 출력의 구조, 콘텐츠 및 기타 특성을 결정하는 입력 텍스트 구조를 정의합니다. 예를 들어 SSML을 사용하여 단락, 문장, 중단, 일시 중지 또는 무음을 정의할 수 있습니다. 나중에 애플리케이션에서 처리할 수 있는 책갈피 또는 viseme과 같은 이벤트 태그로 텍스트를 래핑할 수 있습니다. viseme은 음성 언어로 된 음소의 시각적 설명이자 개별 음성 소리입니다.
- 음성, 언어, 이름, 스타일 및 역할을 선택합니다. 단일 SSML 문서에서 여러 음성을 사용할 수 있습니다. 강조, 말하기 속도, 피치 및 볼륨을 조정할 수도 있습니다. SSML로 음향 효과나 음악 노트와 같은 미리 녹음된 오디오를 삽입할 수도 있습니다.
- 출력 오디오의 발음을 제어합니다. 예를 들어, 음소 및 사용자 지정 어휘집과 함께 SSML을 사용하여 발음을 개선할 수 있습니다. 또한 SSML을 사용하여 단어 또는 수학 식이 발음되는 방식을 정의할 수 있습니다.
SSML을 사용하는 방법
SSML 기능은 사용 사례에 맞는 다양한 도구에서 사용할 수 있습니다.
Important
문장 부호를 포함하여 음성으로 변환되는 각 문자에 대한 요금이 청구됩니다. SSML 문서 자체에는 요금이 청구되지 않지만 이 서비스는 음소 및 피치 같이 텍스트가 음성으로 변환되는 방법을 조정하는 데 사용되는 선택적 요소를 청구 대상 문자로 계산합니다. 자세한 내용은 가격 책정 노트를 참조하세요.
다음과 같은 방법으로 SSML을 사용할 수 있습니다.
- 오디오 콘텐츠 만들기 도구를 사용하여 Speech Studio에서 일반 텍스트 및 SSML을 작성할 수 있습니다. 출력 오디오를 듣고 SSML을 조정하여 음성 합성을 개선할 수 있습니다. 자세한 내용은 오디오 콘텐츠 만들기 도구를 사용하는 음성 합성을 참조하세요.
- 일괄 처리 합성 API는
inputs
속성을 통해 SSML을 허용합니다. - 음성 CLI는
spx synthesize --ssml SSML
명령줄 인수를 통해 SSML을 허용합니다. - Speech SDK는 지원되는 다양한 언어에서 “speak” SSML 메서드를 통해 SSML을 허용합니다.