다음을 통해 공유


SSML(Speech Synthesis Markup Language) 개요

SSML(Speech Synthesis Markup Language)은 피치, 발음, 말하기 속도, 음량 등과 같은 텍스트 음성 변환 출력 특성을 미세 조정하는 데 사용할 수 있는 XML 기반 태그 언어입니다. 일반 텍스트 입력보다 더 많은 제어와 유연성을 제공합니다.

음성 갤러리를 사용하여 다양한 스타일과 피치로 예 텍스트를 읽는 음성을 들을 수 있습니다.

사용 사례 시나리오

SSML을 사용하면 음성 출력을 소리 내는 방법을 유연하게 선택할 수 있고 해당 출력을 사용자 지정하는 방법에 대한 다양한 속성을 사용할 수 있습니다. SSML을 사용하여 다음을 수행할 수 있습니다.

  • 텍스트 음성 변환 출력의 구조, 콘텐츠 및 기타 특성을 결정하는 입력 텍스트 구조를 정의합니다. 예를 들어 SSML을 사용하여 단락, 문장, 중단, 일시 중지 또는 무음을 정의할 수 있습니다. 나중에 애플리케이션에서 처리할 수 있는 책갈피 또는 viseme과 같은 이벤트 태그로 텍스트를 래핑할 수 있습니다. viseme은 음성 언어로 된 음소의 시각적 설명이자 개별 음성 소리입니다.
  • 음성, 언어, 이름, 스타일 및 역할을 선택합니다. 단일 SSML 문서에서 여러 음성을 사용할 수 있습니다. 강조, 말하기 속도, 피치 및 볼륨을 조정할 수도 있습니다. SSML로 음향 효과나 음악 노트와 같은 미리 녹음된 오디오를 삽입할 수도 있습니다.
  • 출력 오디오의 발음을 제어합니다. 예를 들어, 음소 및 사용자 지정 어휘집과 함께 SSML을 사용하여 발음을 개선할 수 있습니다. 또한 SSML을 사용하여 단어 또는 수학 식이 발음되는 방식을 정의할 수 있습니다.

SSML을 사용하는 방법

SSML 기능은 사용 사례에 맞는 다양한 도구에서 사용할 수 있습니다.

Important

문장 부호를 포함하여 음성으로 변환되는 각 문자에 대한 요금이 청구됩니다. SSML 문서 자체에는 요금이 청구되지 않지만 이 서비스는 음소 및 피치 같이 텍스트가 음성으로 변환되는 방법을 조정하는 데 사용되는 선택적 요소를 청구 대상 문자로 계산합니다. 자세한 내용은 가격 책정 노트를 참조하세요.

다음과 같은 방법으로 SSML을 사용할 수 있습니다.

다음 단계