SSML(Speech Synthesis Markup Language) 개요

아티클
09/24/2024

SSML(Speech Synthesis Markup Language)은 피치, 발음, 말하기 속도, 음량 등과 같은 텍스트 음성 변환 출력 특성을 미세 조정하는 데 사용할 수 있는 XML 기반 태그 언어입니다. 일반 텍스트 입력보다 더 많은 제어와 유연성을 제공합니다.

팁

음성 갤러리를 사용하여 다양한 스타일과 피치로 예 텍스트를 읽는 음성을 들을 수 있습니다.

사용 사례 시나리오

SSML을 사용하면 음성 출력을 소리 내는 방법을 유연하게 선택할 수 있고 해당 출력을 사용자 지정하는 방법에 대한 다양한 속성을 사용할 수 있습니다. SSML을 사용하여 다음을 수행할 수 있습니다.

텍스트 음성 변환 출력의 구조, 콘텐츠 및 기타 특성을 결정하는 입력 텍스트 구조를 정의합니다. 예를 들어 SSML을 사용하여 단락, 문장, 중단, 일시 중지 또는 무음을 정의할 수 있습니다. 나중에 애플리케이션에서 처리할 수 있는 책갈피 또는 viseme과 같은 이벤트 태그로 텍스트를 래핑할 수 있습니다. viseme은 음성 언어로 된 음소의 시각적 설명이자 개별 음성 소리입니다.
음성, 언어, 이름, 스타일 및 역할을 선택합니다. 단일 SSML 문서에서 여러 음성을 사용할 수 있습니다. 강조, 말하기 속도, 피치 및 볼륨을 조정할 수도 있습니다. SSML로 음향 효과나 음악 노트와 같은 미리 녹음된 오디오를 삽입할 수도 있습니다.
출력 오디오의 발음을 제어합니다. 예를 들어, 음소 및 사용자 지정 어휘집과 함께 SSML을 사용하여 발음을 개선할 수 있습니다. 또한 SSML을 사용하여 단어 또는 수학 식이 발음되는 방식을 정의할 수 있습니다.

SSML을 사용하는 방법

SSML 기능은 사용 사례에 맞는 다양한 도구에서 사용할 수 있습니다.

Important

문장 부호를 포함하여 음성으로 변환되는 각 문자에 대한 요금이 청구됩니다. SSML 문서 자체에는 요금이 청구되지 않지만 이 서비스는 음소 및 피치 같이 텍스트가 음성으로 변환되는 방법을 조정하는 데 사용되는 선택적 요소를 청구 대상 문자로 계산합니다. 자세한 내용은 가격 책정 노트를 참조하세요.

다음과 같은 방법으로 SSML을 사용할 수 있습니다.

오디오 콘텐츠 만들기 도구를 사용하여 Speech Studio에서 일반 텍스트 및 SSML을 작성할 수 있습니다. 출력 오디오를 듣고 SSML을 조정하여 음성 합성을 개선할 수 있습니다. 자세한 내용은 오디오 콘텐츠 만들기 도구를 사용하는 음성 합성을 참조하세요.
일괄 처리 합성 API는 inputs 속성을 통해 SSML을 허용합니다.
음성 CLI는 spx synthesize --ssml SSML 명령줄 인수를 통해 SSML을 허용합니다.
Speech SDK는 지원되는 다양한 언어에서 “speak” SSML 메서드를 통해 SSML을 허용합니다.

다음을 통해 공유

SSML(Speech Synthesis Markup Language) 개요

사용 사례 시나리오

SSML을 사용하는 방법

다음 단계

피드백

추가 리소스