다음을 통해 공유


애플리케이션에서 개인 보이스 사용

개인 보이스에 화자 프로필 ID를 사용하여 100개 이상의 로캘에서 지원되는 91개 언어로 음성을 합성할 수 있습니다. 로캘 태그는 필요하지 않습니다. 개인 보이스는 문장 수준에서 자동 언어 감지를 사용합니다.

애플리케이션에서 개인 보이스 통합

애플리케이션에서 개인 보이스을 사용하려면 SSML(Speech Synthesis Markup Language)을 사용해야 합니다. SSML은 가상 음성 생성을 위해 텍스트를 표시하는 표준 방법을 제공하는 XML 기반 태그 언어입니다. SSML 태그는 음성 합성 출력의 발음, 볼륨, 피치, 속도 및 기타 특성을 제어하는 데 사용됩니다.

  • SSML의 speakerProfileId 속성은 개인 보이스의 화자 프로필 ID를 지정하는 데 사용됩니다.

  • 음성 이름은 SSML의 name 속성에서 지정됩니다. 개인 보이스의 경우 음성 이름은 지원되는 기본 모델 음성 이름 중 하나여야 합니다. 지원되는 기본 모델 음성 이름 목록을 얻으려면 사용자 지정 음성 API의 BaseModels_List 작업을 사용합니다.

    참고 항목

    Latest(예: DragonLatestNeural 또는 PhoenixLatestNeural)를 사용하여 레이블이 지정된 음성 이름은 수시로 업데이트됩니다. 성능은 지속적인 개선을 위한 업데이트에 따라 달라질 수 있습니다. 수정된 버전을 사용하려면 버전 번호로 레이블이 지정된 버전(예: PhoenixV2Neural)을 선택합니다.

  • DragonLatestNeuralPhoenixLatestNeural에 비해 음성 복제 유사성이 뛰어난 기본 모델입니다. PhoenixLatestNeuralDragonLatestNeural보다 발음이 정확하고 대기 시간이 짧은 기본 모델입니다.

  • Dragon 모델은 SSML의 <lang xml:lang> 요소를 지원하지 않습니다.

다음은 음성 이름 및 화자 프로필 ID가 있는 텍스트 음성 변환 요청의 예제 SSML입니다.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

Speech SDK 또는 REST API를 통해 SSML을 사용할 수 있습니다.

  • 실시간 음성 합성: Speech SDK 또는 REST API를 사용하여 텍스트를 음성으로 변환합니다.
    • Speech SDK를 사용하는 경우 사전 빌드 음성처럼 엔드포인트 ID를 설정하지 마세요.
    • REST API를 사용하는 경우 미리 빌드된 인공신경망 음성 엔드포인트를 사용하세요.

참조 설명서

다음 단계

  • 개요에서 사용자 지정 신경망 음성에 대해 자세히 알아봅니다.
  • 개요에서 Speech Studio에 대해 자세히 알아봅니다.