Microsoft Batch synthesis TTS 음성 합성관련 문제

JeongU 20 평판 포인트
2025-05-09T02:40:08.3766667+00:00

microsoft azure batch synthesis를 통해서 tts음성 생성을 요청했는데 일반적 script의 길이를 생각했을때 10-15초 내외의 음성이 생성되어야 하는데 DragonNeuralHD화자에 해당하는 음성들에서 2분가까이 되는 음성들이 생성되었습니다. 음성을 확인해보니 요청한 script에는 없는 이상한 음성이 들어있는 음성들이 다수 존재했습니다. 원하신다면 해당 음성샘플들을 보내드릴 수도 있습니다.

Azure
Azure
Microsoft에서 관리하는 전 세계 데이터 센터 네트워크를 통해 애플리케이션과 서비스를 빌드, 배포, 관리하기 위한 클라우드 컴퓨팅 플랫폼 및 인프라입니다.
질문 143개
투표 {count}개

수락된 답변
  1. JAYA SHANKAR G S 3,880 평판 포인트 Microsoft 외부 직원 중재자
    2025-05-14T04:47:49.29+00:00

    안녕하세요 JeongU,

    우리는 en-US-Davis:DragonHDLatestNeural 음성에 대한 귀하의 문제를 재현할 수 있으며, ssml 스크립트를 전달할 때 입력과 함께 추가적인 잡음이 발생하고 있습니다.

    그래서 우리는 이것을 내부 제품 팀에 업데이트하고 세부 사항을 받는 대로 여러분께 업데이트하겠습니다.

    하지만 SSML 스크립트 없이 일반 텍스트를 시도했을 때, 올바른 결과를 얻을 수 있었습니다.

    그러므로 지금으로서는 아래 본문과 함께 일반 텍스트를 사용하는 우회 방법이 될 것입니다.

    head = {
        "Content-Type": "application/json",
        "Ocp-Apim-Subscription-Key":"api-key"}
    
    endpoint = "https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses/my-batch-synthesis-job-ssml-input-2?api-version=2024-04-01"
    
    body = {
      "inputKind": "PlainText",
      "inputs": [
        {
          "content": 'HULA ZERO FOUR FIRE FOR EFFECT, and then.. QUEBEC SIERRA TWO FOUR FIFE, and then.. FIFE EIGHT ONE SEVEN SIX NINER SIX TWO K, and.. TWO TWO TUNGUSKA  COMPANY HALTED IN OPEN'
        }
      ],
      "properties": {
        "destinationContainerUrl": "destination_url",
        "decompressOutputFiles": True
      },
      "synthesisConfig":{
        "voice": "en-US-Davis:DragonHDLatestNeural",
        "rate": "-3.51%",
        "volume": "18.77%"
      }
    }
    
    results = requests.put(endpoint,headers=head,data=json.dumps(body))
    results.json()
    

    아래에서 오디오 파일의 길이를 볼 수 있습니다.

    사용자의 이미지

    문의 사항이 있으시면 댓글이나 개인 메시지로 알려주십시오.감사합니다

    1명이 이 답변이 도움이 된다고 생각했습니다.

0 추가 답변

정렬 기준: 가장 유용함

답변

질문 작성자가 수락한 답변이라고 답변에 표시할 수 있으며, 이를 통해 작성자의 문제를 해결한 답변을 사용자가 알 수 있도록 도와줍니다.