사용자 지정 신경망 음성 Lite(미리 보기)

아티클
03/08/2024

Speech Studio는 CNV Lite 및 CNV Professional의 두 가지 CNV(사용자 지정 신경망 음성) 프로젝트 형식을 제공합니다.

CNV(사용자 지정 신경망 음성) Professional을 사용하면 전문 녹음 스튜디오를 통해 수집한 학습 데이터를 업로드하고 인간 샘플과 거의 구별할 수 없는 고품질 음성을 생성할 수 있습니다. CNV Professional 액세스는 자격 및 사용 조건에 따라 제한됩니다. 접수 양식에서 액세스 권한을 요청하세요.
CNV(사용자 지정 신경망 음성) Lite는 퍼블릭 미리 보기로 제공되는 새 프로젝트 형식입니다. 전문 녹음에 투자하기 전에 사용자 지정 신경망 음성을 데모하고 평가하여 고품질 음성을 생성할 수 있습니다. 애플리케이션은 필요 없습니다. Microsoft는 사용자 지정 신경망 음성 Lite에서 사용할 녹음 샘플과 테스트 샘플을 제한하고 선택합니다. 비즈니스 목적으로 CNV Lite 모델을 배포하고 사용하려면 CNV Professional에 대한 모든 권한을 신청해야 합니다.

CNV Lite 프로젝트를 사용하면 Microsoft에서 제공하는 20~50개의 미리 정의된 스크립트를 읽어 음성을 온라인으로 녹음할 수 있습니다. 20개 이상의 샘플이 녹음되면 모델 학습을 시작할 수 있습니다. 모델이 성공적으로 학습되면 모델을 검토하고 미리 정의된 다른 스크립트 세트를 사용하여 생성된 20개의 출력 샘플을 확인할 수 있습니다.

사용자 지정 신경망 음성에 대해 지원되는 언어를 참조하세요.

프로젝트 유형 비교

다음 표에는 CNV Lite 및 CNV Professional 프로젝트 형식 간의 주요 차이점이 요약되어 있습니다.

아이템	Lite(미리 보기)	Pro
대상 시나리오	데모 또는 평가	챗봇에 대한 브랜드 및 문자 음성 또는 오디오 콘텐츠 읽기와 같은 전문적인 시나리오
학습 데이터	Speech Studio를 사용하여 온라인으로 녹음	사용자 고유의 데이터를 가져옵니다 전문 스튜디오에서 녹음하는 것이 좋습니다.
녹음 스크립트	Speech Studio에서 제공	사용 사례 시나리오와 일치하는 사용자 고유의 스크립트를 사용합니다. Microsoft에서 참조용 예제 스크립트를 제공합니다.
필요한 데이터 크기	20~50개 발화	300~2,000개 발화
학습 시간	컴퓨팅 시간 1시간 미만	약 20~40 컴퓨팅 시간
음성 품질	보통 품질	고품질
가용성	누구나 샘플을 온라인으로 녹음하고 모델을 데모 및 평가 용도로 학습시킬 수 있습니다. 비즈니스용 CNV Lite 모델을 배포하려면 사용자 지정 신경망 음성에 대한 모든 권한이 필요합니다.	데이터 업로드는 제한되지 않지만 액세스가 승인된 후에만 CNV Professional 모델을 학습시키고 배포할 수 있습니다. CNV Professional 액세스는 자격 및 사용 조건에 따라 제한됩니다. 접수 양식에서 액세스 권한을 요청하세요.
가격 책정	단가는 CNV Lite 및 CNV Professional 프로젝트 모두에 동일하게 적용됩니다. 여기의 가격 책정 세부 정보를 확인하세요.	단가는 CNV Lite 및 CNV Professional 프로젝트 모두에 동일하게 적용됩니다. 여기의 가격 책정 세부 정보를 확인하세요.

사용자 지정 신경망 음성 Lite 프로젝트 만들기

사용자 지정 신경망 음성 Lite 프로젝트를 만들려면 다음 단계를 수행합니다.

Speech Studio에 로그인합니다.
작업할 구독 및 음성 리소스를 선택합니다.

Important

사용자 지정 신경망 음성 학습은 현재 일부 지역에서만 사용할 수 있습니다. 자세한 내용은 지역 표의 각주를 참조하세요.
사용자 지정 음성>프로젝트 만들기를 선택합니다.
사용자 지정 신경망 음성 Lite>다음을 선택합니다.

참고 항목

사용자 지정 신경망 음성 Pro 프로젝트를 만들려면 사용자 지정 신경망 음성용 프로젝트 만들기를 참조하세요.
마법사에서 제공하는 지침에 따라 프로젝트를 만듭니다.
이름으로 새 프로젝트를 선택하거나 프로젝트로 이동을 선택합니다. 왼쪽 패널에는 녹음 및 빌드, 모델 검토 및 모델 배포와 같은 메뉴 항목이 표시됩니다.

CNV Lite 프로젝트는 성우가 녹음한 구술이 제출되지 않는 한, 90일 후에 만료됩니다.

CNV Lite 모델 녹음 및 빌드

온라인으로 제공된 스크립트를 사용하여 20개 이상의 음성 샘플(최대 50개)을 녹음합니다. 여기에 녹음된 음성 샘플은 음성의 합성 버전을 만드는 데 사용됩니다.

음성 샘플을 녹음하는 데 도움이 되는 몇 가지 팁은 다음과 같습니다.

좋은 마이크를 사용합니다. 고품질 마이크를 사용하여 샘플의 명확성을 높입니다. 말할 때의 소음을 방지하기 위해 마이크에서 8인치 정도 떨어진 곳에서 말하세요.
배경 소음을 방지합니다. 배경 소음이나 에코가 없는 조용한 방에서 녹음합니다.
자연스럽고 느긋하게 말하세요. 문장을 읽을 때 감정을 표현할 수 있습니다.
한 테이크로 녹음합니다. 한 세션에서 모든 문장을 녹음하여 일관된 에너지 수준을 유지합니다.
각 단어를 올바르게 발음하고 명확하게 말합니다.

CNV Lite 모델을 녹음하고 빌드하려면 다음 단계를 수행합니다.

사용자 지정 음성> 프로젝트 이름 >기록 및 빌드를 선택합니다.
시작하기를 선택합니다.
성우 사용 약관을 주의 깊게 읽어보세요. 사용 약관에 동의하는 확인란을 선택합니다.
수락을 선택합니다.
마이크 아이콘을 눌러 소음 검사를 시작하세요. 이 소음 검사는 몇 초 이내에 완료되며 검사 동안에는 말할 필요가 없습니다.
소음이 감지되면 다시 확인을 선택하여 소음 검사를 반복할 수 있습니다. 소음이 감지되지 않은 경우 완료를 선택하여 다음 단계를 진행할 수 있습니다.
녹음 팁을 검토하고 확인을 선택합니다. 최상의 결과를 얻으려면 음성 샘플을 녹음하기 전에 배경 소음이 없는 조용한 장소로 이동합니다.
마이크 아이콘을 눌러 녹음을 시작합니다.
중지 아이콘을 눌러 녹음을 중지합니다.
품질 메트릭을 검토합니다. 각 샘플을 녹음한 후 다음 샘플을 계속하기 전에 품질 메트릭을 확인합니다.
더 많은 샘플을 녹음합니다. 20개의 샘플만으로 모델을 만들 수는 있지만 품질을 높이려면 최대 50개까지 녹음하는 것이 좋습니다.
모델 학습을 선택하여 학습 프로세스를 시작합니다.

학습 프로세스에는 약 1시간의 컴퓨팅 시간이 소요됩니다. 모델 검토 페이지에서 학습 프로세스의 진행률을 확인할 수 있습니다.

모델 검토

CNV Lite 모델을 검토하고 고유한 가상 음성을 들으려면 다음 단계를 수행합니다.

사용자 지정 음성> 프로젝트 이름 >모델 검토를 선택합니다. 여기에서 음성 모델 이름, 모델 언어, 샘플 데이터 크기 및 학습 진행률을 검토할 수 있습니다. 음성 이름은 프로젝트 이름에 추가된 "Neural"이라는 단어로 구성됩니다.
음성 모델 이름을 선택하여 모델 세부 정보를 검토하고 샘플 텍스트 음성 변환 결과를 수신 대기합니다.
재생 아이콘을 선택하여 음성이 각 스크립트를 말하는 것을 들을 수 있습니다.

구술 제출

비즈니스용 모델을 배포하기 전에 성우가 녹음한 구술도 필요합니다.

음성 구술을 제출하려면 다음 단계를 수행합니다.

사용자 지정 음성> 프로젝트 이름 >모델 배포>성우 관리를 선택합니다.
모델을 선택합니다.
성우 이름 및 회사 이름을 입력합니다.
구술을 읽고 녹음합니다. 마이크 아이콘을 선택하여 녹음을 시작합니다. 중지 아이콘을 선택하여 녹음을 중지합니다.
제출을 선택하여 구술을 제출합니다.
대시보드 아래쪽의 스크립트 테이블에서 처리 상태를 확인합니다. 상태가 성공이면 모델을 배포할 수 있습니다.

모델 배포

음성 모델을 배포하고 애플리케이션에서 사용하려면 사용자 지정 신경망 음성에 대한 모든 권한을 얻어야 합니다. 접수 양식에서 액세스 권한을 요청하세요. 영업일 기준 약 10일 이내에 승인 상태의 메일을 받게 됩니다. 비즈니스용 모델을 배포하기 전에 성우가 녹음한 구술도 필요합니다.

CNV Lite 모델을 배포하려면 다음 단계를 수행합니다.

사용자 지정 음성> 프로젝트 이름 >모델 배포>모델 배포를 선택합니다.
음성 모델 이름을 선택하고 다음을 선택합니다.
엔드포인트의 이름과 설명을 입력하고 다음을 선택합니다.
사용 약관에 동의하는 확인란을 선택하고 다음을 선택합니다.
배포를 선택하여 모델을 배포합니다.

여기에서 CNV Professional 음성 모델을 사용하는 것과 마찬가지로 CNV Lite 음성 모델을 사용할 수 있습니다. 예를 들어 엔드포인트를 만든 후에 일시 중단하거나 다시 시작하여 지출을 제한하고 사용하지 않는 리소스를 절약할 수 있습니다. Speech Studio의 오디오 콘텐츠 만들기 도구에서 음성에 액세스할 수도 있습니다.

다음을 통해 공유