사용자 지정 인공신경망 음성을 위한 데이터 학습

아티클
03/12/2024

애플리케이션에 대한 사용자 지정 텍스트 음성 변환 음성을 만들 준비가 되었다면 첫 번째 단계는 오디오 레코딩 및 관련 스크립트를 수집하여 음성 모델 학습을 시작하는 것입니다. Speech Service는 이 데이터를 사용하여 레코딩의 음성에 맞게 튜닝된 고유한 음성을 만듭니다. 음성을 학습시킨 후에는 애플리케이션에서 음성 합성을 시작할 수 있습니다.

팁

프로덕션용으로 음성을 만들려면 전문적인 녹음 스튜디오에서 성우가 녹음하도록 하는 것이 좋습니다. 자세한 내용은 음성 샘플을 녹음하여 사용자 지정 신경망 만들기를 참조하세요.

학습 데이터 유형

음성 학습 데이터 세트에는 오디오 녹음 및 관련 대본이 포함된 텍스트 파일이 있습니다. 각 오디오 파일은 단일 발화(단일 문장 또는 대화 체계의 한 순서)를 포함해야 하며 15초 미만이어야 합니다.

경우에 따라 올바른 데이터 세트가 준비되지 않았을 수 있습니다. 대본의 유무에 관계없이 사용 가능한 오디오 파일(짧거나 긴)을 사용하여 사용자 지정 인공신경망 음성 학습을 테스트할 수 있습니다.

다음 표에는 데이터 형식 및 각 데이터 형식을 사용하여 사용자 지정 텍스트 음성 변환 음성 모델을 만드는 방법이 나와 있습니다.

데이터 형식	설명	사용 시기	추가 처리 필요
개별 발화 + 일치하는 대본	개별 발화 오디오 파일(.wav)의 컬렉션(.zip)입니다. 각 오디오 파일의 길이는 15초 이하여야 하며 서식 있는 대본(.txt)과 페어링됩니다.	일치하는 대본이 있는 전문 레코딩	학습용으로 준비.
긴 오디오 + 대본	분할되지 않은 긴 오디오 파일(.wav 또는 .mp3, 20초 이상, 최대 1000개의 오디오 파일)의 컬렉션(.zip)으로, 모든 음성이 포함된 대본의 컬렉션(.zip)과 페어링됩니다.	오디오 파일 및 일치하는 대본이 있지만 발화로 분할되어 있지 않습니다.	구분(일괄 처리 대본 사용). 필요할 때마다 오디오 형식 변환.
오디오 전용(미리 보기)	대본이 없는 오디오 파일(.wav 또는 .mp3, 최대 1000개의 오디오 파일)의 컬렉션(.zip)입니다.	오디오 파일만 사용할 수 있으며 대본이 없습니다.	분할 + 대본 생성(일괄 처리 대본 사용) 필요할 때마다 오디오 형식 변환.

파일은 형식에 따라 데이터 세트로 그룹화되고 zip 파일로 업로드되어야 합니다. 각 데이터 세트는 단일 데이터 형식만 포함할 수 있습니다.

참고 항목

구독당 가져올 수 있는 최대 데이터 세트 수는 표준 구독(S0) 사용자의 경우 500개 Zip 파일입니다.

개별 발화 + 일치하는 대본

개별 발화 레코딩 및 일치하는 대본을 두 가지 방법으로 준비할 수 있습니다. 스크립트를 작성한 후 성우가 읽도록 하거나, 공개적으로 사용 가능한 오디오를 사용하고 텍스트로 기록합니다. 후자의 경우 오디오 파일에서 "음" 및 기타 추임새, 더듬거림, 중얼거리는 말이나 틀린 발음 등을 편집합니다.

음성 모델의 품질을 높이려면 고사양의 마이크를 사용하여 조용한 방에서 녹음합니다. 일관된 볼륨, 말하기 속도, 높낮이 및 표현적 기법은 필수적입니다.

데이터 서식 예는 GitHub의 샘플 학습 집합을 참조하세요. 샘플 학습 집합에는 샘플 스크립트 및 관련 오디오가 포함되어 있습니다.

개별 발화에 대한 오디오 데이터 + 일치하는 대본

각 오디오 파일은 단일 발화(단일 문장 또는 대화 체계의 한 순서)를 포함해야 하며 15초 미만이어야 합니다. 모든 파일은 동일한 음성 언어로 되어 있어야 합니다. 다국어 사용자 지정 텍스트 음성 변환 음성은 중국어-영어 이중 언어를 제외하고는 지원되지 않습니다. 각 오디오 파일에는 파일 이름 확장명이 .wav인 고유한 파일 이름이 있어야 합니다.

오디오를 준비할 때는 다음 지침을 따르세요.

속성	값
파일 형식	.zip 파일로 그룹화된 RIFF(.wav)
File name	Windows OS에서 지원하는 파일 이름 문자이며 확장명은 .wav입니다. `\ / : * ? " < > \\|` 문자는 허용되지 않습니다. 공백으로 시작하거나 끝날 수 없으며, 점으로 시작할 수 없습니다. 중복 파일 이름은 허용되지 않습니다.
샘플링 레이트	사용자 지정 인공신경망 음성을 만들려면 24,000Hz가 필요합니다.
샘플 형식	PCM, 최소 16비트
오디오 길이	15초 미만
보관 형식	.zip
최대 보관 크기	2048MB

참고 항목

사용자 지정 신경망 음성의 기본 샘플링 속도는 24,000Hz입니다. 샘플링 속도가 16,000Hz보다 낮은 오디오 파일은 거부됩니다. .zip 파일에 샘플링 속도가 서로 다른 .wav 파일이 포함되어 있는 경우, 속도가 16,000Hz 이상인 파일만 가져옵니다. 샘플링 속도가 16,000Hz보다 높고 24,000Hz보다 낮은 오디오 파일은 인공신경망 음성을 학습하기 위해 24,000Hz로 업샘플링됩니다. 학습 데이터에 24,000Hz의 샘플 속도를 사용하는 것이 좋습니다.

개별 발화에 대한 대화 내용 기록 데이터 + 일치하는 대본

대본 파일은 일반 텍스트 파일입니다. 다음과 같은 지침에 따라 대본을 준비하세요.

속성	값
파일 형식	일반 텍스트(.txt)
인코딩 형식	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE 또는 UTF-16-BE zh-CN의 경우 ANSI 및 ASCII 인코딩은 지원되지 않습니다.
줄당 발언의 #	1개 - 대본 파일의 각 줄마다 오디오 파일 중 하나의 이름과 해당 대본이 차례로 포함되어야 합니다. 탭(\t)을 사용하여 파일 이름과 대화 내용 기록을 구분해야 합니다.
최대 파일 크기	2048MB

다음은 .txt 파일 하나에 대본이 발화별로 구성되는 방법에 대한 예제입니다.

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

대본은 해당 오디오의 100% 정확한 대화 내용 기록이어야 합니다. 대본에 오류가 있으면 학습 중에 품질이 저하됩니다.

긴 오디오 + 대본(미리 보기)

참고 항목

긴 오디오 + 대본(미리 보기)의 경우 중국어(북경어, 간체), 영어(인도), 영어(영국), 영어(미국), 프랑스어(프랑스), 독일어(독일), 이탈리아어(이탈리아), 일본어(일본), 포르투갈어(브라질) 및 스페인어(멕시코).

분할된 오디오를 사용할 수 없는 경우도 있습니다. Speech Studio는 긴 오디오 파일을 분할하고 대화 내용 기록을 만드는 데 도움이 될 수 있습니다. 긴 오디오 분할 서비스는 음성 텍스트 변환의 일괄 처리 대화 내용 기록 API 기능을 사용합니다.

분할 처리 중에는 인식 모델을 구체화하여 데이터의 정확도를 높일 수 있도록 오디오 파일 및 대본이 사용자 지정 음성 서비스에도 전송됩니다. 이 프로세스 중에는 데이터가 보관되지 않습니다. 분할이 완료되면 분할된 발화와 해당 매핑 대본만 다운로드 및 학습을 위해 저장됩니다.

참고 항목

이 서비스는 음성 텍스트 변환 구독 사용에 대해 요금이 청구됩니다. 긴 오디오 분할 서비스는 표준(S0) 음성 리소스에서만 지원됩니다.

긴 오디오의 오디오 데이터 + 대본

오디오 분할을 준비할 때는 다음 지침을 따르세요.

속성	값
파일 형식	.zip 파일로 그룹화된 RIFF(.wav) 또는 .mp3
File name	Windows OS에서 지원하는 파일 이름 문자이며 확장명은 .wav입니다. `\ / : * ? " < > \\|` 문자는 허용되지 않습니다. 공백으로 시작하거나 끝날 수 없으며, 점으로 시작할 수 없습니다. 중복 파일 이름은 허용되지 않습니다.
샘플링 레이트	사용자 지정 인공신경망 음성을 만들려면 24,000Hz가 필요합니다.
샘플 형식	RIFF(.wav): PCM, 16비트 이상 mp3: 비트 전송률 256KBps 이상
오디오 길이	20초 초과
보관 형식	.zip
최대 보관 크기	2048MB, 최대 1,000개의 오디오 파일 포함

참고 항목

사용자 지정 신경망 음성의 기본 샘플링 속도는 24,000Hz입니다. 샘플링 속도가 16,000Hz보다 낮은 오디오 파일은 거부됩니다. 샘플링 속도가 16,000Hz보다 높고 24,000Hz보다 낮은 오디오 파일은 인공신경망 음성을 학습하기 위해 24,000Hz로 업샘플링됩니다. 학습 데이터에 24,000Hz의 샘플 속도를 사용하는 것이 좋습니다.

모든 오디오 파일은 zip 파일로 그룹화되어야 합니다. .wav 파일과. mp3 파일을 동일한 Zip 파일에 배치해도 괜찮습니다. 예를 들어 'kingstory.wav'라는 45초 오디오 파일과 'queenstory.mp3'라는 200초 길이의 오디오 파일을 동일한 Zip 파일에 업로드할 수 있습니다. 모든 .mp3 파일은 처리 후 .wav 형식으로 변환됩니다.

긴 오디오의 대화 내용 기록 데이터 + 대본

이 표에 나열된 사양에 맞게 대본을 준비해야 합니다. 각 오디오 파일은 대본과 일치해야 합니다.

속성	값
파일 형식	.zip으로 그룹화된 일반 텍스트(.txt)
File name	일치하는 오디오 파일과 동일한 이름 사용
인코딩 형식	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE 또는 UTF-16-BE zh-CN의 경우 ANSI 및 ASCII 인코딩은 지원되지 않습니다.
줄당 발언의 #	제한 없음
최대 파일 크기	2048MB

이 데이터 형식의 모든 대본 파일은 zip 파일로 그룹화되어야 합니다. 예를 들어 'kingstory.wav'라는 45초 오디오 파일과 'queenstory.mp3'라는 200초 길이의 오디오 파일을 동일한 Zip 파일에 업로드할 수 있습니다. 'kingstory.txt'라는 내용과 'queenstory.txt'라는 두 개의 대본이 포함된 다른 Zip 파일을 업로드해야 합니다. 각 일반 텍스트 파일 내에서 일치하는 오디오에 대한 올바른 대화 내용 기록 전체를 제공합니다.

데이터 세트가 성공적으로 업로드되면 제공된 대본을 기반으로 오디오 파일을 발화로 분할하도록 도와드리겠습니다. 데이터 세트를 다운로드하여 분할된 발화와 일치하는 대본을 확인할 수 있습니다. 분할된 발화에는 고유 ID가 자동으로 할당됩니다. 제공하는 대본이 100% 정확한지 확인하는 것이 중요합니다. 대본에 오류가 있으면 오디오 분할 중에 정확도가 떨어지고 이후 학습 단계에서 추가로 품질 손실이 발생할 수 있습니다.

오디오 전용(미리 보기)

참고 항목

오디오 전용(미리 보기)의 경우 중국어(북경어, 간체), 영어(인도), 영어(영국), 영어(미국), 프랑스어(프랑스), 독일어(독일), 이탈리아어(이탈리아), 일본어(일본), 포르투갈어(브라질) 및 스페인어(멕시코)만 지원됩니다.

오디오 녹음에 대한 대본이 없을 경우 오디오만 옵션을 사용하여 데이터를 업로드합니다. Microsoft 시스템에서 오디오 파일을 분할하고 기록하도록 도와줄 수 있습니다. 이 서비스를 사용할 경우 음성 텍스트 변환 구독 사용량에 대한 요금이 부과된다는 점을 참고하세요.

오디오를 준비할 때는 다음 지침을 따르세요.

참고 항목

긴 오디오 분할 서비스는 음성 텍스트 변환 기능의 일괄 처리 대본을 활용하며, 표준 구독(S0) 사용자만 지원합니다.

속성	값
파일 형식	.zip 파일로 그룹화된 RIFF(.wav) 또는 .mp3
File name	Windows OS에서 지원하는 파일 이름 문자이며 확장명은 .wav입니다. `\ / : * ? " < > \\|` 문자는 허용되지 않습니다. 공백으로 시작하거나 끝날 수 없으며, 점으로 시작할 수 없습니다. 중복 파일 이름은 허용되지 않습니다.
샘플링 레이트	사용자 지정 인공신경망 음성을 만들려면 24,000Hz가 필요합니다.
샘플 형식	RIFF(.wav): PCM, 최소 16비트 mp3: 비트 전송률 256KBps 이상
오디오 길이	제한 없음
보관 형식	.zip
최대 보관 크기	2048MB, 최대 1,000개의 오디오 파일 포함

참고 항목

사용자 지정 신경망 음성의 기본 샘플링 속도는 24,000Hz입니다. 샘플링 속도가 16,000Hz보다 높고 24,000Hz보다 낮은 오디오 파일은 인공신경망 음성을 학습하기 위해 24,000Hz로 업샘플링됩니다. 학습 데이터에 24,000Hz의 샘플 속도를 사용하는 것이 좋습니다.

모든 오디오 파일은 zip 파일로 그룹화되어야 합니다. 데이터 세트가 성공적으로 업로드되면 음성 서비스에서 음성 일괄 처리 대화 내용 기록 서비스를 기반으로 오디오 파일을 발화로 분할하도록 도와줍니다. 분할된 발화에는 고유 ID가 자동으로 할당됩니다. 음성 인식을 통해 일치하는 대본이 생성됩니다. 모든 .mp3 파일은 처리 후 .wav 형식으로 변환됩니다. 데이터 세트를 다운로드하여 분할된 발화와 일치하는 대본을 확인할 수 있습니다.

Share via

사용자 지정 인공신경망 음성을 위한 데이터 학습

학습 데이터 유형

개별 발화 + 일치하는 대본

개별 발화에 대한 오디오 데이터 + 일치하는 대본

개별 발화에 대한 대화 내용 기록 데이터 + 일치하는 대본

긴 오디오 + 대본(미리 보기)

긴 오디오의 오디오 데이터 + 대본

긴 오디오의 대화 내용 기록 데이터 + 대본

오디오 전용(미리 보기)

다음 단계

추가 리소스