휴먼 레이블 대화 기록은 오디오 파일의 단어별 대화 내용 기록입니다. 특히 단어가 삭제되거나 잘못 바뀐 경우 인간이 레이블을 붙인 대화 내용 기록을 사용하여 모델 정확도를 평가하고 인식 정확도를 개선합니다. 이 가이드는 고품질 대화 내용 기록을 만드는 데 도움이 될 수 있습니다.
모델 정확도를 평가하려면 대화 내용 기록 데이터의 대표 샘플을 사용하는 것이 좋습니다. 데이터는 사용자가 애플리케이션에 말하는 내용을 대표하는 다양한 화자와 발화를 포함해야 합니다. 테스트 데이터의 경우 각 개별 오디오 파일의 최대 지속 시간은 2시간입니다.
인식을 개선하려면 대화 내용 기록 데이터의 많은 샘플이 필요합니다. 1 ~ 100시간의 오디오 데이터를 제공하는 것이 좋습니다. 음성 서비스는 학습을 위해 최대 100시간의 오디오를 사용합니다(학습 요금을 청구하지 않는 구형 모델의 경우 최대 20시간). 각 개별 오디오 파일은 40초(위스퍼 사용자 지정의 경우 최대 30초)를 초과할 수 없습니다.
이 가이드에는 미국 영어, 표준 중국어, 독일어 로캘 섹션이 있습니다.
모든 WAV 파일의 대화 내용 기록은 단일 일반 텍스트 파일(.txt 또는 .tsv)에 포함됩니다. 대화 내용 기록 파일의 각 줄에는 한 오디오 파일의 이름 다음에 해당 대화 기록 이름이 옵니다. 파일 이름과 대화 내용 기록은 탭(\t
)으로 구분해야 합니다.
예시:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
대화 내용 기록은 텍스트로 정규화되므로 시스템에서 처리할 수 있습니다. 그러나 데이터 세트를 업로드하기 전에 몇 가지 중요한 정규화를 수행해야 합니다.
비영어 또는 북경어 중국어에 대한 휴먼 레이블 대화 기록은 바이트 순서 표식을 사용하여 UTF-8로 인코딩해야 합니다. 다른 로캘의 대화 내용 기록 요구 사항은 다음 섹션을 참조하세요.
en-US
영어 오디오의 휴먼 레이블 대화 기록은 ASCII 문자만 사용하여 일반 텍스트로 제공되어야 합니다. Latin-1 또는 유니코드 문장 부호를 사용하지 않도록 합니다. 이러한 문자는 워드 프로세싱 애플리케이션에서 텍스트를 복사하거나 웹 페이지에서 데이터를 스크랩할 때 실수로 추가되는 경우가 많습니다. 이러한 문자가 있으면 적절한 ASCII 대체를 사용하여 업데이트해야 합니다.
다음은 몇 가지 예입니다.
피할 문자 | 대체 | 주의 |
---|---|---|
"Hello world" | "Hello world" | 여는 따옴표와 닫는 따옴표가 적절한 ASCII 문자로 대체됩니다. |
John’s day | John's day | 아포스트로피가 적절한 ASCII 문자로 대체됩니다. |
It was good—no, it was great! | it was good--no, it was great! | em 대시가 하이픈 두 개로 대체됩니다. |
미국 영어에 대한 텍스트 정규화
텍스트 정규화는 모델을 학습하는 데 사용되는 일관된 형식으로 단어를 변환하는 것입니다. 일부 정규화 규칙은 텍스트에 자동으로 적용되지만 휴먼 레이블 대화 기록 데이터를 준비할 때 이러한 지침을 사용하는 것이 좋습니다.
- 약어를 단어로 작성합니다.
- 비표준 숫자 문자열을 단어로 작성합니다(예: 회계 용어).
- 영문자가 아닌 문자 또는 혼합 영숫자 문자는 발음되는 대로 전사해야 합니다.
- 단어로 발음된 약어는 편집할 수 없습니다(예: "레이더", "레이저", "RAM" 또는 "NATO").
- 각 문자가 공백으로 구분되는 별도의 문자로 발음되는 약어를 작성합니다.
- 오디오를 사용하는 경우 오디오와 일치하는 단어(예: "101"을 "one oh one" 또는 "one hundred and one"으로 발음할 수 있음)로 숫자를 기록합니다.
- 반복되는 문자, 단어 또는 단어 그룹을 세 번보다 많이(예: "yeah yeah yeah yeah") 반복하지 않습니다. Speech Service는 반복되는 줄을 삭제할 수 있습니다.
다음은 대화 내용 기록에서 수행해야 하는 정규화의 몇 가지 예제입니다.
Original text | 정규화 후 텍스트(사람) |
---|---|
Dr. Bruce Banner | Doctor Bruce Banner |
James Bond, 007 | James Bond, double oh seven |
Ke$ha | Kesha |
How long is the 2x4 | How long is the two by four |
The meeting goes from 1-3pm | The meeting goes from one to three pm |
My blood type is O+ | My blood type is O positive |
Water is H20 | Water is H 2 O |
Play OU812 by Van Halen | Play O U 8 1 2 by Van Halen |
UTF-8(BOM 포함) | U T F 8 with BOM |
It costs $3.14 | It costs three fourteen |
다음 정규화 규칙은 자동으로 대화 내용 기록에 적용됩니다.
- 소문자를 사용합니다.
- 단어 내에서 아포스트로피를 제외한 모든 문장 부호를 제거합니다.
- 숫자를 달러 양과 같은 단어/발성 형식으로 확장합니다.
다음은 대화 내용 기록에 대해 자동으로 수행되는 정규화의 몇 가지 예제입니다.
Original text | 정규화 후 텍스트(자동) |
---|---|
"Holy cow!" said Batman. | holy cow said batman |
"What?" said Batman's sidekick, Robin. | what said batman's sidekick robin |
Go get -em! | go get em |
I'm double-jointed | I'm double jointed |
104 Elm Street | one oh four Elm street |
Tune to 102.7 | tune to one oh two point seven |
Pi is about 3.14 | pi is about three point one four |
de-DE
독일어 오디오의 휴먼 레이블 대화 기록은 바이트 순서 표식을 사용하여 UTF-8로 인코딩해야 합니다.
독일어에 대한 텍스트 정규화
텍스트 정규화는 모델을 학습하는 데 사용되는 일관된 형식으로 단어를 변환하는 것입니다. 일부 정규화 규칙은 텍스트에 자동으로 적용되지만 휴먼 레이블 대화 기록 데이터를 준비할 때 이러한 지침을 사용하는 것이 좋습니다.
- "."가 아닌 ","로 소수점을 작성합니다.
- "."가 아닌 ":"로 시간 구분 기호를 작성합니다(예: 12:00 Uhr).
- "ca"와 같은 약어는 대체되지 않습니다. 전체 발성 형식을 사용하는 것이 좋습니다.
- 네 개의 기본 수학 연산자(+, -, * 및 /)를 제거합니다. "plus", "minus", "mal" 및 "geteilt"와 같은 작성 형식으로 바꾸는 것이 좋습니다.
- 비교 연산자가 제거됩니다(=, < 및 >). "gleich", "kleiner als" 및 "grösser als"로 바꾸는 것이 좋습니다.
- 3/4과 같은 분수는 작성 형식(예: 3/4 대신 "drei viertel")으로 작성합니다.
- "€" 기호를 작성 형식 "유로"로 바꿉니다.
다음은 대화 내용 기록에서 수행해야 하는 정규화의 몇 가지 예제입니다.
Original text | 사용자 정규화 후 텍스트 | 시스템 정규화 후 텍스트 |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
다음 정규화 규칙은 자동으로 대화 내용 기록에 적용됩니다.
- 모든 텍스트에 소문자를 사용합니다.
- 다양한 유형의 따옴표를 포함하여 모든 문장 부호를 제거합니다("테스트", '테스트', "테스트„ 및 «테스트»는 허용됨).
- 이 집합 ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬의 특수 문자를 포함하는 행을 버립니다.
- 달러 또는 유로 금액을 포함하여 숫자를 발성 형식으로 확장합니다.
- a, o 및 u에 대해서만 움라우트를 허용합니다. 다른 항목은 "th"로 바뀌거나 삭제됩니다.
다음은 대화 내용 기록에 대해 자동으로 수행되는 정규화의 몇 가지 예제입니다.
Original text | 정규화 후 텍스트 |
---|---|
Frankfurter Ring | frankfurter ring |
¡Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
일본어(ja-JP)에서 각 문장의 최대 길이는 90자입니다. 문장이 이보다 더 긴 줄은 무시됩니다. 긴 텍스트를 추가하려면 사이에 마침표를 삽입합니다.
zh-CN
북경어 중국어 오디오의 휴먼 레이블 대화 기록은 바이트 순서 표식을 사용하여 UTF-8로 인코딩해야 합니다. 반자 문장 부호 문자를 사용하지 않아야 합니다. 이러한 문자는 워드 프로세싱 프로그램에서 데이터를 준비하거나 웹 페이지에서 데이터를 스크랩할 때 실수로 포함될 수 있습니다. 이러한 문자가 있으면 적절한 전자 대체를 사용하여 업데이트해야 합니다.
다음은 몇 가지 예입니다.
피할 문자 | 대체 | 주의 |
---|---|---|
"你好" | "你好" | 여는 따옴표와 닫는 따옴표가 적절한 문자로 대체됩니다. |
需要什么帮助? | 需要什么帮助? | 물음표가 적절한 문자로 대체됩니다. |
북경어 중국어에 대한 텍스트 정규화
텍스트 정규화는 모델을 학습하는 데 사용되는 일관된 형식으로 단어를 변환하는 것입니다. 일부 정규화 규칙은 텍스트에 자동으로 적용되지만 휴먼 레이블 대화 기록 데이터를 준비할 때 이러한 지침을 사용하는 것이 좋습니다.
- 약어를 단어로 작성합니다.
- 숫자 문자열은 음성 형식으로 기록합니다.
다음은 대화 내용 기록에서 수행해야 하는 정규화의 몇 가지 예제입니다.
Original text | 정규화 후 텍스트 |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
다음 정규화 규칙은 자동으로 대화 내용 기록에 적용됩니다.
- 모든 문장 부호 제거
- 숫자를 음성 형식으로 확장
- 전자 문자를 반자 문자로 변환
- 모든 영어 단어에 대문자 사용
자동 대화 내용 기록 정규화의 몇 가지 예제는 다음과 같습니다.
Original text | 정규화 후 텍스트 |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3.5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |