학습 및 테스트 데이터 세트

아티클
02/23/2024

사용자 지정 음성 프로젝트에서 학습, 질적 검사 및 정량적 측정을 위한 데이터 세트를 업로드할 수 있습니다. 이 문서에서는 사용자 지정 음성에 사용할 수 있는 학습 및 테스트 데이터 유형을 설명합니다.

사용자 지정 모델을 테스트하고 학습하는 데 사용되는 텍스트와 오디오는 모델이 인식해야 하는 다양한 발화자 및 시나리오 세트의 샘플을 포함해야 합니다. 사용자 지정 모델 테스트 및 학습을 위해 데이터를 수집할 때 다음 요소를 고려합니다.

사용자가 모델과 상호 작용할 때 사용자가 사용하게 될 다양한 종류의 발화문을 포함하도록 텍스트 및 오디오 데이터를 포함합니다. 예를 들어 온도 조절을 위한 모델의 경우 사용자가 온도 조절 요청을 위해 사용하게 될 문을 학습시켜야 합니다.
모델이 인식하도록 하려는 모든 음성 가변성을 포함합니다. 억양, 방언, 언어 혼합, 연령, 성별, 음성 피치, 스트레스 수준 및 녹음 일정 등 많은 요인으로 인해 음성이 달라질 수 있습니다.
모델이 사용될 여러 환경(예: 실내, 실외, 도로 노이즈)의 샘플을 포함합니다.
프로덕션 시스템에서 사용하는 하드웨어 디바이스로 오디오를 녹음합니다. 모델에서 다양한 품질의 디바이스에서 기록된 음성을 식별해야 하는 경우 모델 학습을 위해 제공하는 오디오 데이터는 이러한 다양한 시나리오를 나타내야 합니다.
데이터 세트를 다양하고 프로젝트 요구사항을 대표적으로 유지합니다. 나중에 모델에 더 많은 데이터를 추가할 수 있습니다.
모델이 기록해야 하는 데이터만 포함합니다. 사용자 지정 모델의 인식 요구 사항에 없는 데이터를 포함하면 전반적인 인식 품질이 저하될 수 있습니다.

데이터 형식

다음 테이블에는 허용되는 데이터 형식, 각 데이터 형식을 사용해야 하는 경우 및 권장 수량이 나와 있습니다. 모델을 만드는 데 모든 데이터 형식이 필요하지는 않습니다. 데이터 요구 사항은 테스트를 만드는지 모델을 학습시키는지에 따라 다릅니다.

데이터 형식	테스트용으로 사용	테스트 권장	학습용으로 사용	학습 권장
오디오 전용	예(시각적 검사)	5개 이상의 오디오 파일	예(`en-US`에 대한 미리 보기)	1-20시간 분량의 오디오
오디오 + 휴먼 레이블 대화 기록	예(정확도 평가)	0.5-5시간 분량의 오디오	예	1-20시간 분량의 오디오
일반 텍스트	아니요	해당 없음	예	1-200MB의 관련 텍스트
구조화된 텍스트	아니요	해당 없음	예	최대 4,000개의 항목과 50,000개의 교육 문장으로 구성된 최대 10개 클래스
발음	아니요	해당 없음	예	1KB~1MB의 발음 텍스트
표시 형식	아니요	해당 없음	예	ITN 최대 200줄, 재작성 1,000줄, 욕설 필터 1,000줄

일반 텍스트 또는 구조화된 텍스트를 통한 학습은 일반적으로 몇 분 이내에 완료됩니다.

팁

일반 텍스트 데이터 또는 구조적 텍스트 데이터로 시작합니다. 이 데이터로 특수한 용어와 구문을 인식하는 수준이 향상될 것입니다. 텍스트를 통한 학습(몇 분)은 오디오를 통한 학습(며칠)보다 훨씬 빠릅니다.

모델을 사용할 언어, 음향 및 하드웨어에 맞는 작은 샘플 데이터 세트로 시작합니다. 학습용으로 더 큰 데이터 세트를 수집하는 데 투자하기 전에 대표 데이터의 작은 데이터 세트에 문제가 생길 수 있습니다. 샘플 사용자 지정 음성 데이터는 이 GitHub 리포지토리를 참조하세요.

오디오 데이터를 사용하여 사용자 지정 모델을 학습하는 경우 오디오 데이터 학습을 위한 전용 하드웨어가 있는 음성 리소스 지역을 선택합니다. 자세한 내용은 지역 표의 각주를 참조하세요. 사용자 지정 음성 학습을 위한 전용 하드웨어가 있는 지역에서 Speech Service는 최대 20시간의 오디오 학습 데이터를 사용하고 하루에 약 10시간의 데이터를 처리할 수 있습니다. 다른 지역에서는 Speech Services가 최대 8시간의 오디오 데이터를 사용하고 하루에 약 1시간의 데이터를 처리할 수 있습니다. 모델을 학습한 후 Models_CopyTo REST API를 사용하여 필요에 따라 모델을 다른 지역에 복사할 수 있습니다.

시나리오별 데이터 세트 고려

시나리오의 하위 집합에 대해 학습된 모델은 해당 시나리오에서만 잘 작동할 수 있습니다. 사용자 지정 모델이 인식해야 하는 시나리오의 전체 범위를 나타내는 데이터를 신중하게 선택합니다. 다음 표에서는 일부 음성 인식 시나리오에 대해 고려해야 할 데이터 세트를 보여 줍니다.

시나리오	일반 텍스트 테스트 및 구조화된 텍스트 데이터	오디오 + 휴먼 레이블 대화 기록	발음이 있는 새 단어
콜 센터	콜 센터 작업과 관련된 마케팅 문서, 웹 사이트, 제품 리뷰	사람이 전사한 콜 센터 통화	발음이 모호한 용어(이전 섹션의 Xbox 예 참조)
음성 도우미	명령과 엔터티의 다양한 조합을 사용하는 문장 목록	명령을 말하는 음성을 디바이스에 녹음하고 텍스트로 전사	고유 발음이 있는 이름(영화, 음악, 제품)
받아쓰기	인스턴트 메시지 또는 이메일과 같은 서면 입력	앞의 예와 비슷함	앞의 예와 비슷함
비디오 선택 자막	TV 쇼 스크립트, 영화, 마케팅 콘텐츠, 비디오 요약	비디오의 정확한 음성 텍스트	앞의 예와 비슷함

문제를 해결하는 데 사용할 데이터 세트를 결정하는 데 도움이 되도록 다음 표를 참조하세요.

사용 사례	데이터 형식
의료 용어 또는 IT 전문 용어와 같은 업계별 어휘 및 문법에 대한 인식 정확도를 높입니다.	일반 텍스트 또는 구조화된 텍스트 데이터
제품 이름 또는 머리글자어와 같이 비표준 발음을 포함하는 단어 또는 용어의 발음 및 표시된 형태를 정의합니다.	구조화된 텍스트의 발음 데이터 또는 음성 발음
말하는 스타일, 악센트 또는 특정 배경 소음에 대한 인식 정확도를 향상시킵니다.	오디오 + 휴먼 레이블 대화 기록

학습 또는 테스트용 오디오 + 휴먼 레이블 대화 기록 데이터

오디오 + 휴먼 레이블 대화 기록 데이터는 학습 및 테스트 목적으로 모두 사용할 수 있습니다. 비교를 위해 휴먼 레이블 대화 기록(단어별)을 제공해야 합니다.

약간의 악센트, 말하는 스타일 및 배경 소음과 같은 음향적 측면을 개선합니다.
오디오 파일을 처리할 때 Microsoft의 음성 텍스트 변환 정확도를 측정합니다.

오디오 데이터를 통한 학습을 지원하는 기본 모델의 목록은 언어 지원을 참조하세요. 기본 모델에서 오디오 데이터를 사용하는 학습을 지원하는 경우에도 서비스에서 오디오의 일부만 사용할 수 있습니다. 그리고 여전히 모든 대화 기록을 사용합니다.

Important

기본 모델이 오디오 데이터로 사용자 지정을 지원하지 않는 경우 전사 텍스트만 학습에 사용됩니다. 오디오 데이터로 사용자 지정을 지원하는 기본 모델로 전환하면 학습 시간이 몇 시간에서 며칠로 늘어날 수 있습니다. 학습 시간 변경은 학습 전용 하드웨어가 없는 지역에서 기본 모델로 전환할 때 가장 두드러질 것입니다. 오디오 데이터가 필요하지 않은 경우 학습 시간을 줄이기 위해 오디오 데이터를 제거해야 합니다.

휴먼 레이블 대화 기록을 사용한 오디오는 대상 사용 사례에서 오디오를 가져온 경우 최대의 정확도 개선을 제공합니다. 샘플은 전체 음성 범위를 포함해야 합니다. 예를 들어 소매점 콜 센터는 여름 기간 동안 수영복과 선글라스에 대한 전화를 가장 많이 받습니다. 샘플에 검색하려는 음성의 전체 범위가 포함되어 있는지 확인합니다.

다음 정보를 고려합니다.

오디오를 사용한 학습은 오디오가 사람에게도 이해하기 어려운 경우 가장 큰 이점을 제공합니다. 대부분의 경우 관련 텍스트만 사용하여 학습을 시작해야 합니다.
미국 영어와 같이 가장 많이 사용되는 언어 중 하나를 사용하는 경우 오디오 데이터를 사용하여 학습해야 할 가능성이 거의 없습니다. 이러한 언어의 경우 베이스 모델은 대부분의 시나리오에서 이미 훌륭한 인식 결과를 제공하므로 관련 텍스트를 사용하여 학습하는 데 충분할 수 있습니다.
사용자 지정 음성은 단어 컨텍스트만 캡처하여 삽입 또는 삭제 오류가 아닌 대체 오류를 줄일 수 있습니다.
대화 기록 오류가 포함된 샘플을 사용하지 말고 오디오 품질의 다양성을 포함시키세요.
문제 도메인과 관련이 없는 문장을 사용하지 않습니다. 관련이 없는 문장은 모델을 손상시킬 수 있습니다.
음성 텍스트의 품질이 다양하면 매우 훌륭한 문장(예: 핵심 구가 포함된 고급 대화 내용 기록)을 복제하여 가중치를 높일 수 있습니다.
Speech Service는 자동으로 대화 기록을 사용하여 관련 텍스트로 추가된 것처럼 도메인별 단어 및 구의 인식을 향상시킵니다.
학습 작업을 완료하는 데 며칠이 걸릴 수 있습니다. 학습 속도를 높이려면 학습용 전용 하드웨어가 있는 지역에서 Speech Service 구독을 만들어야 합니다.

인식을 향상하려면 대규모 학습 데이터 세트가 필요합니다. 일반적으로 1~20시간의 오디오에 대한 단어별 대화 내용 기록을 제공하는 것이 좋습니다. 그러나 30분 정도의 대화 기록을 사용하더라도 인식 결과를 개선하는 데 도움이 될 수 있습니다. 사람이 레이블을 붙인 대화 기록본을 작성하는 데는 시간이 걸릴 수 있지만 인식 개선은 제공하는 데이터의 양에 달려 있습니다. 고품질의 스크립트만 업로드해야 합니다.

오디오 파일에는 시작과 끝에 침묵이 있을 수 있습니다. 가능하면 각 샘플 파일에서 음성 앞과 뒤에 0.5초 정도의 침묵을 포함합니다. 녹음 볼륨이 낮거나 백그라운드 노이즈가 심한 오디오는 유용하지 않지만 사용자 지정 모델을 제한하거나 저하시키지는 않습니다. 오디오 샘플을 수집하기 전에 항상 마이크 및 신호 처리 하드웨어를 업그레이드하는 것이 좋습니다.

Important

사람이 레이블 지정한 대본을 준비하는 모범 사례에 대한 자세한 내용은 사람이 오디오를 사용하여 레이블 지정한 대본을 참조하세요.

사용자 지정 음성 프로젝트에는 다음 속성을 가진 오디오 파일이 필요합니다.

Important

이는 오디오 + 사람이 레이블을 붙인 대화 기록 학습 및 테스트에 대한 요구 사항입니다. 이는 오디오 전용 학습 및 테스트용과 다릅니다. 오디오 전용 학습 및 테스트를 사용하려면 이 섹션을 참조하세요.

속성	값
파일 형식	RIFF(WAV)
샘플 속도	8,000Hz 또는 16,000Hz
채널	1(mono)
오디오 당 최대 길이	2시간(테스트) / 60초(학습) 오디오를 사용하는 학습의 최대 오디오 길이는 파일당 60초입니다. 60초보다 긴 오디오 파일의 경우 해당 전사 파일만 학습에 사용됩니다. 모든 오디오 파일이 60초보다 길면 학습이 실패합니다.
샘플 형식	PCM, 16비트
보관 형식	.zip
최대 zip 크기	2GB 또는 10,000개 파일

학습용 일반 텍스트 데이터

관련된 텍스트의 일반 텍스트 문장을 추가하여 도메인별 단어 및 구의 인식을 향상시킬 수 있습니다. 관련 텍스트 문장은 일반적인 단어와 도메인별 단어의 잘못된 인식과 관련된 대체 오류를 컨텍스트로 표현함으로써 줄일 수 있습니다. 도메인별 단어는 일반적이지 않거나 만들어낸 단어일 수도 있지만, 인식되려면 발음이 간단해야 합니다.

단일 텍스트 파일에 도메인 관련 문장을 제공합니다. 예상되는 음성 발화에 더 가까운 텍스트 데이터를 사용합니다. 발화는 완전하거나 문법적으로 정확할 필요는 없지만 모델이 인식할 것으로 예상대는 음성 입력을 정확하게 반영해야 합니다. 가능하면 하나의 문장이나 키워드를 별도의 줄로 제어해 봅니다. 제품 이름과 같은 용어의 가중치를 늘리려면 해당 용어를 포함하는 여러 문장을 추가합니다. 그러나 너무 많이 복사하지 마세요. 전체 인식률에 영향을 줄 수 있습니다.

참고 항목

인식할 수 없는 문자 또는 단어와 같이 잡음이 포함된 관련된 텍스트 문장을 사용하지 마십시오.

이 표를 사용하여 일반 텍스트 데이터 세트 파일의 형식이 올바른지 확인합니다.

속성	값
텍스트 인코딩	UTF-8 BOM
줄당 발화 수	1
최대 파일 크기	200MB

다음 제한 사항도 준수해야 합니다.

문자, 단어 또는 단어 그룹을 네 번 이상 반복하지 않습니다. 예를 들어, "아아아아", "그래 예 예 예" 또는 "그게 바로 그거야 그거야"라는 말을 사용하지 마세요. Speech Service는 반복이 너무 많은 줄을 삭제할 수 있습니다.
U+00A1보다 높은 특수 문자나 UTF-8 문자는 사용하지 않습니다.
URI는 거부됩니다.
일본어 또는 한국어와 같은 일부 언어의 경우 많은 양의 텍스트 데이터를 가져오는 데 시간이 오래 걸리거나 시간 초과될 수 있습니다. 데이터 세트를 각각 최대 20,000줄이 포함된 여러 텍스트 파일로 나누는 것이 좋습니다.

학습용 구조화된 텍스트 데이터

참고 항목

학습용 구조화된 텍스트 데이터는 공개 미리 보기로 제공됩니다.

목록의 단어 또는 구만 다른 특정 발화에서 데이터가 특정 패턴을 따르는 경우 구조화된 텍스트 데이터를 사용합니다. 학습 데이터 생성을 단순화하고 Custom Language 모델 내에서 더 나은 모델링을 가능하게 하기 위해 Markdown 형식의 구조화된 텍스트를 사용하여 항목 목록과 단어의 발음을 정의할 수 있습니다. 그런 다음, 학습 발화 내에서 이러한 목록을 참조할 수 있습니다.

예상되는 발화는 종종 특정 패턴을 따릅니다. 한 가지 흔한 패턴은 발화는 목록과 단어나 구절만 다르다는 것입니다. 이 패턴의 예는 다음과 같습니다.

"product에 대한 질문이 있습니다." 여기서 product는 가능한 제품의 목록입니다.
"object를 color로 만드세요." 여기서 object은 기하학적인 도형 목록이고 color는 색상 목록입니다.

구조화된 텍스트를 사용한 학습에 지원되는 기본 모델 및 로캘 목록은 언어 지원을 참조하세요. 이러한 로캘의 경우 최신 기본 모델을 사용해야 합니다. 구조적 텍스트를 통한 학습을 지원하지 않는 로캘의 경우 서비스는 일반 텍스트 데이터를 통한 학습의 일부로 클래스를 참조하지 않는 학습 문장을 가져옵니다.

구조화된 텍스트 파일의 확장자는 .md여야 합니다. 최대 파일 크기는 200MB이며 텍스트 인코딩은 UTF-8 BOM이어야 합니다. Markdown의 구문은 Language Understanding 모델, 특히 목록 엔터티 및 예제 발화의 구문과 동일합니다. 전체 Markdown 구문에 대한 자세한 내용은 Language Understanding Markdown를 참조하세요.

지원되는 Markdown 형식에 대한 주요 세부 정보는 다음과 같습니다.

속성	설명	제한
`@list`	예제 문장에서 참조할 수 있는 항목 목록입니다.	최대 20개 목록입니다. 목록당 최대 35,000개 항목입니다.
`speech:phoneticlexicon`	유니버설 전화 집합에 따른 음성 발음 목록입니다. 단어가 목록 또는 학습 문장에 나타나는 각 인스턴스에 대해 발음이 조정됩니다. 예를 들어 "cat"처럼 들리는 단어가 있고 발음을 "k ae t"로 조정하려는 경우 `speech:phoneticlexicon` 목록에 `- cat/k ae t`를 추가합니다.	최대 15,000개의 항목. 단어당 최대 2개의 발음이 가능합니다.
`#ExampleSentences`	파운드 기호(`#`)는 예제 문장의 섹션을 구분합니다. 섹션 제목에는 문자, 숫자 및 밑줄만 포함될 수 있습니다. 예제 문장은 모델이 예상해야 하는 음성 범위를 반영해야 합니다. 학습 문장은 좌우 중괄호(`{@list name}`)를 사용하여 `@list` 아래 항목을 참조할 수 있습니다. 동일한 학습 문장에서 여러 목록을 참조하거나 전혀 참조하지 않을 수 있습니다.	최대 파일 크기는 200MB입니다.
`//`	주석은 이중 슬래시(`//`)를 따릅니다.	해당 없음

다음은 구조화된 텍스트 파일의 예입니다.

// This is a comment because it follows a double slash (`//`).

// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these.
@ list food =
- pizza
- burger
- ice cream
- soda

@ list pet =
- cat
- dog
- fish

@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football

// List of phonetic pronunciations
@ speech:phoneticlexicon
- cat/k ae t
- fish/f ih sh

// Here are two sections of training sentences. 
#TrainingSentences_Section1
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}

#TrainingSentences_Section2
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet}

학습용 발음 데이터

특수화된 단어나 구성된 단어에는 고유한 발음이 있을 수 있습니다. 이러한 단어는 발음하기 위해 더 작은 단어로 분해할 수 있으면 인식될 수 있습니다. 예를 들어 "Xbox"를 인식하려면 "X box"로 발음합니다. 이 방법은 전체 정확도를 높이지 않지만 이 키워드와 다른 키워드의 인식을 향상시킬 수 있습니다.

사용자 지정 발음 파일을 제공하여 인식을 향상시킬 수 있습니다. 일반 단어의 발음을 변경하기 위해 사용자 지정 발음 파일을 사용하지 마십시오. 사용자 지정 발음을 지원하는 언어 목록은 언어 지원을 참조하세요.

참고 항목

구조적 텍스트 학습 데이터를 제외한 다른 학습 데이터 세트와 함께 발음 파일을 사용할 수 있습니다. 구조적 텍스트와 함께 발음 데이터를 사용하려면 데이터가 구조적 텍스트 파일 내에 있어야 합니다.

구어체는 철자로 풀어 쓴 음성 시퀀스로 문자, 단어, 음절 또는 세 가지 모두의 조합으로 구성될 수 있습니다. 다음 표는 몇 가지 예제를 포함합니다.

인식된/표시된 형식	발성 형식
3CPO	three c p o
CNTK	c n t k
IEEE	i triple e

단일 텍스트 파일에 발음을 제공합니다. 여기에는 음성 발화 및 각각에 대한 사용자 지정 발음이 포함됩니다. 파일의 각 행은 인식된 형식, 탭 문자, 공백으로 구분된 음성 시퀀스로 시작해야 합니다.

3CPO    three c p o
CNTK    c n t k
IEEE    i triple e

발음 데이터 세트 파일이 유효하고 올바른 형식인지 확인하려면 다음 표를 참조하세요.

속성	값
텍스트 인코딩	UTF-8 BOM(영어의 경우 ANSI도 지원됨)
줄당 발음 수	1
최대 파일 크기	1MB(무료 계층의 경우 1KB)

학습 또는 테스트용 오디오 데이터

오디오 데이터는 Microsoft의 기본 음성 텍스트 변환 모델 또는 사용자 지정 모델의 정확도를 테스트하는 데 가장 적합합니다. 오디오 데이터는 특정 모델의 성능과 관련된 음성의 정확도를 검사하는 데 사용됩니다. 모델의 정확도를 수량화하려는 경우 오디오 + 휴먼 레이블 대화 기록을 사용합니다.

참고 항목

학습용 오디오 전용 데이터는 en-US 로캘에 대한 미리 보기로 제공됩니다. 다른 로캘의 경우 오디오 데이터로 학습하려면 휴먼 레이블 대본도 제공해야 합니다.

사용자 지정 음성 프로젝트에는 다음 속성을 가진 오디오 파일이 필요합니다.

Important

이는 오디오 전용 학습 및 테스트에 대한 요구 사항입니다. 이는 오디오 + 사람이 레이블을 붙인 대화 기록 학습 및 테스트와 다릅니다. 오디오 + 사람이 레이블을 붙인 스크립트 학습 및 테스트를 사용하려면 이 섹션을 참조하세요.

속성	값
파일 형식	RIFF(WAV)
샘플 속도	8,000Hz 또는 16,000Hz
채널	1(mono)
오디오 당 최대 길이	두 시간
샘플 형식	PCM, 16비트
보관 형식	.zip
최대 보관 크기	2GB 또는 10,000개 파일

참고 항목

학습 및 테스트 데이터를 업로드할 때 .zip 파일 크기는 2GB를 초과할 수 없습니다. 학습에 더 많은 데이터가 필요할 경우 여러 개의 .zip 파일로 나눠 별도로 업로드합니다. 나중에 여러 데이터 세트에서 학습하도록 선택할 수 있습니다. 그러나 단일 데이터 세트에서만 테스트할 수 있습니다.

SoX를 사용하여 오디오 속성을 확인하거나 기존 오디오를 적절한 형식으로 변환합니다. 다음은 몇 가지 SoX 명령의 예입니다.

활동	SoX 명령
오디오 파일 형식을 확인합니다.	`sox --i <filename>`
오디오 파일을 단일 채널 16비트, 16KHz로 변환합니다.	`sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav`

학습을 위한 사용자 지정 표시 텍스트 서식 지정 데이터

표시 텍스트 서식 데이터 준비 및 음성을 텍스트로 변환하는 표시 텍스트 서식에 대해 자세히 알아봅니다.

자동 음성 인식 출력 표시 형식은 다운스트림 작업에 매우 중요하며 단일 크기가 모든 것에 적합하지는 않습니다. 사용자 지정 표시 형식 규칙을 추가하면 사용자는 자체 어휘-표시 형식 규칙을 정의하여 Microsoft Azure 사용자 지정 Speech Services 외에 음성 인식 서비스 품질을 개선시킬 수 있습니다.

이를 통해 특정 단어를 대문자로 시작하고 다시 작성하기 위한 재작성 규칙 추가, 출력에서 욕설 및 마스크 추가, 숫자, 날짜, 이메일 주소와 같은 특정 패턴에 대한 고급 ITN 규칙 정의와 같은 디스플레이 출력을 완전히 사용자 지정할 수 있습니다. 또는 일부 구를 보존하고 디스플레이 프로세스에서 보관합니다.

예시:

사용자 지정 서식	표시 텍스트
없음	contoso의 내 금융 계좌 번호는 8BEV3입니다.
"Contoso"를 대문자로 표시합니다(`#rewrite` 규칙을 통해). 금융 계좌 번호 형식 지정(`#itn` 규칙 사용)	Contoso의 내 금융 계좌 번호는 8B-EV-3입니다.

구조화된 텍스트를 사용한 학습에 지원되는 기본 모델 및 로캘 목록은 언어 지원을 참조하세요. 표시 서식 파일의 확장자는 .md여야 합니다. 최대 파일 크기는 10MB이며 텍스트 인코딩은 UTF-8 BOM이어야 합니다. 표시 서식 규칙 사용자 지정에 대한 자세한 내용은 표시 서식 규칙 모범 사례를 참조하세요.

속성	설명	제한
#ITN	숫자, 주소, 날짜와 같은 특정 표시 패턴을 정의하는 텍스트 반전 정규화 규칙 목록입니다.	최대 200줄
#rewrite	대문자 사용 및 맞춤법 수정과 같은 이유로 특정 단어를 바꾸기 위한 다시 쓰기 쌍 목록입니다.	최대 1,000줄
#profanity	Microsoft 기본 제공 욕설 목록 위에 표시 및 마스크된 출력에서 `******`로 마스크되는 원치 않는 단어 목록입니다.	최대 1,000줄
#test	어휘 형식 입력 및 예상 표시 형식 출력을 포함하여 표시 규칙이 예상대로 작동하는지 유효성을 검사하는 단위 테스트 사례 목록입니다.	최대 파일 크기 10MB

표시 서식 파일의 예는 다음과 같습니다.

// this is a comment line
// each section must start with a '#' character
#itn
// list of ITN pattern rules, one rule for each line
\d-\d-\d
\d-\l-\l-\d
#rewrite
// list of rewrite rules, each rule has two phrases, separated by a tab character
old phrase	new phrase
# profanity
// list of profanity phrases to be tagged/removed/masked, one line one phrase
fakeprofanity
#test
// list of test cases, each test case has two sentences, input lexical and expected display output
// the two sentences are separated by a tab character
// the expected sentence is the display output of DPP+CDPP models
Mask the fakeprofanity word	Mask the ************* word

학습 및 테스트 데이터 세트

데이터 형식

시나리오별 데이터 세트 고려

학습 또는 테스트용 오디오 + 휴먼 레이블 대화 기록 데이터

학습용 일반 텍스트 데이터

학습용 구조화된 텍스트 데이터

학습용 발음 데이터

학습 또는 테스트용 오디오 데이터

학습을 위한 사용자 지정 표시 텍스트 서식 지정 데이터

다음 단계

추가 리소스