데이터 세트 만들기
모든 사용자 지정 모델에는 데이터 세트가 포함되어야 하므로 데이터 세트를 만들고 관리하는 방법의 프로세스부터 시작합니다.
-
모델 사용자 지정 단추를 선택합니다.
- 음성(새) 탭을 선택합니다.
- 데이터 세트 업로드를 선택합니다.
-
데이터 세트 형식 드롭다운 메뉴에서 일반 텍스트 또는 발음을 선택합니다. 모든 음성 모델에는 반드시 일반 텍스트 데이터 세트가 있어야 하며 필요에 따라 발음 데이터 세트를 포함할 수 있습니다.
- 찾아보기를 선택하고 데이터 세트 파일을 선택합니다. 하나만 선택할 수 있습니다.
-
모델에 대한 언어를 선택합니다. 이 모델로 인덱싱하려는 미디어 파일에서 사용되는 언어를 선택합니다. 데이터 세트 이름은 파일 이름으로 미리 채워지지만 이름을 수정할 수 있습니다.
- 필요에 따라 데이터 세트 설명을 추가할 수 있습니다. 여러 데이터 세트가 있어야 하는 경우 각 데이터 세트를 구분하는 것이 유용할 수 있습니다.
-
업로드를 선택합니다. 데이터 세트 만들기가 완료되면 새 모델을 학습하고 만드는 데 사용할 수 있습니다.
데이터 세트 검토 및 업데이트
다음을 통해 데이터 세트 및 해당 속성을 볼 수 있습니다.
- 데이터 세트 이름 클릭
- 데이터 세트 위로 마우스를 가져가기
- 줄임표 선택
그런 다음, 데이터 세트 보기를 선택합니다.
그런 다음 데이터 세트의 이름, 설명, 언어 및 상태와 다음 속성을 볼 수 있습니다.
줄 수: 파일의 총 줄 수에서 성공적으로 로드된 줄 수를 나타냅니다. 전체 파일이 로드되면 숫자가 일치합니다(예: 정규화된 10개 중 10개). 숫자가 일치하지 않는 경우(예: 정규화된 10개 중 7개) 일부 줄만 성공적으로 로드되고 나머지는 오류가 발생했음을 의미합니다. 오류의 일반적인 원인은 발음 파일의 각 단어 사이에 탭 간격을 지정하지 않는 등의 줄 서식 지정 문제입니다. 학습 문서에 대한 일반 텍스트 및 발음 데이터를 검토하면 문제를 찾는 데 도움이 됩니다. 원인을 해결하려면 보고서에 포함된 오류 세부 정보를 검토합니다.
보고서 보기를 선택하여 성공적으로 로드되지 않은 줄에 대한 오류 세부 정보(errorKind)를 확인합니다.
보고서 탭을 선택하여 볼 수도 있습니다.
데이터 세트 ID: 각 데이터 세트에는 데이터 세트를 참조하는 작업에 API를 사용할 때 필요한 고유의 GUID가 있습니다.
일반 텍스트(정규화됨): 로드된 데이터 세트 파일의 정규화된 텍스트를 포함합니다. 정규화된 텍스트는 서식 없는 일반 형식으로 인식되는 텍스트입니다.
세부 정보 편집: 데이터 세트의 이름 또는 설명을 편집하려면 데이터 세트를 마우스로 가리키면 줄임표를 선택한 다음 세부 정보 편집을 선택합니다. 그러면 데이터 세트 이름과 설명을 편집할 수 있습니다.
참고
데이터 세트가 업로드되면 데이터 세트의 데이터를 편집하거나 업데이트할 수 없습니다. 데이터 세트의 데이터를 편집하거나 업데이트해야 하는 경우에는 데이터 세트를 다운로드하고, 데이터를 편집하고, 파일을 저장하고, 새 데이터 세트 파일을 업로드합니다.
다운로드: 데이터 세트 파일을 다운로드하려면 데이터 세트를 마우스로 가리키면 줄임표를 선택한 다음 다운로드를 선택합니다. 또는 데이터 세트를 볼 때 [다운로드]를 선택하면 JSON 형식으로 데이터 세트 파일 또는 업로드 보고서를 다운로드하는 옵션을 사용할 수 있습니다.
삭제: 데이터 세트를 삭제하려면 데이터 세트를 마우스로 가리키면 줄임표를 선택한 다음 삭제를 선택합니다.
사용자 지정 음성 모델 만들기
데이터 세트는 모델을 만들고 학습시키는 데 사용됩니다. 일반 텍스트 데이터 세트를 만든 후 사용자 지정 음성 모델을 만들고 사용할 수 있습니다.
사용자 지정 음성 모델을 만들고 사용할 때 다음 사항에 유의하세요.
- 새 모델에는 일반 텍스트 데이터 세트가 하나 이상 있어야 하며 일반 텍스트 데이터 세트가 여러 개 있어도 됩니다.
- 발음 데이터 세트를 포함하는 것은 선택 사항이며 하나만 포함할 수 있습니다.
- 모델을 만든 후에는 더 많은 데이터 세트를 추가하거나 해당 데이터 세트에 대한 수정을 수행할 수 없습니다. 데이터 세트를 추가하거나 수정해야 하는 경우 새 모델을 만들어야 합니다.
- 사용자 지정 음성 모델을 사용하여 비디오를 인덱싱한 다음 모델을 삭제하는 경우 다시 인덱스를 수행하지 않는 한 대본은 영향을 받지 않습니다.
- 사용자 지정 모델을 학습하는 데 사용되는 데이터 세트를 삭제한 경우 음성 모델이 삭제될 때까지 계속 사용합니다. 그 이유는 음성 모델이 데이터 세트에서 학습되었기 때문입니다.
- 사용자 지정 모델을 삭제해도 모델을 사용하여 이미 인덱싱된 비디오의 비디오 전사에는 영향을 주지 않습니다.
모델을 훈련시키다
참고
모델을 만든 후에는 데이터 세트를 추가할 수 없습니다.
언어가 같은 데이터 세트만 모델에 포함할 수 있습니다.
[데이터 세트] 탭과 [모델] 탭을 통해 모델을 학습시킬 수 있습니다.
[데이터 세트] 탭을 통해 모델 학습
- 데이터 세트 목록을 봅니다.
- 일반 텍스트 데이터 세트를 선택합니다. 그런 다음 , 새 모델 학습 기호를 선택합니다.
-
새 모델 학습을 선택합니다.
- 모델 이름, 언어를 입력하고 필요에 따라 설명을 추가합니다.
-
데이터 세트 탭 선택
- 모델에 포함할 데이터 세트를 선택합니다.
-
만들기 및 학습을 선택합니다.
[모델] 탭을 통해 모델 학습
-
모델 탭을 선택합니다.
-
새 모델 학습 아이콘을 선택합니다.
- 모델의 일부가 될 데이터 세트를 선택합니다.
- 모델 이름, 언어를 입력하고 필요에 따라 설명을 추가합니다.
-
데이터 세트 탭을 선택합니다.
- 모델에 포함할 데이터 세트를 선택합니다.
-
만들기 및 학습을 선택합니다.
모델 검토 및 업데이트
모델 보기: 모델 이름을 선택하거나 모델 위로 마우스를 가져가면 모델 및 해당 속성을 볼 수 있습니다. 그런 다음 줄임표(...)를 선택한 다음 모델 보기를 선택합니다.
그런 다음 세부 정보 탭에 모델의 이름, 설명, 언어 및 상태와 다음 속성이 표시됩니다.
모델 ID: 각 모델에는 모델을 참조하는 작업에 API를 사용할 때 필요한 고유의 GUID가 있습니다.
만든 날짜: 모델을 만든 날짜입니다.
세부 정보 편집: 모델의 이름 또는 설명을 편집하려면 모델을 마우스로 가리키면 줄임표를 선택한 다음 세부 정보 편집을 선택합니다. 그러면 모델 이름과 설명을 편집할 수 있습니다.
참고
모델의 이름과 설명만 편집할 수 있습니다. 데이터 세트를 변경하거나 데이터 세트를 추가하려면 새 모델을 만들어야 합니다.
삭제: 모델을 삭제하려면 데이터 세트를 마우스로 가리키면 줄임표를 선택한 다음 삭제를 선택합니다.
포함된 데이터 세트: 포함된 데이터 세트 탭에서 선택하여 모델의 데이터 세트를 봅니다.
비디오를 인덱싱할 때 사용자 지정 언어 모델 사용
사용자 지정 언어 모델은 기본적으로 인덱싱 작업에 사용되지 않으므로 인덱스 업로드 프로세스 중에 선택해야 합니다.
- 업로드 프로세스 중에 언어 드롭다운 메뉴에서 사용자 지정 언어 모델 원본을 선택합니다.
-
업로드를 선택합니다.
사용자 지정 모델을 사용하여 비디오를 다시 인덱싱하려는 경우에도 동일한 단계가 적용됩니다.
다음 표에서는 음성 모델 요청에 사용되는 일부 매개 변수에 대한 설명을 제공합니다.
이름 |
유형 |
설명 |
|
displayName |
문자열 |
데이터 세트/모델의 원하는 이름입니다. |
|
locale |
문자열 |
데이터 세트/모델의 언어 코드입니다. 전체 목록은 언어 지원을 참조하세요. |
|
kind |
정수 |
일반 텍스트 데이터 세트의 경우 0, 발음 데이터 세트의 경우 1입니다. |
|
description |
문자열 |
데이터 세트/모델에 대한 선택적 설명입니다. |
|
contentUrl |
URI |
데이터 세트를 만드는 데 사용된 원본 파일의 URL입니다. |
|
customProperties |
물체 |
데이터 세트/모델의 선택적 속성입니다. |
|
음성 데이터 세트 만들기
Speech Dataset API 만들기 요청을 만들어 음성 모델을 학습하는 데이터 세트를 만들 수 있습니다. 이 요청을 사용하여 데이터 세트를 만드는 데 사용되는 파일을 업로드합니다. 데이터 세트를 만든 후에는 데이터 세트의 콘텐츠를 수정할 수 없습니다.
업로드할 텍스트 파일의 URL을 포함하여 요청 본문에 매개 변수를 정의합니다. 설명 및 사용자 지정 속성 필드는 선택 사항입니다. 요청 본문의 예는 다음과 같습니다.
{
"displayName": "Pronunciation Dataset",
"locale": "en-US",
"kind": "Pronunciation",
"description": "This is a pronunciation dataset.",
"contentUrl": https://contoso.com/location,
"customProperties": {
"tag": "Pronunciation Dataset Example"
}
}
예제 응답
{
"id": "000000-0000-0000-0000-f58ac7002ae9",
"properties": {
"acceptedLineCount": 0,
"rejectedLineCount": 0,
"duration": null,
"error": null
},
"displayName": "Contoso plain text",
"description": "VI dataset",
"locale": "en-US",
"kind": "Language",
"status": "Waiting",
"lastActionDateTime": "2023-02-28T13:24:27Z",
"createdDateTime": "2023-02-28T13:24:27Z",
"customProperties": null
}
음성 모델 만들기
Speech Model API 만들기 요청을 만들어 사용자 지정 음성 모델을 만들고 학습할 수 있습니다. 비디오의 전사 정확도를 향상하는 데 사용합니다. 하나 이상의 일반 텍스트 데이터 세트를 포함해야 합니다. 필요에 따라 발음 데이터 세트가 있을 수 있습니다. 모델의 데이터 세트를 만들고 나면 추가하거나 업데이트할 수 없으므로, 만들 때 모든 관련 데이터 세트 파일을 사용하세요.
모델에서 포함할 데이터 세트 또는 데이터 세트의 문자열 목록을 포함하여 요청 본문에 매개 변수를 정의합니다. 설명 및 사용자 지정 속성 필드는 선택 사항입니다. 샘플 요청 본문은 다음과 같습니다.
{
"displayName": "Contoso Speech Model",
"locale": "en-US",
"datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
"description": "Contoso ads example model",
"customProperties": {
"tag": "Example Model"
}
}
예제 응답
{
"id": "00000000-0000-0000-0000-85be4454cf",
"properties": {
"deprecationDates": {
"adaptationDateTime": null,
"transcriptionDateTime": "2025-04-15T00:00:00Z"
},
"error": null
},
"displayName": "Contoso speech model",
"description": "Contoso speech model for video indexer",
"locale": "en-US",
"datasets": ["00000000-0000-0000-0000-f58ac7002ae9"],
"status": "Processing",
"lastActionDateTime": "2023-02-28T13:36:28Z",
"createdDateTime": "2023-02-28T13:36:28Z",
"customProperties": null
}
음성 데이터 세트 가져오기
Speech Dataset API 가져오기 호출을 사용하여 지정된 데이터 세트에 대한 정보를 반환할 수 있습니다.
예제 응답
{
"id": "00000000-0000-0000-0000-f58002ae9",
"properties": {
"acceptedLineCount": 41,
"rejectedLineCount": 0,
"duration": null,
"error": null
},
"displayName": "Contoso plain text",
"description": "VI dataset",
"locale": "en-US",
"kind": "Language",
"status": "Complete",
"lastActionDateTime": "2023-02-28T13:24:43Z",
"createdDateTime": "2023-02-28T13:24:27Z",
"customProperties": null
}
음성 데이터 세트 파일 가져오기
Speech Dataset 파일 가져오기 요청은 지정된 데이터 세트의 파일 및 메타데이터를 반환합니다.
예제 응답
[{
"datasetId": "00000000-0000-0000-0000-f58ac72a",
"fileId": "00000000-0000-0000-0000-cb190769c",
"name": "languagedata",
"contentUrl": "",
"kind": "LanguageData",
"createdDateTime": "2023-02-28T13:24:43Z",
"properties": {
"size": 1517
}
}, {
"datasetId": "00000000-0000-0000-0000-f58ac72”
"fileId": "00000000-0000-0000-0000-2369192e",
"name": "normalized.txt",
"contentUrl": "",
"kind": "LanguageData",
"createdDateTime": "2023-02-28T13:24:43Z",
"properties": {
"size": 1517
}
}, {
"datasetId": "00000000-0000-0000-0000-f58ac7",
"fileId": "00000000-0000-0000-0000-05f1e306",
"name": "report.json",
"contentUrl": "",
"kind": "DatasetReport",
"createdDateTime": "2023-02-28T13:24:43Z",
"properties": {
"size": 78
}
}]
지정된 계정 데이터 세트 가져오기
Speech Datasets API 가져오기 요청을 사용하여 지정된 모든 계정 데이터 세트에 대한 정보를 반환할 수 있습니다.
예제 응답
[{
"id": "00000000-0000-0000-abf5-4dad0f",
"properties": {
"acceptedLineCount": 41,
"rejectedLineCount": 0,
"duration": null,
"error": null
},
"displayName": "test",
"description": "string",
"locale": "en-US",
"kind": "Language",
"status": "Complete",
"lastActionDateTime": "2023-02-27T08:42:02Z",
"createdDateTime": "2023-02-27T08:41:39Z",
"customProperties": null
}]
지정된 음성 모델 가져오기
Speech Model API 가져오기 요청을 사용하여 지정된 모델에 대한 정보를 반환할 수 있습니다.
예제 응답
{
"id": "00000000-0000-0000-0000-5685be445",
"properties": {
"deprecationDates": {
"adaptationDateTime": null,
"transcriptionDateTime": "2025-04-15T00:00:00Z"
},
"error": null
},
"displayName": "Contoso speech model",
"description": "Contoso speech model for video indexer",
"locale": "en-US",
"datasets": ["00000000-0000-0000-0000-f58ac7002"],
"status": "Complete",
"lastActionDateTime": "2023-02-28T13:36:38Z",
"createdDateTime": "2023-02-28T13:36:28Z",
"customProperties": null
}
지정된 계정 음성 모델 가져오기
Speech Models API 가져오기 요청을 사용하여 지정된 계정의 모든 모델에 대한 정보를 반환할 수 있습니다.
예제 응답
[{
"id": "00000000-0000-0000-0000-5685be445",
"properties": {
"deprecationDates": {
"adaptationDateTime": null,
"transcriptionDateTime": "2025-04-15T00:00:00Z"
},
"error": null
},
"displayName": "Contoso speech model",
"description": "Contoso speech model for video indexer",
"locale": "en-US",
"datasets": ["00000000-0000-0000-0000-f58ac7002a"],
"status": "Complete",
"lastActionDateTime": "2023-02-28T13:36:38Z",
"createdDateTime": "2023-02-28T13:36:28Z",
"customProperties": null
}]
음성 데이터 삭제
Speech Dataset API 삭제 요청을 사용하여 지정된 데이터 세트를 삭제할 수 있습니다. 삭제된 데이터 세트로 학습된 모든 모델은 해당 모델이 삭제될 때까지 계속 사용할 수 있습니다. 인덱싱 또는 학습에 사용하는 동안에는 데이터 세트를 삭제할 수 없습니다.
예제 응답
데이터 세트가 성공적으로 삭제된 경우 콘텐츠가 반환되지 않습니다.
음성 모델 삭제
Speech Model API 삭제 요청을 사용하여 지정된 음성 모델을 삭제할 수 있습니다. 인덱싱 또는 학습에 사용하는 동안에는 모델을 삭제할 수 없습니다.
응답
음성 모델이 성공적으로 삭제된 경우 콘텐츠가 반환되지 않습니다.