你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Transcriptions - Create
创建一个新的听录。
POST {endpoint}/speechtotext/v3.1/transcriptions
URI 参数
名称 | 在 | 必需 | 类型 | 说明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
支持的认知服务终结点 (协议和主机名,例如: https://westus.api.cognitive.microsoft.com) 。 |
请求正文
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
displayName | True |
string |
对象的显示名称。 |
locale | True |
string |
包含数据的区域设置。 如果使用语言标识,则此区域设置用于转录无法检测到任何语言的语音。 |
contentContainerUrl |
string |
包含音频文件的 Azure Blob 容器的 URL。 允许容器的最大大小为 5GB,最大数量为 10000 个 blob。 Blob 的最大大小为 2.5 GB。 容器 SAS 应包含“r” (读取) 和“l” (列表) 权限。 此属性不会在响应中返回。 |
|
contentUrls |
string[] |
用于获取要听录的音频文件的内容 URL 列表。 最多允许 1000 个 URL。 此属性不会在响应中返回。 |
|
customProperties |
object |
此实体的自定义属性。 允许的最大密钥长度为 64 个字符,允许的最大值长度为 256 个字符,允许的条目计数为 10。 |
|
dataset |
EntityReference |
||
description |
string |
对象的说明。 |
|
links |
TranscriptionLinks |
||
model |
EntityReference |
||
project |
EntityReference |
||
properties |
TranscriptionProperties |
响应
名称 | 类型 | 说明 |
---|---|---|
201 Created |
响应包含有关实体作为有效负载及其作为标头的位置的信息。 标头 Location: string |
|
Other Status Codes |
出现了错误。 |
安全性
Ocp-Apim-Subscription-Key
在此处提供认知服务帐户密钥。
类型:
apiKey
在:
header
Authorization
提供此区域的 STS 返回的 JWT 的访问令牌。 通过将以下查询字符串添加到 STS URL,确保将管理范围添加到令牌:?scope=speechservicesmanagement
类型:
apiKey
在:
header
示例
Create a transcription for URIs
示例请求
POST {endpoint}/speechtotext/v3.1/transcriptions
{
"contentUrls": [
"https://contoso.com/mystoragelocation",
"https://contoso.com/myotherstoragelocation"
],
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked"
},
"locale": "en-US",
"displayName": "Transcription using default model for en-US"
}
示例响应
{
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683",
"model": {
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/models/827712a5-f942-4997-91c3-7c6cde35600b"
},
"links": {
"files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT42S"
},
"lastActionDateTime": "2019-01-07T11:36:07Z",
"status": "Succeeded",
"createdDateTime": "2019-01-07T11:34:12Z",
"locale": "en-US",
"displayName": "Transcription using adapted model en-US",
"customProperties": {
"key": "value"
}
}
Create a transcription from blob container
示例请求
POST {endpoint}/speechtotext/v3.1/transcriptions
{
"contentContainerUrl": "https://customspeech-usw.blob.core.windows.net/artifacts/audiofiles/",
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked"
},
"locale": "en-US",
"displayName": "Transcription of storage container using default model for en-US"
}
示例响应
Location: https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683
{
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683",
"model": {
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/models/827712a5-f942-4997-91c3-7c6cde35600b"
},
"links": {
"files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT42S"
},
"lastActionDateTime": "2019-01-07T11:36:07Z",
"status": "Succeeded",
"createdDateTime": "2019-01-07T11:34:12Z",
"locale": "en-US",
"displayName": "Transcription using adapted model en-US",
"customProperties": {
"key": "value"
}
}
Create a transcription with basic two-speaker diarization
示例请求
POST {endpoint}/speechtotext/v3.1/transcriptions
{
"contentUrls": [
"https://contoso.com/mystoragelocation"
],
"properties": {
"diarizationEnabled": true,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked"
},
"locale": "en-US",
"displayName": "Transcription using basic two-speaker diarization"
}
示例响应
{
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683",
"model": {
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/models/827712a5-f942-4997-91c3-7c6cde35600b"
},
"links": {
"files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683/files"
},
"properties": {
"diarizationEnabled": true,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT42S"
},
"lastActionDateTime": "2019-01-07T11:36:07Z",
"status": "Succeeded",
"createdDateTime": "2019-01-07T11:34:12Z",
"locale": "en-US",
"displayName": "Transcription using basic two-speaker diarization",
"customProperties": {
"key": "value"
}
}
Create a transcription with language identification
示例请求
POST {endpoint}/speechtotext/v3.1/transcriptions
{
"contentUrls": [
"https://contoso.com/mystoragelocation"
],
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"languageIdentification": {
"candidateLocales": [
"fr-FR",
"nl-NL",
"el-GR"
],
"speechModelMapping": {
"nl-NL": {
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/models/827712a5-f942-4997-91c3-7c6cde35600b"
}
}
}
},
"locale": "fr-FR",
"displayName": "Transcription using language identification with three candidate languages, 'fr-FR' as fallback locale and a custom model for transcribing utterances that were classified as 'nl-NL' locale."
}
示例响应
{
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683",
"model": {
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/models/827712a5-f942-4997-91c3-7c6cde35600b"
},
"links": {
"files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT42S",
"languageIdentification": {
"candidateLocales": [
"fr-FR",
"nl-NL",
"el-GR"
],
"speechModelMapping": {
"nl-NL": {
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/models/827712a5-f942-4997-91c3-7c6cde35600b"
}
}
}
},
"lastActionDateTime": "2019-01-07T11:36:07Z",
"status": "Succeeded",
"createdDateTime": "2019-01-07T11:34:12Z",
"locale": "fr-FR",
"displayName": "Transcription using language identification with three candidate languages, 'fr-FR' as fallback locale and a custom model for transcribing utterances that were classified as 'nl-NL' locale.",
"customProperties": {
"key": "value"
}
}
Create a transcription with multispeaker diarization
示例请求
POST {endpoint}/speechtotext/v3.1/transcriptions
{
"contentUrls": [
"https://contoso.com/mystoragelocation"
],
"properties": {
"diarizationEnabled": true,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"diarization": {
"speakers": {
"minCount": 3,
"maxCount": 5
}
}
},
"locale": "en-US",
"displayName": "Transcription using diarization for audio that is known to contain speech from 3-5 speakers"
}
示例响应
{
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683",
"model": {
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/models/827712a5-f942-4997-91c3-7c6cde35600b"
},
"links": {
"files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/ba7ea6f5-3065-40b7-b49a-a90f48584683/files"
},
"properties": {
"diarizationEnabled": true,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT42S",
"diarization": {
"speakers": {
"minCount": 3,
"maxCount": 5
}
}
},
"lastActionDateTime": "2019-01-07T11:36:07Z",
"status": "Succeeded",
"createdDateTime": "2019-01-07T11:34:12Z",
"locale": "en-US",
"displayName": "Transcription using diarization for audio that is known to contain speech from 3-5 speakers",
"customProperties": {
"key": "value"
}
}
定义
名称 | 说明 |
---|---|
Detailed |
DetailedErrorCode |
Diarization |
DiarizationProperties |
Diarization |
DiarizationSpeakersProperties |
Entity |
EntityError |
Entity |
EntityReference |
Error |
错误 |
Error |
ErrorCode |
Inner |
InnerError |
Language |
LanguageIdentificationProperties |
Profanity |
ProfanityFilterMode |
Punctuation |
PunctuationMode |
Status |
状态 |
Transcription |
听录 |
Transcription |
TranscriptionLinks |
Transcription |
TranscriptionProperties |
DetailedErrorCode
DetailedErrorCode
名称 | 类型 | 说明 |
---|---|---|
DataImportFailed |
string |
数据导入失败。 |
DeleteNotAllowed |
string |
不允许删除。 |
DeployNotAllowed |
string |
不允许部署。 |
DeployingFailedModel |
string |
部署失败的模型。 |
EmptyRequest |
string |
空请求。 |
EndpointCannotBeDefault |
string |
终结点不能为默认值。 |
EndpointNotUpdatable |
string |
终结点不可更新。 |
EndpointWithoutLogging |
string |
没有日志记录的终结点。 |
ExceededNumberOfRecordingsUris |
string |
已超出录制 URI 数。 |
FailedDataset |
string |
失败的数据集。 |
Forbidden |
string |
已禁止。 |
InUseViolation |
string |
在使用中冲突。 |
InaccessibleCustomerStorage |
string |
无法访问的客户存储。 |
InvalidAdaptationMapping |
string |
无效的适应映射。 |
InvalidBaseModel |
string |
基本模型无效。 |
InvalidCallbackUri |
string |
回调 URI 无效。 |
InvalidCollection |
string |
集合无效。 |
InvalidDataset |
string |
数据集无效。 |
InvalidDocument |
string |
无效的文档。 |
InvalidDocumentBatch |
string |
无效的文档批处理。 |
InvalidLocale |
string |
区域设置无效。 |
InvalidLogDate |
string |
日志日期无效。 |
InvalidLogEndTime |
string |
日志结束时间无效。 |
InvalidLogId |
string |
日志 ID 无效。 |
InvalidLogStartTime |
string |
日志开始时间无效。 |
InvalidModel |
string |
无效的模型。 |
InvalidModelUri |
string |
无效的模型 URI。 |
InvalidParameter |
string |
参数无效。 |
InvalidParameterValue |
string |
参数值无效。 |
InvalidPayload |
string |
有效负载无效。 |
InvalidPermissions |
string |
权限无效。 |
InvalidPrerequisite |
string |
先决条件无效。 |
InvalidProductId |
string |
产品 ID 无效。 |
InvalidProject |
string |
无效的项目。 |
InvalidProjectKind |
string |
无效的项目类型。 |
InvalidRecordingsUri |
string |
录制 URI 无效。 |
InvalidRequestBodyFormat |
string |
请求正文格式无效。 |
InvalidSasValidityDuration |
string |
sas 有效性持续时间无效。 |
InvalidSkipTokenForLogs |
string |
日志的跳过令牌无效。 |
InvalidSubscription |
string |
订阅无效。 |
InvalidTest |
string |
测试无效。 |
InvalidTimeToLive |
string |
生存时间无效。 |
InvalidTopForLogs |
string |
日志顶部无效。 |
InvalidTranscription |
string |
听录无效。 |
InvalidWebHookEventKind |
string |
Web 挂钩事件类型无效。 |
MissingInputRecords |
string |
缺少输入记录。 |
ModelDeploymentNotCompleteState |
string |
模型部署未完成状态。 |
ModelDeprecated |
string |
模型已弃用。 |
ModelExists |
string |
模型存在。 |
ModelMismatch |
string |
模型不匹配。 |
ModelNotDeployable |
string |
模型不可部署。 |
ModelVersionIncorrect |
string |
模型版本不正确。 |
NoUtf8WithBom |
string |
没有带有 bom 的 utf8。 |
OnlyOneOfUrlsOrContainerOrDataset |
string |
只有一个 URL 或容器或数据集。 |
ProjectGenderMismatch |
string |
项目性别不匹配。 |
QuotaViolation |
string |
配额冲突。 |
SingleDefaultEndpoint |
string |
单个默认终结点。 |
SkuLimitsExist |
string |
存在 SKU 限制。 |
SubscriptionNotFound |
string |
找不到订阅。 |
UnexpectedError |
string |
意外错误。 |
UnsupportedClassBasedAdaptation |
string |
不支持的基于类的适应。 |
UnsupportedDelta |
string |
不支持的增量。 |
UnsupportedDynamicConfiguration |
string |
不支持的动态配置。 |
UnsupportedFilter |
string |
不支持的筛选器。 |
UnsupportedLanguageCode |
string |
不支持的语言代码。 |
UnsupportedOrderBy |
string |
不支持的订单依据。 |
UnsupportedPagination |
string |
不支持的分页。 |
UnsupportedTimeRange |
string |
不支持的时间范围。 |
DiarizationProperties
DiarizationProperties
名称 | 类型 | 说明 |
---|---|---|
speakers |
DiarizationSpeakersProperties |
DiarizationSpeakersProperties
DiarizationSpeakersProperties
名称 | 类型 | 说明 |
---|---|---|
maxCount |
integer |
要分割的最大说话人数。 必须小于 36 且大于或等于 minSpeakers 属性。 |
minCount |
integer |
用于进行分割的最小说话人数的提示。 必须小于或等于 maxSpeakers 属性。 |
EntityError
EntityError
名称 | 类型 | 说明 |
---|---|---|
code |
string |
此错误的代码。 |
message |
string |
此错误的消息。 |
EntityReference
EntityReference
名称 | 类型 | 说明 |
---|---|---|
self |
string |
被引用实体的位置。 |
Error
错误
名称 | 类型 | 说明 |
---|---|---|
code |
ErrorCode |
|
details |
Error[] |
有关错误和/或预期策略的其他支持性详细信息。 |
innerError |
InnerError |
|
message |
string |
高级别错误消息。 |
target |
string |
错误的源。 例如,如果文档无效,应为“文档”或“文档 ID”。 |
ErrorCode
ErrorCode
名称 | 类型 | 说明 |
---|---|---|
Conflict |
string |
表示冲突错误代码。 |
Forbidden |
string |
表示禁止的错误代码。 |
InternalCommunicationFailed |
string |
表示内部通信失败的错误代码。 |
InternalServerError |
string |
表示内部服务器错误代码。 |
InvalidArgument |
string |
表示无效的参数错误代码。 |
InvalidRequest |
string |
表示无效的请求错误代码。 |
NotAllowed |
string |
表示不允许的错误代码。 |
NotFound |
string |
表示找不到的错误代码。 |
PipelineError |
string |
表示管道错误代码。 |
ServiceUnavailable |
string |
表示服务不可用的错误代码。 |
TooManyRequests |
string |
表示请求过多的错误代码。 |
Unauthorized |
string |
表示未经授权的错误代码。 |
UnprocessableEntity |
string |
表示不可处理的实体错误代码。 |
UnsupportedMediaType |
string |
表示不受支持的媒体类型错误代码。 |
InnerError
InnerError
名称 | 类型 | 说明 |
---|---|---|
code |
DetailedErrorCode |
|
details |
object |
有关错误和/或预期策略的其他支持详细信息。 |
innerError |
InnerError |
|
message |
string |
高级错误消息。 |
target |
string |
错误的源。 例如,如果文档无效,应为“文档”或“文档 ID”。 |
LanguageIdentificationProperties
LanguageIdentificationProperties
名称 | 类型 | 说明 |
---|---|---|
candidateLocales |
string[] |
语言标识的候选区域设置 (示例 [“en-US”, “de-DE”, “es-ES”]) 。 支持至少 2 个和最多 10 个候选区域设置,包括听录的主要区域设置。 |
speechModelMapping |
<string,
Entity |
区域设置到语音模型实体的可选映射。 如果未为区域设置提供模型,则使用默认基本模型。 键必须是候选区域设置中包含的区域设置,值是相应区域设置模型的实体。 |
ProfanityFilterMode
ProfanityFilterMode
名称 | 类型 | 说明 |
---|---|---|
Masked |
string |
用 *(第一个字母除外)屏蔽亵渎内容,例如 f*** |
None |
string |
禁用不雅内容筛选。 |
Removed |
string |
删除亵渎内容。 |
Tags |
string |
添加“不雅内容”XML 标记</不雅内容> |
PunctuationMode
PunctuationMode
名称 | 类型 | 说明 |
---|---|---|
Automatic |
string |
自动标点符号。 |
Dictated |
string |
仅听写标点符号,即显式标点符号。 |
DictatedAndAutomatic |
string |
听写标点符号或自动标点符号。 |
None |
string |
无标点符号。 |
Status
状态
名称 | 类型 | 说明 |
---|---|---|
Failed |
string |
长时间运行的操作失败。 |
NotStarted |
string |
长时间运行的操作尚未启动。 |
Running |
string |
长时间运行的操作当前正在处理中。 |
Succeeded |
string |
长时间运行的操作已成功完成。 |
Transcription
听录
名称 | 类型 | 说明 |
---|---|---|
contentContainerUrl |
string |
包含音频文件的 Azure Blob 容器的 URL。 允许容器的最大大小为 5GB,最大数量为 10000 个 blob。 Blob 的最大大小为 2.5 GB。 容器 SAS 应包含“r” (读取) 和“l” (列表) 权限。 此属性不会在响应中返回。 |
contentUrls |
string[] |
用于获取要转录的音频文件的内容 URL 列表。 最多允许 1000 个 URL。 此属性不会在响应中返回。 |
createdDateTime |
string |
创建对象时的时间戳。 时间戳编码为 ISO 8601 日期和时间格式 (“YYYY-MM-DDThh:mm:ssZ”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) 。 |
customProperties |
object |
此实体的自定义属性。 允许的最大密钥长度为 64 个字符,允许的最大值长度为 256 个字符,允许的条目计数为 10。 |
dataset |
EntityReference |
|
description |
string |
对象的说明。 |
displayName |
string |
对象的显示名称。 |
lastActionDateTime |
string |
输入当前状态时的时间戳。 时间戳编码为 ISO 8601 日期和时间格式 (“YYYY-MM-DDThh:mm:ssZ”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) 。 |
links |
TranscriptionLinks |
|
locale |
string |
包含数据的区域设置。 如果使用语言标识,则此区域设置用于听录无法检测到任何语言的语音。 |
model |
EntityReference |
|
project |
EntityReference |
|
properties |
TranscriptionProperties |
|
self |
string |
此实体的位置。 |
status |
状态 |
TranscriptionLinks
TranscriptionLinks
名称 | 类型 | 说明 |
---|---|---|
files |
string |
获取此实体的所有文件的位置。 有关更多详细信息,请参阅操作“Transcriptions_ListFiles”。 |
TranscriptionProperties
TranscriptionProperties
名称 | 类型 | 说明 |
---|---|---|
channels |
integer[] |
请求的通道编号的集合。 在默认情况下,考虑通道 0 和通道 1。 |
destinationContainerUrl |
string |
请求的目标容器。 注解当目标容器与 结合使用时 |
diarization |
DiarizationProperties |
|
diarizationEnabled |
boolean |
一个 值,该值指示是否请求分割 (说话人识别) 。 默认值为 基本分割系统已弃用,将在 API 的下一个主要版本中删除。
此设置 |
displayFormWordLevelTimestampsEnabled |
boolean |
一个 值,该值指示是否请求显示窗体的单词级时间戳。 默认值为 |
duration |
string |
听录的持续时间。 持续时间编码为 ISO 8601 持续时间 (“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations) 。 |
string |
要向其发送电子邮件通知的电子邮件地址,以防操作完成。 成功发送电子邮件后,将删除该值。 |
|
error |
EntityError |
|
languageIdentification |
LanguageIdentificationProperties |
|
profanityFilterMode |
ProfanityFilterMode |
|
punctuationMode |
PunctuationMode |
|
timeToLive |
string |
听录完成后将在系统中保留多长时间。 听录到达完成后的生存时间后, (成功或失败) 将自动删除。 如果不设置此值或将其设置为 0,将禁用自动删除。 支持的最长持续时间为 31 天。 持续时间编码为 ISO 8601 持续时间 (“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations) 。 |
wordLevelTimestampsEnabled |
boolean |
一个值,该值指示是否请求单词级时间戳。 默认值为 |