你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Transcriptions - Transcribe

音频文件的同步听录。

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-11-15

URI 参数

名称 必需 类型 说明
audio
formData True

file (binary)

要转录的音频文件的内容。 音频文件在音频持续时间中必须短于 2 小时,且大小小于 250 MB。

definition
formData

string

听录请求的元数据。 此字段包含 TranscribeDefinition类型的 JSON 序列化对象。

endpoint
path True

string

支持的认知服务终结点(协议和主机名,例如:https://westus.api.cognitive.microsoft.com)。

api-version
query True

string

请求的 API 版本。

请求头

Media Types: "multipart/form-data"

名称 必需 类型 说明
Ocp-Apim-Subscription-Key True

string

在此处提供认知服务帐户密钥。

响应

名称 类型 说明
200 OK

TranscribeResult

还行

Other Status Codes

Error

发生错误。

安全性

Ocp-Apim-Subscription-Key

在此处提供认知服务帐户密钥。

类型: apiKey
在: header

示例

Transcribe an audio file

示例请求

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-11-15

示例响应

{
  "durationMilliseconds": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offsetMilliseconds": 40,
      "durationMilliseconds": 320,
      "text": "Weather",
      "words": [
        {
          "text": "weather",
          "offsetMilliseconds": 40,
          "durationMilliseconds": 320
        }
      ],
      "locale": "en-US",
      "confidence": 0.78983736
    }
  ]
}

定义

名称 说明
ChannelCombinedPhrases

每个通道的完整脚本。

DetailedErrorCode

DetailedErrorCode

Error

错误

ErrorCode

ErrorCode

InnerError

InnerError

Phrase

转录短语。

TranscribeResult

转录操作的结果。

Word

显示窗体中的时间戳单词。

ChannelCombinedPhrases

每个通道的完整脚本。

名称 类型 说明
channel

integer (int32)

基于 0 的通道索引。 仅当启用了通道分离时,才存在。

text

string

转录的文本。

DetailedErrorCode

DetailedErrorCode

说明
AudioLengthLimitExceeded

音频文件比允许的最大持续时间长。

BadChannelConfiguration

数据、配置或应用程序要求中的音频通道之间存在不匹配。

DataImportFailed

数据导入失败。

DeleteNotAllowed

不允许删除。

DeployNotAllowed

不允许部署。

DeployingFailedModel

部署失败的模型。

EmptyAudioFile

音频文件为空。

EmptyRequest

空请求。

EndpointCannotBeDefault

终结点不能为默认值。

EndpointLoggingNotSupported

不支持终结点日志记录。

EndpointNotUpdatable

终结点不可更新。

EndpointWithoutLogging

没有日志记录的终结点。

ExceededNumberOfRecordingsUris

超过录制 URI 数。

FailedDataset

失败的数据集。

Forbidden

禁止。

InUseViolation

在使用冲突中。

InaccessibleCustomerStorage

无法访问客户存储。

InvalidAdaptationMapping

适应映射无效。

InvalidAudioFormat

不支持输入音频的格式。

InvalidBaseModel

基本模型无效。

InvalidCallbackUri

回调 URI 无效。

InvalidChannelSpecification

不支持在听录请求中选择通道(例如,未选择 0 或 1)。

InvalidChannels

通道无效。

InvalidCollection

集合无效。

InvalidDataset

数据集无效。

InvalidDocument

无效的文档。

InvalidDocumentBatch

文档批处理无效。

InvalidLocale

区域设置无效。

InvalidLogDate

日志日期无效。

InvalidLogEndTime

日志结束时间无效。

InvalidLogId

无效的日志 ID。

InvalidLogStartTime

无效的日志开始时间。

InvalidModel

无效的模型。

InvalidModelUri

模型 URI 无效。

InvalidParameter

参数无效。

InvalidParameterValue

参数值无效。

InvalidPayload

有效负载无效。

InvalidPermissions

权限无效。

InvalidPrerequisite

先决条件无效。

InvalidProductId

产品 ID 无效。

InvalidProject

项目无效。

InvalidProjectKind

项目类型无效。

InvalidRecordingsUri

录制 URI 无效。

InvalidRequestBodyFormat

请求正文格式无效。

InvalidSasValidityDuration

SAS 有效期无效。

InvalidSkipTokenForLogs

日志的跳过令牌无效。

InvalidSourceAzureResourceId

源 Azure 资源 ID 无效。

InvalidSubscription

订阅无效。

InvalidTest

测试无效。

InvalidTimeToLive

生存时间无效。

InvalidTopForLogs

日志顶部无效。

InvalidTranscription

听录无效。

InvalidWebHookEventKind

Web 挂钩事件类型无效。

MissingInputRecords

缺少输入记录。

ModelCopyAuthorizationExpired

已过期的 ModelCopyAuthorization。

ModelDeploymentNotCompleteState

模型部署未完成状态。

ModelDeprecated

模型已弃用。

ModelExists

模型存在。

ModelMismatch

模型不匹配。

ModelNotDeployable

模型不可部署。

ModelVersionIncorrect

模型版本不正确。

MultipleLanguagesIdentified

语言识别识别的多种语言。 无法确定主导语言。

NoLanguageIdentified

语言识别无法识别任何语言。

NoUtf8WithBom

没有带有 bom 的 utf8。

OnlyOneOfUrlsOrContainerOrDataset

只有一个 URL 或容器或数据集。

ProjectGenderMismatch

项目性别不匹配。

QuotaViolation

配额冲突。

SingleDefaultEndpoint

单个默认终结点。

SkuLimitsExist

SKU 限制存在。

SubscriptionNotFound

找不到订阅。

UnexpectedError

意外错误。

UnsupportedClassBasedAdaptation

不支持的基于类的适应。

UnsupportedDelta

不支持的增量。

UnsupportedDynamicConfiguration

不支持的动态配置。

UnsupportedFilter

不支持的筛选器。

UnsupportedLanguageCode

不支持的语言代码。

UnsupportedOrderBy

不受支持的订单依据。

UnsupportedPagination

不支持的分页。

UnsupportedTimeRange

不支持的时间范围。

Error

错误

名称 类型 说明
code

ErrorCode

ErrorCode
高级错误代码。

details

Error[]

有关错误和/或预期策略的其他支持详细信息。

innerError

InnerError

InnerError
符合认知服务 API 准则的新内部错误格式,可在 https://microsoft.sharepoint.com/%3Aw%3A/t/CognitiveServicesPMO/EUoytcrjuJdKpeOKIK_QRC8BPtUYQpKBi8JsWyeDMRsWlQ?e=CPq8ow获取。 这包括必需的属性 ErrorCode、消息和可选属性目标、详细信息(键值对)、内部错误(可嵌套)。

message

string

高级错误消息。

target

string

错误的源。 例如,如果文档无效,则为“documents”或“document id”。

ErrorCode

ErrorCode

说明
Conflict

表示冲突错误代码。

Forbidden

表示禁止的错误代码。

InternalCommunicationFailed

表示内部通信失败的错误代码。

InternalServerError

表示内部服务器错误代码。

InvalidArgument

表示无效的参数错误代码。

InvalidRequest

表示无效的请求错误代码。

NotAllowed

表示不允许的错误代码。

NotFound

表示找不到的错误代码。

PipelineError

表示管道错误代码。

ServiceUnavailable

表示服务不可用的错误代码。

TooManyRequests

表示请求错误代码过多。

Unauthorized

表示未经授权的错误代码。

UnprocessableEntity

表示无法处理的实体错误代码。

UnsupportedMediaType

表示不支持的媒体类型错误代码。

InnerError

InnerError

名称 类型 说明
code

DetailedErrorCode

DetailedErrorCode
详细的错误代码枚举。

details

object

有关错误和/或预期策略的其他支持详细信息。

innerError

InnerError

InnerError
符合认知服务 API 准则的新内部错误格式,可在 https://microsoft.sharepoint.com/%3Aw%3A/t/CognitiveServicesPMO/EUoytcrjuJdKpeOKIK_QRC8BPtUYQpKBi8JsWyeDMRsWlQ?e=CPq8ow获取。 这包括必需的属性 ErrorCode、消息和可选属性目标、详细信息(键值对)、内部错误(可嵌套)。

message

string

高级错误消息。

target

string

错误的源。 例如,如果文档无效,则为“documents”或“document id”。

Phrase

转录短语。

名称 类型 说明
channel

integer (int32)

基于 0 的通道索引。 仅当启用了通道分离时,才存在。

confidence

number (float)

短语的置信度值。

durationMilliseconds

integer (int32)

短语的持续时间(以毫秒为单位)。

locale

string

短语的区域设置。

offsetMilliseconds

integer (int32)

短语的开始偏移量(以毫秒为单位)。

speaker

integer (int32)

一个唯一的整数号,分配给音频中检测到的每个扬声器,没有特定顺序。 仅当启用了说话人分割时,才存在。

text

string

短语的转录文本。

words

Word[]

构成短语的单词。 仅当启用了字级时间戳时,才存在。

TranscribeResult

转录操作的结果。

名称 类型 说明
combinedPhrases

ChannelCombinedPhrases[]

每个通道的完整脚本。

durationMilliseconds

integer (int32)

音频的持续时间(以毫秒为单位)。

phrases

Phrase[]

听录结果分为短语。

Word

显示窗体中的时间戳单词。

名称 类型 说明
durationMilliseconds

integer (int32)

单词的持续时间(以毫秒为单位)。

offsetMilliseconds

integer (int32)

单词的起始偏移量(以毫秒为单位)。

text

string

已识别的单词,包括标点符号。