AssemblyAI （预览版）

使用 AssemblyAI 的语音 AI 从音频中转录和提取数据。

此连接器在以下产品和区域中可用：

服务	Class	区域
Copilot Studio	高级	除以下各项外的所有 Power Automate 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）
逻辑应用程序	标准	除以下各项外的所有逻辑应用区域： - Azure 政府区域 - Azure 中国区域 - 美国国防部（DoD）
Power Apps	高级	除以下各项外的所有 Power Apps 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）
Power Automate	高级	除以下各项外的所有 Power Automate 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）

联系人
Name	Support
URL	https://www.assemblyai.com/docs/
Email	support@assemblyai.com

连接器元数据
发布者	AssemblyAI
Website	https://www.assemblyai.com
隐私策略	https://www.assemblyai.com/legal/privacy-policy
类别	AI

借助 AssemblyAI 连接器，可以使用 AssemblyAI 的模型通过语音识别模型转录音频数据、使用音频智能模型对其进行分析，并使用 LLM 在音频智能模型的基础上生成生成功能来处理音频数据。

语音转文本包括许多可配置功能，例如说话人分割、自定义拼写、自定义词汇等。
音频智能模型是可通过听录配置提供和配置的其他 AI 模型。
LeMUR 允许你将各种 LLM 模型应用到脚本，而无需为非常大的脚本构建自己的 RAG 基础结构。

先决条件

需要满足以下条件才能继续作：

AssemblyAI API 密钥（免费获取一个）

如何获取凭据

可以通过注册帐户并从仪表板复制 API 密钥来免费获取 AssemblyAI API 密钥。

连接器入门

按照以下步骤使用 AssemblyAI 连接器听录音频。

上传文件

若要使用 AssemblyAI 听录音频文件，需要 AssemblyAI 可以访问该文件。如果音频文件已通过 URL 访问，则可以使用现有 URL。

否则，可以使用该 Upload a File 作将文件上传到 AssemblyAI。你将返回文件的 URL，该文件只能用于使用 API 密钥进行转录。转录文件后，该文件将从 AssemblyAI 的服务器中删除。

转录音频

若要转录音频，请使用音频文件 URL 配置 Audio URL 参数。然后，配置其他参数以启用更多语音识别功能和音频智能模型。

听录音频作的结果是排队的脚本，该脚本将立即开始处理。若要获取完成的脚本，有两个选项：

处理脚本就绪 Webhook
轮询脚本状态

处理脚本就绪 Webhook

如果不想使用逻辑应用或 Power Automate 处理 Webhook，请在作中Transcribe Audio配置Webhook URL参数，并在 AssemblyAI 的 Webhook 文档后实现 Webhook。

若要使用逻辑应用或 Power Automate 处理 Webhook，请执行以下步骤：

创建单独的逻辑应用或 Power Automate Flow
配置为 When an HTTP request is received 触发器：
- 将 Who Can Trigger The Flow? 设置为 Anyone
- 设置为 Request Body JSON Schema ：
```
{
  "type": "object",
  "properties": {
    "transcript_id": {
      "type": "string"
    },
    "status": {
      "type": "string"
    }
  }
}
```
- 将 Method 设置为 POST
添加 AssemblyAI Get Transcript 作，从 transcript_id 触发器传入参数 Transcript ID 。
在执行任何其他作之前，应检查 Status 是 completed 还是 error。添加一个Condition作，用于检查输出中是否StatusGet Transcript为error：
- 在True分支中，添加作Terminate
  - 设置为StatusFailed
  - 设置为CodeTranscript Error
  - 将ErrorGet Transcript输出传递到Message参数。
- 可以将分支留 False 空。
现在，你可以在知道脚本状态completed后Condition添加任何作，并且可以检索作的任何输出属性Get Transcript。
保存逻辑应用或流。将为触发器生成When an HTTP request is received该HTTP URL触发器。复制 HTTP URL 并返回原始逻辑应用或流。
在原始逻辑应用或流中，更新 Transcribe Audio 作。将之前复制的 HTTP URL 粘贴到 Webhook URL 参数中，然后保存。

当脚本状态变为 completed 或 error时，AssemblyAI 将向 Webhook URL 发送 HTTP POST 请求，该 URL 将由其他逻辑应用或 Flow 处理。

作为使用 Webhook 的替代方法，可以轮询脚本状态，如下一部分所述。

轮询脚本状态

可以使用以下步骤轮询脚本状态：

添加作Initialize variable
- 将 Name 设置为 transcript_status
- 将 Type 设置为 String
- 将输出中的StatusTranscribe Audio输出存储到参数中Value
添加作Do until
- Loop Until使用以下 Fx 代码配置参数：
```
or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
```
  此代码检查变量completed是transcript_status还是 error。
- 将 Count 参数配置为 86400
- 将 Timeout 参数配置为 PT24H
在该作中 Do until ，添加以下作：
- Delay添加等待一秒的作
- 添加作 Get Transcript 并将输出中的输出传递到 IDTranscribe AudioTranscript ID 参数。
- 添加作Set variable
  - 将 Name 设置为 transcript_status
  - 将StatusGet Transcript输出传递给Value参数
循环 Do until 将继续，直到脚本完成或发生错误。
添加另一个 Get Transcript 作，例如之前，但在循环之后 Do until 添加该作，使其输出在作范围 Do until 之外可用。

在执行任何其他作之前，应检查脚本Statuscompleted是还是 error。添加一个 Condition 作，用于检查 transcript_status 是否为 error：

在True分支中，添加作Terminate
- 将 Status 设置为 Failed
- 将 Code 设置为 Transcript Error
- 将ErrorGet Transcript输出传递到Message参数。
可以将分支留 False 空。

现在，你可以在知道脚本状态completed后Condition添加任何作，并且可以检索作的任何输出属性Get Transcript。

添加更多操作

完成听录后，可以使用传入 ID 脚本的许多其他作，例如

Get Sentences of Transcript
Get Paragraphs of Transcript
Get Subtitles of Transcript
Get Redacted Audio
Search Transcript for Words
Run a Task using LeMUR

已知问题和限制

目前没有已知问题。不支持流式处理语音To-Text（实时），因为无法使用自定义连接器。

常见错误和补救措施

可以在 AssemblyAI 文档中找到有关错误的详细信息。

FAQ

可以在我们的文档中找到常见问题。

正在创建连接

连接器支持以下身份验证类型：


默认	用于创建连接的参数。	所有区域	不可共享

违约

适用：所有区域

用于创建连接的参数。

这是不可共享的连接。如果 Power App 与另一个用户共享，系统会提示其他用户显式创建新连接。

Name	类型	Description	必选
AssemblyAI API 密钥	securestring	用于对 AssemblyAI API 进行身份验证的 AssemblyAI API 密钥。	True

限制

名称	调用	续订期
每个连接的 API 调用数	100	60 秒

操作

上传媒体文件	将媒体文件上传到 AssemblyAI 的服务器。
使用 LeMUR 运行任务	使用 LeMUR 任务终结点输入自己的 LLM 提示符。
列出脚本	检索创建的脚本列表。脚本从最新到最早的排序。上一个 URL 始终指向包含较旧脚本的页面。
删除脚本	删除脚本。删除不会删除资源本身，而是从资源中删除数据并将其标记为已删除。
在脚本中搜索字词	搜索关键字的脚本。可以搜索包含最多五个单词或数字的单个单词、数字或短语。
检索 LeMUR 响应	检索以前生成的 LeMUR 响应。
清除 LemUR 请求数据	删除以前提交的 LeMUR 请求的数据。 LLM 响应数据以及原始请求中提供的任何上下文都将被删除。
获取修订的音频	检索包含已编修音频的状态和 URL 的已编修音频对象。
获取脚本	获取脚本资源。当“状态”为“已完成”时，脚本已准备就绪。
获取脚本中的句子	获取按句子拆分的脚本。 API 将尝试以语义方式将脚本分段为句子，以创建更易读的脚本。
获取脚本中的段落	获取按段落拆分的脚本。 API 将尝试以语义方式将脚本分段为段落，以创建更易读的脚本。
获取脚本字幕	以 SRT 或 VTT 格式导出脚本，以用于字幕和隐藏式字幕的视频播放器。
转录音频	从可通过 URL 访问的媒体文件创建脚本。

上传媒体文件

操作 ID:: UploadFile

将媒体文件上传到 AssemblyAI 的服务器。

参数

名称	密钥	必需	类型	说明
文件内容	file	True	binary	要上传的文件。

Body: UploadedFile

使用 LeMUR 运行任务

操作 ID:: LemurTask

使用 LeMUR 任务终结点输入自己的 LLM 提示符。

参数

名称	密钥	必需	类型	说明
Prompt	prompt	True	string	要提示模型生成所需输出的文本，包括要传入模型的任何上下文。
脚本 ID	transcript_ids		array of uuid	包含文本的已完成脚本的列表。最多 100 个文件或 100 小时，以较低者为准。使用 transcript_ids 或 input_text 作为 LeMUR 的输入。
输入文本	input_text		string	自定义格式化脚本数据。最大大小是所选模型的上下文限制，默认为 100000。使用 transcript_ids 或 input_text 作为 LeMUR 的输入。
上下文	context		string	用于提供模型的上下文。可以是字符串或自由格式的 JSON 值。
最终模型	final_model		string	执行压缩后用于最终提示的模型。
最大输出大小	max_output_size		integer	令牌中的最大输出大小，最大为 4000
温度	temperature		float	要用于模型的温度。较高的值导致答案更具创意，较低的值更保守。可以是介于 0.0 和 1.0 之间的任意值（含 1.0）。

Body: LemurTaskResponse

列出脚本

操作 ID:: ListTranscripts

检索创建的脚本列表。脚本从最新到最早的排序。上一个 URL 始终指向包含较旧脚本的页面。

参数

名称	密钥	类型	说明
限度	limit	integer	要检索的最大脚本量
状态	status	string	脚本的状态。可能的值为排队、处理、已完成或错误。
创建日期	created_on	date	仅获取在此日期创建的脚本
ID 之前	before_id	uuid	获取在此脚本 ID 之前创建的脚本
ID 之后	after_id	uuid	获取在此脚本 ID 之后创建的脚本
仅限限制	throttled_only	boolean	仅获取受限制的脚本，覆盖状态筛选器

脚本列表。脚本从最新到最早的排序。上一个 URL 始终指向包含较旧脚本的页面。

Body: TranscriptList

删除脚本

操作 ID:: DeleteTranscript

删除脚本。删除不会删除资源本身，而是从资源中删除数据并将其标记为已删除。

参数

名称	密钥	必需	类型	说明
脚本 ID	transcript_id	True	string	脚本的 ID

脚本对象

Body: Transcript

在脚本中搜索字词

操作 ID:: WordSearch

搜索关键字的脚本。可以搜索包含最多五个单词或数字的单个单词、数字或短语。

参数

名称	密钥	必需	类型	说明
脚本 ID	transcript_id	True	string	脚本的 ID
单词	words	True	array	要搜索的关键字

Body: WordSearchResponse

检索 LeMUR 响应

操作 ID:: GetLemurResponse

检索以前生成的 LeMUR 响应。

参数

名称	密钥	必需	类型	说明
LeMUR 请求 ID	request_id	True	string	之前发出的 LeMUR 请求的 ID。这可以在原始请求的响应中找到。

Body: LemurResponse

清除 LemUR 请求数据

操作 ID:: PurgeLemurRequestData

删除以前提交的 LeMUR 请求的数据。 LLM 响应数据以及原始请求中提供的任何上下文都将被删除。

参数

名称	密钥	必需	类型	说明
LeMUR 请求 ID	request_id	True	string	要删除其数据的 LeMUR 请求的 ID。这可以在原始请求的响应中找到。

Body: PurgeLemurRequestDataResponse

获取修订的音频

操作 ID:: GetRedactedAudio

检索包含已编修音频的状态和 URL 的已编修音频对象。

参数

名称	密钥	必需	类型	说明
脚本 ID	transcript_id	True	string	脚本的 ID

Body: RedactedAudioResponse

获取脚本

操作 ID:: GetTranscript

获取脚本资源。当“状态”为“已完成”时，脚本已准备就绪。

参数

名称	密钥	必需	类型	说明
脚本 ID	transcript_id	True	string	脚本的 ID

脚本对象

Body: Transcript

获取脚本中的句子

操作 ID:: GetTranscriptSentences

获取按句子拆分的脚本。 API 将尝试以语义方式将脚本分段为句子，以创建更易读的脚本。

参数

名称	密钥	必需	类型	说明
脚本 ID	transcript_id	True	string	脚本的 ID

Body: SentencesResponse

获取脚本中的段落

操作 ID:: GetTranscriptParagraphs

获取按段落拆分的脚本。 API 将尝试以语义方式将脚本分段为段落，以创建更易读的脚本。

参数

名称	密钥	必需	类型	说明
脚本 ID	transcript_id	True	string	脚本的 ID

Body: ParagraphsResponse

获取脚本字幕

操作 ID:: GetSubtitles

以 SRT 或 VTT 格式导出脚本，以用于字幕和隐藏式字幕的视频播放器。

参数

名称	密钥	必需	类型	说明
脚本 ID	transcript_id	True	string	脚本的 ID
字幕格式	subtitle_format	True	string	副标题的格式
每个标题的字符数	chars_per_caption		integer	每个题注的最大字符数

response: string

转录音频

操作 ID:: CreateTranscript

从可通过 URL 访问的媒体文件创建脚本。

参数

名称	密钥	必需	类型	说明
音频 URL	audio_url	True	string	要转录的音频或视频文件的 URL。
语言代码	language_code		string	音频文件的语言。支持的语言中可以找到可能的值。默认值为“en_us”。
语言检测	language_detection		boolean	启用自动语言检测（true 或 false）。
语音模型	speech_model		string	要用于听录的语音模型。
标点	punctuate		boolean	启用自动标点，可以是 true 或 false
设置文本格式	format_text		boolean	启用文本格式，可以是 true 或 false
不合时常	disfluencies		boolean	在媒体文件中转录填充词，如“um”;可以为 true 或 false
双通道	dual_channel		boolean	启用双通道听录，可以是 true 或 false。
Webhook URL	webhook_url		string	我们向其发送 Webhook 请求的 URL。我们发送两种类型的 Webhook 请求。脚本完成或失败时发出一个请求，如果启用了redact_pii_audio，则为已编修音频时发出一个请求。
Webhook 身份验证标头名称	webhook_auth_header_name		string	要随脚本完成或失败的 Webhook 请求一起发送的标头名称
Webhook 身份验证标头值	webhook_auth_header_value		string	返回的标头值，其中包含已完成的脚本或失败的 Webhook 请求以增加安全性
关键短语	auto_highlights		boolean	启用关键短语（true 或 false）
音频起始时间	audio_start_from		integer	开始在媒体文件中转录的时间点（以毫秒为单位）
音频结束位置	audio_end_at		integer	停止在媒体文件中转录的时间点（以毫秒为单位）
Word Boost	word_boost		array of string	用于提升听录概率的自定义词汇列表
Word 提升级别	boost_param		string	提升指定字词的量
筛选不雅内容	filter_profanity		boolean	筛选转录文本中的不雅内容，可以是 true 或 false
Redact PII	redact_pii		boolean	使用 Redact PII 模型从转录文本中编辑 PII 可以是 true 或 false
Redact PII Audio	redact_pii_audio		boolean	生成带有口述 PII“蜂鸣”的原始媒体文件的副本，可以是 true 或 false。有关更多详细信息，请参阅 PII 修订。
Redact PII Audio Quality	redact_pii_audio_quality		string	控制由redact_pii_audio创建的音频的文件类型。目前支持 mp3（默认）和 wav。有关更多详细信息，请参阅 PII 修订。
Redact PII 策略	redact_pii_policies		array of string	要启用的 PII 修订策略列表。有关更多详细信息，请参阅 PII 修订。
Redact PII 替换	redact_pii_sub		string	检测到的 PII 的替换逻辑可以是“entity_name”或“hash”。有关更多详细信息，请参阅 PII 修订。
说话人标签	speaker_labels		boolean	启用说话人分割，可以是 true 或 false
预期演讲者	speakers_expected		integer	告知扬声器标签模型它应尝试识别的扬声器数，最多 10 个。有关更多详细信息，请参阅演讲者分割。
内容审核	content_safety		boolean	启用内容审查，可以是 true 或 false
内容审查置信度	content_safety_confidence		integer	内容审查模型的置信度阈值。值必须介于 25 和 100 之间。
主题检测	iab_categories		boolean	启用主题检测，可以是 true 或 false
来自	from	True	array of string	要替换的字词或短语
到	to	True	string	要替换为的单词或短语
情绪分析	sentiment_analysis		boolean	启用情绪分析，可以是 true 或 false
自动章节	auto_chapters		boolean	启用自动章节，可以是 true 或 false
实体检测	entity_detection		boolean	启用实体检测，可以是 true 或 false
语音阈值	speech_threshold		float	拒绝包含小于此语音分数的音频文件。有效值在 [0， 1] 范围内（含 1）。
启用摘要	summarization		boolean	启用摘要，可以是 true 或 false
摘要模型	summary_model		string	用于汇总脚本的模型
摘要类型	summary_type		string	摘要的类型
启用自定义主题	custom_topics		boolean	启用自定义主题（true 或 false）
自定义主题	topics		array of string	自定义主题列表

脚本对象

Body: Transcript

定义

RedactedAudioResponse

名称	路径	类型	说明
状态	status	string	已编入音频的状态
修订的音频 URL	redacted_audio_url	string	已编入音频文件的 URL

WordSearchResponse

名称	路径	类型	说明
脚本 ID	id	uuid	脚本的 ID
匹配项总数	total_count	integer	所有匹配实例的总计数。例如，单词 1 匹配 2 次，单词 2 匹配 3 次，total_count等于 5。
匹配	matches	array of object	搜索的匹配项
文本	matches.text	string	匹配的单词
计数	matches.count	integer	单词在脚本中的总次数
时间戳	matches.timestamps	array of array	时间戳数组
时间戳	matches.timestamps	array of integer	结构化为 [start_time， end_time] 的时间戳数组（以毫秒为单位）
Indexes	matches.indexes	array of integer	完成脚本的单词数组内该单词的所有索引位置的数组

字幕

脚本对象

名称	路径	类型	说明
ID	id	uuid	脚本的唯一标识符
音频 URL	audio_url	string	已转录的媒体的 URL
状态	status	string	脚本的状态。可能的值为排队、处理、已完成或错误。
语言代码	language_code	string	音频文件的语言。支持的语言中可以找到可能的值。默认值为“en_us”。
语言检测	language_detection	boolean	是否启用自动语言检测（true 或 false）
语音模型	speech_model	string	要用于听录的语音模型。
文本	text	string	媒体文件的文本脚本
单词	words	array of object	临时顺序单词对象的数组，脚本中每个单词对应一个。有关详细信息，请参阅语音识别。
置信度	words.confidence	double
Start	words.start	integer
结束	words.end	integer
文本	words.text	string
议长	words.speaker	string	如果启用了说话人 Diarization，则句子的说话人，否则为 null
陈述	utterances	array of object	启用dual_channel或speaker_labels时，轮次陈述对象列表。有关详细信息，请参阅演讲者分割。
置信度	utterances.confidence	double	此陈述脚本的置信度分数
Start	utterances.start	integer	音频文件中话语的开始时间（以毫秒为单位）
结束	utterances.end	integer	音频文件中话语的结束时间（以毫秒为单位）
文本	utterances.text	string	此陈述的文本
单词	utterances.words	array of object	话语中的单词。
置信度	utterances.words.confidence	double
Start	utterances.words.start	integer
结束	utterances.words.end	integer
文本	utterances.words.text	string
议长	utterances.words.speaker	string	如果启用了说话人 Diarization，则句子的说话人，否则为 null
议长	utterances.speaker	string	此陈述的说话人，其中每个说话人都分配有一个顺序大写字母，例如说话人 A 的“A”、说话人 B 的“B”等。
置信度	confidence	double	脚本的置信度分数，介于 0.0（低置信度）和 1.0 之间（高置信度）
音频持续时间	audio_duration	integer	此脚本对象的媒体文件的持续时间（以秒为单位）
标点	punctuate	boolean	是否启用自动标点符号（true 还是 false）
设置文本格式	format_text	boolean	是否启用文本格式，为 true 还是 false
不合时常	disfluencies	boolean	在媒体文件中转录填充词，如“um”;可以为 true 或 false
双通道	dual_channel	boolean	是否在听录请求中启用了双通道听录（true 还是 false）
Webhook URL	webhook_url	string	我们向其发送 Webhook 请求的 URL。我们发送两种类型的 Webhook 请求。脚本完成或失败时发出一个请求，如果启用了redact_pii_audio，则为已编修音频时发出一个请求。
Webhook HTTP 状态代码	webhook_status_code	integer	提供脚本已完成或 Webhook 请求失败时从服务器收到的状态代码（如果提供了 Webhook URL）
已启用 Webhook 身份验证	webhook_auth	boolean	是否提供了 Webhook 身份验证详细信息
Webhook 身份验证标头名称	webhook_auth_header_name	string	要随脚本完成或失败的 Webhook 请求一起发送的标头名称
速度提升	speed_boost	boolean	是否启用速度提升
关键短语	auto_highlights	boolean	关键短语是启用的，是 true 还是 false
状态	auto_highlights_result.status	string	在极少数情况下，模型失败或不可用
Results	auto_highlights_result.results	array of object	关键短语的临时顺序数组
计数	auto_highlights_result.results.count	integer	关键短语出现在音频文件中的总次数
等级	auto_highlights_result.results.rank	float	此关键短语的整体音频文件的总相关性 - 一个更大的数字意味着更相关
文本	auto_highlights_result.results.text	string	关键短语的文本本身
时间戳	auto_highlights_result.results.timestamps	array of object	关键短语的时间戳
Start	auto_highlights_result.results.timestamps.start	integer	开始时间（以毫秒为单位）
结束	auto_highlights_result.results.timestamps.end	integer	结束时间（以毫秒为单位）
音频起始时间	audio_start_from	integer	开始听录的文件的时间点（以毫秒为单位）
音频结束位置	audio_end_at	integer	终止听录的文件的时间点（以毫秒为单位）
Word Boost	word_boost	array of string	用于提升听录概率的自定义词汇列表
提高	boost_param	string	单词提升参数值
筛选不雅内容	filter_profanity	boolean	是否启用不雅内容筛选（true 或 false）
Redact PII	redact_pii	boolean	是否启用 PII 修订（true 或 false）
Redact PII Audio	redact_pii_audio	boolean	是生成音频文件的修订版本，是 true 还是 false。有关详细信息，请参阅 PII 修订。
Redact PII Audio Quality	redact_pii_audio_quality	string	控制由redact_pii_audio创建的音频的文件类型。目前支持 mp3（默认）和 wav。有关更多详细信息，请参阅 PII 修订。
Redact PII 策略	redact_pii_policies	array of string	如果启用了 PII Redaction，则启用的 PII 修订策略列表。有关详细信息，请参阅 PII 修订。
Redact PII 替换	redact_pii_sub	string	检测到的 PII 的替换逻辑可以是“entity_name”或“hash”。有关更多详细信息，请参阅 PII 修订。
说话人标签	speaker_labels	boolean	是否启用说话人分割，可以是 true 还是 false
预期演讲者	speakers_expected	integer	告知扬声器标签模型它应尝试识别的扬声器数，最多 10 个。有关更多详细信息，请参阅演讲者分割。
内容审核	content_safety	boolean	是否启用内容审查，可以是 true 还是 false
状态	content_safety_labels.status	string	在极少数情况下，模型失败或不可用
Results	content_safety_labels.results	array of object
文本	content_safety_labels.results.text	string	内容审查模型标记的部分的脚本
标签	content_safety_labels.results.labels	array of object	安全标签数组，每个敏感主题一个，在本节中检测到
标签	content_safety_labels.results.labels.label	string	敏感主题的标签
置信度	content_safety_labels.results.labels.confidence	double	正在讨论的主题的置信度分数，从 0 到 1
Severity	content_safety_labels.results.labels.severity	double	从 0 到 1 部分讨论主题的严重程度
句子索引开始	content_safety_labels.results.sentences_idx_start	integer	节开始的句子索引
句子索引结束	content_safety_labels.results.sentences_idx_end	integer	节结束的句子索引
Start	content_safety_labels.results.timestamp.start	integer	开始时间（以毫秒为单位）
结束	content_safety_labels.results.timestamp.end	integer	结束时间（以毫秒为单位）
概要	content_safety_labels.summary	object	整个音频文件的内容审查置信度结果摘要
严重性分数摘要	content_safety_labels.severity_score_summary	object	整个音频文件的内容审查严重性结果摘要
主题检测	iab_categories	boolean	是否启用主题检测，可以是 true 还是 false
状态	iab_categories_result.status	string	在极少数情况下，模型失败或不可用
Results	iab_categories_result.results	array of object	主题检测模型的结果数组
文本	iab_categories_result.results.text	string	脚本中发生检测到的主题的文本
标签	iab_categories_result.results.labels	array of object
相关性	iab_categories_result.results.labels.relevance	double	检测到的主题与检测到的主题的相关性
标签	iab_categories_result.results.labels.label	string	检测到主题的标签的 IAB 分类标签，其中 > 表示超topic/subtopic 关系
Start	iab_categories_result.results.timestamp.start	integer	开始时间（以毫秒为单位）
结束	iab_categories_result.results.timestamp.end	integer	结束时间（以毫秒为单位）
概要	iab_categories_result.summary	object	主题与整个音频文件的整体相关性
自定义拼写	custom_spelling	array of object	自定义单词的拼写和格式设置方式，以及如何使用值与值进行格式设置
来自	custom_spelling.from	array of string	要替换的字词或短语
到	custom_spelling.to	string	要替换为的单词或短语
启用自动章节	auto_chapters	boolean	是否启用自动章节，可以是 true 还是 false
章	chapters	array of object	音频文件的临时顺序章节数组
Gist	chapters.gist	string	一篇超短摘要（只是几句话）在章节中讲的内容
标题	chapters.headline	string	章节中讲的内容的单个句子摘要
概要	chapters.summary	string	章节中讲的内容的一段摘要
Start	chapters.start	integer	章节的起始时间（以毫秒为单位）
结束	chapters.end	integer	章节的起始时间（以毫秒为单位）
已启用摘要	summarization	boolean	是否启用摘要（true 或 false）
摘要类型	summary_type	string	如果启用了摘要，则生成的摘要类型
摘要模型	summary_model	string	如果启用了摘要，则用于生成摘要的摘要模型
概要	summary	string	如果启用了摘要，则为媒体文件的生成摘要
已启用自定义主题	custom_topics	boolean	自定义主题是启用的，是 true 还是 false
主题	topics	array of string	启用自定义主题时提供的自定义主题列表
情绪分析	sentiment_analysis	boolean	是否启用情绪分析，可以是 true 还是 false
情绪分析结果	sentiment_analysis_results	array of object	情绪分析模型的结果数组（如果已启用）。有关详细信息，请参阅情绪分析。
文本	sentiment_analysis_results.text	string	句子的脚本
Start	sentiment_analysis_results.start	integer	句子的起始时间（以毫秒为单位）
结束	sentiment_analysis_results.end	integer	句子的结束时间（以毫秒为单位）
情绪	sentiment_analysis_results.sentiment		检测到句子的情绪，一个积极，中性，负
置信度	sentiment_analysis_results.confidence	double	检测到句子情绪的置信度分数，从 0 到 1
议长	sentiment_analysis_results.speaker	string	如果启用了说话人 Diarization，则句子的说话人，否则为 null
实体检测	entity_detection	boolean	实体检测是启用的，可以是 true 还是 false
Entities	entities	array of object	实体检测模型的结果数组（如果已启用）。有关详细信息，请参阅实体检测。
实体类型	entities.entity_type	string	检测到的实体的实体类型
文本	entities.text	string	检测到的实体的文本
Start	entities.start	integer	开始时间（以毫秒为单位），检测到的实体出现在音频文件中
结束	entities.end	integer	音频文件中检测到的实体的结束时间（以毫秒为单位）
语音阈值	speech_threshold	float	默认值为 null。拒绝包含小于此语音分数的音频文件。有效值在 [0， 1] 范围内（含 1）。
扼杀	throttled	boolean	当请求被限制时为 True，当请求不再受到限制时为 false
错误	error	string	脚本失败原因的错误消息
语言模型	language_model	string	用于脚本的语言模型
声学模型	acoustic_model	string	用于脚本的声学模型

SentencesResponse

名称	路径	类型	说明
脚本 ID	id	uuid
置信度	confidence	double
音频持续时间	audio_duration	number
句子	sentences	array of object
文本	sentences.text	string
Start	sentences.start	integer
结束	sentences.end	integer
置信度	sentences.confidence	double
单词	sentences.words	array of object
置信度	sentences.words.confidence	double
Start	sentences.words.start	integer
结束	sentences.words.end	integer
文本	sentences.words.text	string
议长	sentences.words.speaker	string	如果启用了说话人 Diarization，则句子的说话人，否则为 null
议长	sentences.speaker	string	如果启用了说话人 Diarization，则句子的说话人，否则为 null

ParagraphsResponse

名称	路径	类型	说明
脚本 ID	id	uuid
置信度	confidence	double
音频持续时间	audio_duration	number
Paragraphs	paragraphs	array of object
文本	paragraphs.text	string
Start	paragraphs.start	integer
结束	paragraphs.end	integer
置信度	paragraphs.confidence	double
单词	paragraphs.words	array of object
置信度	paragraphs.words.confidence	double
Start	paragraphs.words.start	integer
结束	paragraphs.words.end	integer
文本	paragraphs.words.text	string
议长	paragraphs.words.speaker	string	如果启用了说话人 Diarization，则句子的说话人，否则为 null
议长	paragraphs.speaker	string	如果启用了说话人 Diarization，则句子的说话人，否则为 null

TranscriptList

脚本列表。脚本从最新到最早的排序。上一个 URL 始终指向包含较旧脚本的页面。

名称	路径	类型	说明
限度	page_details.limit	integer	此页的结果数限制为
结果计数	page_details.result_count	integer	页面中的实际结果数
当前 URL	page_details.current_url	string	用于检索当前脚本页的 URL
上一个 URL	page_details.prev_url	string	下一页脚本的 URL。上一个 URL 始终指向包含较旧脚本的页面。
下一个 URL	page_details.next_url	string	下一页脚本的 URL。下一个 URL 始终指向包含较新脚本的页面。
Transcripts	transcripts	array of object
ID	transcripts.id	uuid
资源 URL	transcripts.resource_url	string
状态	transcripts.status	string	脚本的状态。可能的值为排队、处理、已完成或错误。
已创建	transcripts.created	string
完成	transcripts.completed	string
音频 URL	transcripts.audio_url	string
错误	transcripts.error	string	脚本失败原因的错误消息

UploadedFile

名称	路径	类型	说明
上传的文件 URL	upload_url	string	指向音频文件的 URL，只能通过 AssemblyAI 的服务器访问

PurgeLemurRequestDataResponse

名称	路径	类型	说明
清除请求 ID	request_id	uuid	LeMUR 请求的删除请求的 ID
要清除的 LeMUR 请求 ID	request_id_to_purge	uuid	要清除其数据的 LeMUR 请求的 ID
已删除	deleted	boolean	请求数据是否已删除

LemurTaskResponse

名称	路径	类型	说明
响应	response	string	LeMUR 生成的响应。
LeMUR 请求 ID	request_id	uuid	LeMUR 请求的 ID
输入标记	usage.input_tokens	integer	模型使用的输入令牌数
输出令牌	usage.output_tokens	integer	模型生成的输出令牌数

LemurResponse

名称	路径	类型	说明
响应	response	string	LeMUR 生成的响应。
LeMUR 请求 ID	request_id	uuid	LeMUR 请求的 ID
输入标记	usage.input_tokens	integer	模型使用的输入令牌数
输出令牌	usage.output_tokens	integer	模型生成的输出令牌数

字符串

这是基本数据类型“string”。