AssemblyAI (预览版)
使用 AssemblyAI 的语音 AI 从音频中转录和提取数据。
此连接器在以下产品和区域中可用:
| 服务 | Class | 区域 |
|---|---|---|
| Copilot Studio | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 逻辑应用程序 | 标准 | 除以下各项外的所有 逻辑应用区域 : - Azure 政府区域 - Azure 中国区域 - 美国国防部(DoD) |
| Power Apps | 高级 | 除以下各项外的所有 Power Apps 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| Power Automate | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 联系人 | |
|---|---|
| Name | Support |
| URL | https://www.assemblyai.com/docs/ |
| support@assemblyai.com |
| 连接器元数据 | |
|---|---|
| 发布者 | AssemblyAI |
| Website | https://www.assemblyai.com |
| 隐私策略 | https://www.assemblyai.com/legal/privacy-policy |
| 类别 | AI |
借助 AssemblyAI 连接器,可以使用 AssemblyAI 的模型通过语音识别模型转录音频数据、使用音频智能模型对其进行分析,并使用 LLM 在音频智能模型的基础上生成生成功能来处理音频数据。
- 语音转文本 包括许多可配置功能,例如说话人分割、自定义拼写、自定义词汇等。
- 音频智能模型 是可通过听录配置提供和配置的其他 AI 模型。
- LeMUR 允许你将各种 LLM 模型应用到脚本,而无需为非常大的脚本构建自己的 RAG 基础结构。
先决条件
需要满足以下条件才能继续作:
- AssemblyAI API 密钥(免费获取一个)
如何获取凭据
可以通过 注册帐户 并从 仪表板复制 API 密钥来免费获取 AssemblyAI API 密钥。
连接器入门
按照以下步骤使用 AssemblyAI 连接器听录音频。
上传文件
若要使用 AssemblyAI 听录音频文件,需要 AssemblyAI 可以访问该文件。 如果音频文件已通过 URL 访问,则可以使用现有 URL。
否则,可以使用该 Upload a File 作将文件上传到 AssemblyAI。
你将返回文件的 URL,该文件只能用于使用 API 密钥进行转录。
转录文件后,该文件将从 AssemblyAI 的服务器中删除。
转录音频
若要转录音频,请使用音频文件 URL 配置 Audio URL 参数。
然后,配置其他参数以启用更多 语音识别 功能和 音频智能 模型。
听录音频作的结果是排队的脚本,该脚本将立即开始处理。 若要获取完成的脚本,有两个选项:
处理脚本就绪 Webhook
如果不想使用逻辑应用或 Power Automate 处理 Webhook,请在作中Transcribe Audio配置Webhook URL参数,并在 AssemblyAI 的 Webhook 文档后实现 Webhook。
若要使用逻辑应用或 Power Automate 处理 Webhook,请执行以下步骤:
创建单独的逻辑应用或 Power Automate Flow
配置为
When an HTTP request is received触发器:- 将
Who Can Trigger The Flow?设置为Anyone - 设置为
Request Body JSON Schema:{ "type": "object", "properties": { "transcript_id": { "type": "string" }, "status": { "type": "string" } } } - 将
Method设置为POST
- 将
添加 AssemblyAI
Get Transcript作,从transcript_id触发器传入参数Transcript ID。在执行任何其他作之前,应检查
Status是completed还是error。 添加一个Condition作,用于检查输出中是否StatusGet Transcript为error:- 在
True分支中,添加作Terminate- 设置为
StatusFailed - 设置为
CodeTranscript Error - 将
ErrorGet Transcript输出传递到Message参数。
- 设置为
- 可以将分支留
False空。
现在,你可以在知道脚本状态
completed后Condition添加任何作,并且可以检索作的任何输出属性Get Transcript。- 在
保存逻辑应用或流。 将为触发器生成
When an HTTP request is received该HTTP URL触发器。 复制HTTP URL并返回原始逻辑应用或流。在原始逻辑应用或流中,更新
Transcribe Audio作。 将之前复制的HTTP URL粘贴到Webhook URL参数中,然后保存。
当脚本状态变为 completed 或 error时,AssemblyAI 将向 Webhook URL 发送 HTTP POST 请求,该 URL 将由其他逻辑应用或 Flow 处理。
作为使用 Webhook 的替代方法,可以轮询脚本状态,如下一部分所述。
轮询脚本状态
可以使用以下步骤轮询脚本状态:
添加作
Initialize variable- 将
Name设置为transcript_status - 将
Type设置为String - 将输出中的
StatusTranscribe Audio输出存储到参数中Value
- 将
添加作
Do until-
Loop Until使用以下 Fx 代码配置参数:
此代码检查变量or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))completed是transcript_status还是error。 - 将
Count参数配置为86400 - 将
Timeout参数配置为PT24H
在该作中
Do until,添加以下作:-
Delay添加等待一秒的作 - 添加作
Get Transcript并将输出中的输出传递到IDTranscribe AudioTranscript ID参数。 - 添加作
Set variable- 将
Name设置为transcript_status - 将
StatusGet Transcript输出传递给Value参数
- 将
循环
Do until将继续,直到脚本完成或发生错误。-
添加另一个
Get Transcript作,例如之前,但在循环之后Do until添加该作,使其输出在作范围Do until之外可用。
在执行任何其他作之前,应检查脚本Statuscompleted是还是 error。
添加一个 Condition 作,用于检查 transcript_status 是否为 error:
- 在
True分支中,添加作Terminate- 将
Status设置为Failed - 将
Code设置为Transcript Error - 将
ErrorGet Transcript输出传递到Message参数。
- 将
- 可以将分支留
False空。
现在,你可以在知道脚本状态completed后Condition添加任何作,并且可以检索作的任何输出属性Get Transcript。
添加更多操作
完成听录后,可以使用传入 ID 脚本的许多其他作,例如
Get Sentences of TranscriptGet Paragraphs of TranscriptGet Subtitles of TranscriptGet Redacted AudioSearch Transcript for WordsRun a Task using LeMUR
已知问题和限制
目前没有已知问题。 不支持流式处理语音To-Text(实时),因为无法使用自定义连接器。
常见错误和补救措施
可以在 AssemblyAI 文档中找到有关错误的详细信息。
FAQ
可以在 我们的文档中找到常见问题。
正在创建连接
连接器支持以下身份验证类型:
| 默认 | 用于创建连接的参数。 | 所有区域 | 不可共享 |
违约
适用:所有区域
用于创建连接的参数。
这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。
| Name | 类型 | Description | 必选 |
|---|---|---|---|
| AssemblyAI API 密钥 | securestring | 用于对 AssemblyAI API 进行身份验证的 AssemblyAI API 密钥。 | True |
限制
| 名称 | 调用 | 续订期 |
|---|---|---|
| 每个连接的 API 调用数 | 100 | 60 秒 |
操作
| 上传媒体文件 |
将媒体文件上传到 AssemblyAI 的服务器。 |
| 使用 LeMUR 运行任务 |
使用 LeMUR 任务终结点输入自己的 LLM 提示符。 |
| 列出脚本 |
检索创建的脚本列表。 脚本从最新到最早的排序。 上一个 URL 始终指向包含较旧脚本的页面。 |
| 删除脚本 |
删除脚本。 删除不会删除资源本身,而是从资源中删除数据并将其标记为已删除。 |
| 在脚本中搜索字词 |
搜索关键字的脚本。 可以搜索包含最多五个单词或数字的单个单词、数字或短语。 |
| 检索 LeMUR 响应 |
检索以前生成的 LeMUR 响应。 |
| 清除 LemUR 请求数据 |
删除以前提交的 LeMUR 请求的数据。 LLM 响应数据以及原始请求中提供的任何上下文都将被删除。 |
| 获取修订的音频 |
检索包含已编修音频的状态和 URL 的已编修音频对象。 |
| 获取脚本 |
获取脚本资源。 当“状态”为“已完成”时,脚本已准备就绪。 |
| 获取脚本中的句子 |
获取按句子拆分的脚本。 API 将尝试以语义方式将脚本分段为句子,以创建更易读的脚本。 |
| 获取脚本中的段落 |
获取按段落拆分的脚本。 API 将尝试以语义方式将脚本分段为段落,以创建更易读的脚本。 |
| 获取脚本字幕 |
以 SRT 或 VTT 格式导出脚本,以用于字幕和隐藏式字幕的视频播放器。 |
| 转录音频 |
从可通过 URL 访问的媒体文件创建脚本。 |
上传媒体文件
使用 LeMUR 运行任务
使用 LeMUR 任务终结点输入自己的 LLM 提示符。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
Prompt
|
prompt | True | string |
要提示模型生成所需输出的文本,包括要传入模型的任何上下文。 |
|
脚本 ID
|
transcript_ids | array of uuid |
包含文本的已完成脚本的列表。 最多 100 个文件或 100 小时,以较低者为准。 使用 transcript_ids 或 input_text 作为 LeMUR 的输入。 |
|
|
输入文本
|
input_text | string |
自定义格式化脚本数据。 最大大小是所选模型的上下文限制,默认为 100000。 使用 transcript_ids 或 input_text 作为 LeMUR 的输入。 |
|
|
上下文
|
context | string |
用于提供模型的上下文。 可以是字符串或自由格式的 JSON 值。 |
|
|
最终模型
|
final_model | string |
执行压缩后用于最终提示的模型。 |
|
|
最大输出大小
|
max_output_size | integer |
令牌中的最大输出大小,最大为 4000 |
|
|
温度
|
temperature | float |
要用于模型的温度。 较高的值导致答案更具创意,较低的值更保守。 可以是介于 0.0 和 1.0 之间的任意值(含 1.0)。 |
返回
- Body
- LemurTaskResponse
列出脚本
检索创建的脚本列表。 脚本从最新到最早的排序。 上一个 URL 始终指向包含较旧脚本的页面。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
限度
|
limit | integer |
要检索的最大脚本量 |
|
|
状态
|
status | string |
脚本的状态。 可能的值为排队、处理、已完成或错误。 |
|
|
创建日期
|
created_on | date |
仅获取在此日期创建的脚本 |
|
|
ID 之前
|
before_id | uuid |
获取在此脚本 ID 之前创建的脚本 |
|
|
ID 之后
|
after_id | uuid |
获取在此脚本 ID 之后创建的脚本 |
|
|
仅限限制
|
throttled_only | boolean |
仅获取受限制的脚本,覆盖状态筛选器 |
返回
脚本列表。 脚本从最新到最早的排序。 上一个 URL 始终指向包含较旧脚本的页面。
- Body
- TranscriptList
删除脚本
删除脚本。 删除不会删除资源本身,而是从资源中删除数据并将其标记为已删除。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
脚本 ID
|
transcript_id | True | string |
脚本的 ID |
返回
脚本对象
- Body
- Transcript
在脚本中搜索字词
搜索关键字的脚本。 可以搜索包含最多五个单词或数字的单个单词、数字或短语。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
脚本 ID
|
transcript_id | True | string |
脚本的 ID |
|
单词
|
words | True | array |
要搜索的关键字 |
返回
- Body
- WordSearchResponse
检索 LeMUR 响应
检索以前生成的 LeMUR 响应。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
LeMUR 请求 ID
|
request_id | True | string |
之前发出的 LeMUR 请求的 ID。 这可以在原始请求的响应中找到。 |
返回
- Body
- LemurResponse
清除 LemUR 请求数据
删除以前提交的 LeMUR 请求的数据。 LLM 响应数据以及原始请求中提供的任何上下文都将被删除。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
LeMUR 请求 ID
|
request_id | True | string |
要删除其数据的 LeMUR 请求的 ID。 这可以在原始请求的响应中找到。 |
返回
获取修订的音频
检索包含已编修音频的状态和 URL 的已编修音频对象。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
脚本 ID
|
transcript_id | True | string |
脚本的 ID |
返回
获取脚本
获取脚本资源。 当“状态”为“已完成”时,脚本已准备就绪。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
脚本 ID
|
transcript_id | True | string |
脚本的 ID |
返回
脚本对象
- Body
- Transcript
获取脚本中的句子
获取按句子拆分的脚本。 API 将尝试以语义方式将脚本分段为句子,以创建更易读的脚本。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
脚本 ID
|
transcript_id | True | string |
脚本的 ID |
返回
- Body
- SentencesResponse
获取脚本中的段落
获取按段落拆分的脚本。 API 将尝试以语义方式将脚本分段为段落,以创建更易读的脚本。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
脚本 ID
|
transcript_id | True | string |
脚本的 ID |
返回
- Body
- ParagraphsResponse
获取脚本字幕
以 SRT 或 VTT 格式导出脚本,以用于字幕和隐藏式字幕的视频播放器。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
脚本 ID
|
transcript_id | True | string |
脚本的 ID |
|
字幕格式
|
subtitle_format | True | string |
副标题的格式 |
|
每个标题的字符数
|
chars_per_caption | integer |
每个题注的最大字符数 |
返回
- response
- string
转录音频
从可通过 URL 访问的媒体文件创建脚本。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
音频 URL
|
audio_url | True | string |
要转录的音频或视频文件的 URL。 |
|
语言代码
|
language_code | string |
音频文件的语言。 支持的语言中可以找到可能的值。 默认值为“en_us”。 |
|
|
语言检测
|
language_detection | boolean |
启用自动语言检测(true 或 false)。 |
|
|
语音模型
|
speech_model | string |
要用于听录的语音模型。 |
|
|
标点
|
punctuate | boolean |
启用自动标点,可以是 true 或 false |
|
|
设置文本格式
|
format_text | boolean |
启用文本格式,可以是 true 或 false |
|
|
不合时常
|
disfluencies | boolean |
在媒体文件中转录填充词,如“um”;可以为 true 或 false |
|
|
双通道
|
dual_channel | boolean |
启用双通道听录,可以是 true 或 false。 |
|
|
Webhook URL
|
webhook_url | string |
我们向其发送 Webhook 请求的 URL。 我们发送两种类型的 Webhook 请求。 脚本完成或失败时发出一个请求,如果启用了redact_pii_audio,则为已编修音频时发出一个请求。 |
|
|
Webhook 身份验证标头名称
|
webhook_auth_header_name | string |
要随脚本完成或失败的 Webhook 请求一起发送的标头名称 |
|
|
Webhook 身份验证标头值
|
webhook_auth_header_value | string |
返回的标头值,其中包含已完成的脚本或失败的 Webhook 请求以增加安全性 |
|
|
关键短语
|
auto_highlights | boolean |
启用关键短语(true 或 false) |
|
|
音频起始时间
|
audio_start_from | integer |
开始在媒体文件中转录的时间点(以毫秒为单位) |
|
|
音频结束位置
|
audio_end_at | integer |
停止在媒体文件中转录的时间点(以毫秒为单位) |
|
|
Word Boost
|
word_boost | array of string |
用于提升听录概率的自定义词汇列表 |
|
|
Word 提升级别
|
boost_param | string |
提升指定字词的量 |
|
|
筛选不雅内容
|
filter_profanity | boolean |
筛选转录文本中的不雅内容,可以是 true 或 false |
|
|
Redact PII
|
redact_pii | boolean |
使用 Redact PII 模型从转录文本中编辑 PII 可以是 true 或 false |
|
|
Redact PII Audio
|
redact_pii_audio | boolean |
生成带有口述 PII“蜂鸣”的原始媒体文件的副本,可以是 true 或 false。 有关更多详细信息,请参阅 PII 修订。 |
|
|
Redact PII Audio Quality
|
redact_pii_audio_quality | string |
控制由redact_pii_audio创建的音频的文件类型。 目前支持 mp3(默认)和 wav。 有关更多详细信息,请参阅 PII 修订。 |
|
|
Redact PII 策略
|
redact_pii_policies | array of string |
要启用的 PII 修订策略列表。 有关更多详细信息,请参阅 PII 修订。 |
|
|
Redact PII 替换
|
redact_pii_sub | string |
检测到的 PII 的替换逻辑可以是“entity_name”或“hash”。 有关更多详细信息,请参阅 PII 修订。 |
|
|
说话人标签
|
speaker_labels | boolean |
启用说话人分割,可以是 true 或 false |
|
|
预期演讲者
|
speakers_expected | integer |
告知扬声器标签模型它应尝试识别的扬声器数,最多 10 个。 有关更多详细信息,请参阅演讲者分割。 |
|
|
内容审核
|
content_safety | boolean |
启用内容审查,可以是 true 或 false |
|
|
内容审查置信度
|
content_safety_confidence | integer |
内容审查模型的置信度阈值。 值必须介于 25 和 100 之间。 |
|
|
主题检测
|
iab_categories | boolean |
启用主题检测,可以是 true 或 false |
|
|
来自
|
from | True | array of string |
要替换的字词或短语 |
|
到
|
to | True | string |
要替换为的单词或短语 |
|
情绪分析
|
sentiment_analysis | boolean |
启用情绪分析,可以是 true 或 false |
|
|
自动章节
|
auto_chapters | boolean |
启用自动章节,可以是 true 或 false |
|
|
实体检测
|
entity_detection | boolean |
启用实体检测,可以是 true 或 false |
|
|
语音阈值
|
speech_threshold | float |
拒绝包含小于此语音分数的音频文件。 有效值在 [0, 1] 范围内(含 1)。 |
|
|
启用摘要
|
summarization | boolean |
启用摘要,可以是 true 或 false |
|
|
摘要模型
|
summary_model | string |
用于汇总脚本的模型 |
|
|
摘要类型
|
summary_type | string |
摘要的类型 |
|
|
启用自定义主题
|
custom_topics | boolean |
启用自定义主题(true 或 false) |
|
|
自定义主题
|
topics | array of string |
自定义主题列表 |
返回
脚本对象
- Body
- Transcript
定义
RedactedAudioResponse
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
状态
|
status | string |
已编入音频的状态 |
|
修订的音频 URL
|
redacted_audio_url | string |
已编入音频文件的 URL |
WordSearchResponse
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
脚本 ID
|
id | uuid |
脚本的 ID |
|
匹配项总数
|
total_count | integer |
所有匹配实例的总计数。 例如,单词 1 匹配 2 次,单词 2 匹配 3 次,total_count等于 5。 |
|
匹配
|
matches | array of object |
搜索的匹配项 |
|
文本
|
matches.text | string |
匹配的单词 |
|
计数
|
matches.count | integer |
单词在脚本中的总次数 |
|
时间 戳
|
matches.timestamps | array of array |
时间戳数组 |
|
时间戳
|
matches.timestamps | array of integer |
结构化为 [start_time, end_time] 的时间戳数组(以毫秒为单位) |
|
Indexes
|
matches.indexes | array of integer |
完成脚本的单词数组内该单词的所有索引位置的数组 |
字幕
脚本对象
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
ID
|
id | uuid |
脚本的唯一标识符 |
|
音频 URL
|
audio_url | string |
已转录的媒体的 URL |
|
状态
|
status | string |
脚本的状态。 可能的值为排队、处理、已完成或错误。 |
|
语言代码
|
language_code | string |
音频文件的语言。 支持的语言中可以找到可能的值。 默认值为“en_us”。 |
|
语言检测
|
language_detection | boolean |
是否启用自动语言检测(true 或 false) |
|
语音模型
|
speech_model | string |
要用于听录的语音模型。 |
|
文本
|
text | string |
媒体文件的文本脚本 |
|
单词
|
words | array of object |
临时顺序单词对象的数组,脚本中每个单词对应一个。 有关详细信息,请参阅语音识别。 |
|
置信度
|
words.confidence | double | |
|
Start
|
words.start | integer | |
|
结束
|
words.end | integer | |
|
文本
|
words.text | string | |
|
议长
|
words.speaker | string |
如果启用了说话人 Diarization,则句子的说话人,否则为 null |
|
陈述
|
utterances | array of object |
启用dual_channel或speaker_labels时,轮次陈述对象列表。 有关详细信息,请参阅演讲者分割。 |
|
置信度
|
utterances.confidence | double |
此陈述脚本的置信度分数 |
|
Start
|
utterances.start | integer |
音频文件中话语的开始时间(以毫秒为单位) |
|
结束
|
utterances.end | integer |
音频文件中话语的结束时间(以毫秒为单位) |
|
文本
|
utterances.text | string |
此陈述的文本 |
|
单词
|
utterances.words | array of object |
话语中的单词。 |
|
置信度
|
utterances.words.confidence | double | |
|
Start
|
utterances.words.start | integer | |
|
结束
|
utterances.words.end | integer | |
|
文本
|
utterances.words.text | string | |
|
议长
|
utterances.words.speaker | string |
如果启用了说话人 Diarization,则句子的说话人,否则为 null |
|
议长
|
utterances.speaker | string |
此陈述的说话人,其中每个说话人都分配有一个顺序大写字母,例如说话人 A 的“A”、说话人 B 的“B”等。 |
|
置信度
|
confidence | double |
脚本的置信度分数,介于 0.0(低置信度)和 1.0 之间(高置信度) |
|
音频持续时间
|
audio_duration | integer |
此脚本对象的媒体文件的持续时间(以秒为单位) |
|
标点
|
punctuate | boolean |
是否启用自动标点符号(true 还是 false) |
|
设置文本格式
|
format_text | boolean |
是否启用文本格式,为 true 还是 false |
|
不合时常
|
disfluencies | boolean |
在媒体文件中转录填充词,如“um”;可以为 true 或 false |
|
双通道
|
dual_channel | boolean |
是否在听录请求中启用了双通道听录(true 还是 false) |
|
Webhook URL
|
webhook_url | string |
我们向其发送 Webhook 请求的 URL。 我们发送两种类型的 Webhook 请求。 脚本完成或失败时发出一个请求,如果启用了redact_pii_audio,则为已编修音频时发出一个请求。 |
|
Webhook HTTP 状态代码
|
webhook_status_code | integer |
提供脚本已完成或 Webhook 请求失败时从服务器收到的状态代码(如果提供了 Webhook URL) |
|
已启用 Webhook 身份验证
|
webhook_auth | boolean |
是否提供了 Webhook 身份验证详细信息 |
|
Webhook 身份验证标头名称
|
webhook_auth_header_name | string |
要随脚本完成或失败的 Webhook 请求一起发送的标头名称 |
|
速度提升
|
speed_boost | boolean |
是否启用速度提升 |
|
关键短语
|
auto_highlights | boolean |
关键短语是启用的,是 true 还是 false |
|
状态
|
auto_highlights_result.status | string |
在极少数情况下,模型失败或不可用 |
|
Results
|
auto_highlights_result.results | array of object |
关键短语的临时顺序数组 |
|
计数
|
auto_highlights_result.results.count | integer |
关键短语出现在音频文件中的总次数 |
|
等级
|
auto_highlights_result.results.rank | float |
此关键短语的整体音频文件的总相关性 - 一个更大的数字意味着更相关 |
|
文本
|
auto_highlights_result.results.text | string |
关键短语的文本本身 |
|
时间 戳
|
auto_highlights_result.results.timestamps | array of object |
关键短语的时间戳 |
|
Start
|
auto_highlights_result.results.timestamps.start | integer |
开始时间(以毫秒为单位) |
|
结束
|
auto_highlights_result.results.timestamps.end | integer |
结束时间(以毫秒为单位) |
|
音频起始时间
|
audio_start_from | integer |
开始听录的文件的时间点(以毫秒为单位) |
|
音频结束位置
|
audio_end_at | integer |
终止听录的文件的时间点(以毫秒为单位) |
|
Word Boost
|
word_boost | array of string |
用于提升听录概率的自定义词汇列表 |
|
提高
|
boost_param | string |
单词提升参数值 |
|
筛选不雅内容
|
filter_profanity | boolean |
是否启用不雅内容筛选(true 或 false) |
|
Redact PII
|
redact_pii | boolean |
是否启用 PII 修订(true 或 false) |
|
Redact PII Audio
|
redact_pii_audio | boolean |
是生成音频文件的修订版本,是 true 还是 false。 有关详细信息,请参阅 PII 修订。 |
|
Redact PII Audio Quality
|
redact_pii_audio_quality | string |
控制由redact_pii_audio创建的音频的文件类型。 目前支持 mp3(默认)和 wav。 有关更多详细信息,请参阅 PII 修订。 |
|
Redact PII 策略
|
redact_pii_policies | array of string |
如果启用了 PII Redaction,则启用的 PII 修订策略列表。 有关详细信息,请参阅 PII 修订。 |
|
Redact PII 替换
|
redact_pii_sub | string |
检测到的 PII 的替换逻辑可以是“entity_name”或“hash”。 有关更多详细信息,请参阅 PII 修订。 |
|
说话人标签
|
speaker_labels | boolean |
是否启用说话人分割,可以是 true 还是 false |
|
预期演讲者
|
speakers_expected | integer |
告知扬声器标签模型它应尝试识别的扬声器数,最多 10 个。 有关更多详细信息,请参阅演讲者分割。 |
|
内容审核
|
content_safety | boolean |
是否启用内容审查,可以是 true 还是 false |
|
状态
|
content_safety_labels.status | string |
在极少数情况下,模型失败或不可用 |
|
Results
|
content_safety_labels.results | array of object | |
|
文本
|
content_safety_labels.results.text | string |
内容审查模型标记的部分的脚本 |
|
标签
|
content_safety_labels.results.labels | array of object |
安全标签数组,每个敏感主题一个,在本节中检测到 |
|
标签
|
content_safety_labels.results.labels.label | string |
敏感主题的标签 |
|
置信度
|
content_safety_labels.results.labels.confidence | double |
正在讨论的主题的置信度分数,从 0 到 1 |
|
Severity
|
content_safety_labels.results.labels.severity | double |
从 0 到 1 部分讨论主题的严重程度 |
|
句子索引开始
|
content_safety_labels.results.sentences_idx_start | integer |
节开始的句子索引 |
|
句子索引结束
|
content_safety_labels.results.sentences_idx_end | integer |
节结束的句子索引 |
|
Start
|
content_safety_labels.results.timestamp.start | integer |
开始时间(以毫秒为单位) |
|
结束
|
content_safety_labels.results.timestamp.end | integer |
结束时间(以毫秒为单位) |
|
概要
|
content_safety_labels.summary | object |
整个音频文件的内容审查置信度结果摘要 |
|
严重性分数摘要
|
content_safety_labels.severity_score_summary | object |
整个音频文件的内容审查严重性结果摘要 |
|
主题检测
|
iab_categories | boolean |
是否启用主题检测,可以是 true 还是 false |
|
状态
|
iab_categories_result.status | string |
在极少数情况下,模型失败或不可用 |
|
Results
|
iab_categories_result.results | array of object |
主题检测模型的结果数组 |
|
文本
|
iab_categories_result.results.text | string |
脚本中发生检测到的主题的文本 |
|
标签
|
iab_categories_result.results.labels | array of object | |
|
相关性
|
iab_categories_result.results.labels.relevance | double |
检测到的主题与检测到的主题的相关性 |
|
标签
|
iab_categories_result.results.labels.label | string |
检测到主题的标签的 IAB 分类标签,其中 > 表示超topic/subtopic 关系 |
|
Start
|
iab_categories_result.results.timestamp.start | integer |
开始时间(以毫秒为单位) |
|
结束
|
iab_categories_result.results.timestamp.end | integer |
结束时间(以毫秒为单位) |
|
概要
|
iab_categories_result.summary | object |
主题与整个音频文件的整体相关性 |
|
自定义拼写
|
custom_spelling | array of object |
自定义单词的拼写和格式设置方式,以及如何使用值与值进行格式设置 |
|
来自
|
custom_spelling.from | array of string |
要替换的字词或短语 |
|
到
|
custom_spelling.to | string |
要替换为的单词或短语 |
|
启用自动章节
|
auto_chapters | boolean |
是否启用自动章节,可以是 true 还是 false |
|
章
|
chapters | array of object |
音频文件的临时顺序章节数组 |
|
Gist
|
chapters.gist | string |
一篇超短摘要(只是几句话)在章节中讲的内容 |
|
标题
|
chapters.headline | string |
章节中讲的内容的单个句子摘要 |
|
概要
|
chapters.summary | string |
章节中讲的内容的一段摘要 |
|
Start
|
chapters.start | integer |
章节的起始时间(以毫秒为单位) |
|
结束
|
chapters.end | integer |
章节的起始时间(以毫秒为单位) |
|
已启用摘要
|
summarization | boolean |
是否启用摘要(true 或 false) |
|
摘要类型
|
summary_type | string |
如果启用了摘要,则生成的摘要类型 |
|
摘要模型
|
summary_model | string |
如果启用了摘要,则用于生成摘要的摘要模型 |
|
概要
|
summary | string |
如果启用了摘要,则为媒体文件的生成摘要 |
|
已启用自定义主题
|
custom_topics | boolean |
自定义主题是启用的,是 true 还是 false |
|
主题
|
topics | array of string |
启用自定义主题时提供的自定义主题列表 |
|
情绪分析
|
sentiment_analysis | boolean |
是否启用情绪分析,可以是 true 还是 false |
|
情绪分析结果
|
sentiment_analysis_results | array of object |
情绪分析模型的结果数组(如果已启用)。 有关详细信息,请参阅情绪分析。 |
|
文本
|
sentiment_analysis_results.text | string |
句子的脚本 |
|
Start
|
sentiment_analysis_results.start | integer |
句子的起始时间(以毫秒为单位) |
|
结束
|
sentiment_analysis_results.end | integer |
句子的结束时间(以毫秒为单位) |
|
情绪
|
sentiment_analysis_results.sentiment |
检测到句子的情绪,一个积极,中性,负 |
|
|
置信度
|
sentiment_analysis_results.confidence | double |
检测到句子情绪的置信度分数,从 0 到 1 |
|
议长
|
sentiment_analysis_results.speaker | string |
如果启用了说话人 Diarization,则句子的说话人,否则为 null |
|
实体检测
|
entity_detection | boolean |
实体检测是启用的,可以是 true 还是 false |
|
Entities
|
entities | array of object |
实体检测模型的结果数组(如果已启用)。 有关详细信息,请参阅实体检测。 |
|
实体类型
|
entities.entity_type | string |
检测到的实体的实体类型 |
|
文本
|
entities.text | string |
检测到的实体的文本 |
|
Start
|
entities.start | integer |
开始时间(以毫秒为单位),检测到的实体出现在音频文件中 |
|
结束
|
entities.end | integer |
音频文件中检测到的实体的结束时间(以毫秒为单位) |
|
语音阈值
|
speech_threshold | float |
默认值为 null。 拒绝包含小于此语音分数的音频文件。 有效值在 [0, 1] 范围内(含 1)。 |
|
扼杀
|
throttled | boolean |
当请求被限制时为 True,当请求不再受到限制时为 false |
|
错误
|
error | string |
脚本失败原因的错误消息 |
|
语言模型
|
language_model | string |
用于脚本的语言模型 |
|
声学模型
|
acoustic_model | string |
用于脚本的声学模型 |
SentencesResponse
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
脚本 ID
|
id | uuid | |
|
置信度
|
confidence | double | |
|
音频持续时间
|
audio_duration | number | |
|
句子
|
sentences | array of object | |
|
文本
|
sentences.text | string | |
|
Start
|
sentences.start | integer | |
|
结束
|
sentences.end | integer | |
|
置信度
|
sentences.confidence | double | |
|
单词
|
sentences.words | array of object | |
|
置信度
|
sentences.words.confidence | double | |
|
Start
|
sentences.words.start | integer | |
|
结束
|
sentences.words.end | integer | |
|
文本
|
sentences.words.text | string | |
|
议长
|
sentences.words.speaker | string |
如果启用了说话人 Diarization,则句子的说话人,否则为 null |
|
议长
|
sentences.speaker | string |
如果启用了说话人 Diarization,则句子的说话人,否则为 null |
ParagraphsResponse
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
脚本 ID
|
id | uuid | |
|
置信度
|
confidence | double | |
|
音频持续时间
|
audio_duration | number | |
|
Paragraphs
|
paragraphs | array of object | |
|
文本
|
paragraphs.text | string | |
|
Start
|
paragraphs.start | integer | |
|
结束
|
paragraphs.end | integer | |
|
置信度
|
paragraphs.confidence | double | |
|
单词
|
paragraphs.words | array of object | |
|
置信度
|
paragraphs.words.confidence | double | |
|
Start
|
paragraphs.words.start | integer | |
|
结束
|
paragraphs.words.end | integer | |
|
文本
|
paragraphs.words.text | string | |
|
议长
|
paragraphs.words.speaker | string |
如果启用了说话人 Diarization,则句子的说话人,否则为 null |
|
议长
|
paragraphs.speaker | string |
如果启用了说话人 Diarization,则句子的说话人,否则为 null |
TranscriptList
脚本列表。 脚本从最新到最早的排序。 上一个 URL 始终指向包含较旧脚本的页面。
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
限度
|
page_details.limit | integer |
此页的结果数限制为 |
|
结果计数
|
page_details.result_count | integer |
页面中的实际结果数 |
|
当前 URL
|
page_details.current_url | string |
用于检索当前脚本页的 URL |
|
上一个 URL
|
page_details.prev_url | string |
下一页脚本的 URL。 上一个 URL 始终指向包含较旧脚本的页面。 |
|
下一个 URL
|
page_details.next_url | string |
下一页脚本的 URL。 下一个 URL 始终指向包含较新脚本的页面。 |
|
Transcripts
|
transcripts | array of object | |
|
ID
|
transcripts.id | uuid | |
|
资源 URL
|
transcripts.resource_url | string | |
|
状态
|
transcripts.status | string |
脚本的状态。 可能的值为排队、处理、已完成或错误。 |
|
已创建
|
transcripts.created | string | |
|
完成
|
transcripts.completed | string | |
|
音频 URL
|
transcripts.audio_url | string | |
|
错误
|
transcripts.error | string |
脚本失败原因的错误消息 |
UploadedFile
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
上传的文件 URL
|
upload_url | string |
指向音频文件的 URL,只能通过 AssemblyAI 的服务器访问 |
PurgeLemurRequestDataResponse
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
清除请求 ID
|
request_id | uuid |
LeMUR 请求的删除请求的 ID |
|
要清除的 LeMUR 请求 ID
|
request_id_to_purge | uuid |
要清除其数据的 LeMUR 请求的 ID |
|
已删除
|
deleted | boolean |
请求数据是否已删除 |
LemurTaskResponse
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
响应
|
response | string |
LeMUR 生成的响应。 |
|
LeMUR 请求 ID
|
request_id | uuid |
LeMUR 请求的 ID |
|
输入标记
|
usage.input_tokens | integer |
模型使用的输入令牌数 |
|
输出令牌
|
usage.output_tokens | integer |
模型生成的输出令牌数 |
LemurResponse
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
响应
|
response | string |
LeMUR 生成的响应。 |
|
LeMUR 请求 ID
|
request_id | uuid |
LeMUR 请求的 ID |
|
输入标记
|
usage.input_tokens | integer |
模型使用的输入令牌数 |
|
输出令牌
|
usage.output_tokens | integer |
模型生成的输出令牌数 |
字符串
这是基本数据类型“string”。