AssemblyAI (预览版)

使用 AssemblyAI 的语音 AI 从音频中转录和提取数据。

此连接器在以下产品和区域中可用:

服务 Class 区域
Copilot Studio 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
逻辑应用程序 标准 除以下各项外的所有 逻辑应用区域
     - Azure 政府区域
     - Azure 中国区域
     - 美国国防部(DoD)
Power Apps 高级 除以下各项外的所有 Power Apps 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
Power Automate 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
联系人​​
Name Support
URL https://www.assemblyai.com/docs/
Email support@assemblyai.com
连接器元数据
发布者 AssemblyAI
Website https://www.assemblyai.com
隐私策略 https://www.assemblyai.com/legal/privacy-policy
类别 AI

借助 AssemblyAI 连接器,可以使用 AssemblyAI 的模型通过语音识别模型转录音频数据、使用音频智能模型对其进行分析,并使用 LLM 在音频智能模型的基础上生成生成功能来处理音频数据。

  • 语音转文本 包括许多可配置功能,例如说话人分割、自定义拼写、自定义词汇等。
  • 音频智能模型 是可通过听录配置提供和配置的其他 AI 模型。
  • LeMUR 允许你将各种 LLM 模型应用到脚本,而无需为非常大的脚本构建自己的 RAG 基础结构。

先决条件

需要满足以下条件才能继续作:

如何获取凭据

可以通过 注册帐户 并从 仪表板复制 API 密钥来免费获取 AssemblyAI API 密钥。

连接器入门

按照以下步骤使用 AssemblyAI 连接器听录音频。

上传文件

若要使用 AssemblyAI 听录音频文件,需要 AssemblyAI 可以访问该文件。 如果音频文件已通过 URL 访问,则可以使用现有 URL。

否则,可以使用该 Upload a File 作将文件上传到 AssemblyAI。 你将返回文件的 URL,该文件只能用于使用 API 密钥进行转录。 转录文件后,该文件将从 AssemblyAI 的服务器中删除。

转录音频

若要转录音频,请使用音频文件 URL 配置 Audio URL 参数。 然后,配置其他参数以启用更多 语音识别 功能和 音频智能 模型。

听录音频作的结果是排队的脚本,该脚本将立即开始处理。 若要获取完成的脚本,有两个选项:

  1. 处理脚本就绪 Webhook
  2. 轮询脚本状态

处理脚本就绪 Webhook

如果不想使用逻辑应用或 Power Automate 处理 Webhook,请在作中Transcribe Audio配置Webhook URL参数,并在 AssemblyAI 的 Webhook 文档后实现 Webhook

若要使用逻辑应用或 Power Automate 处理 Webhook,请执行以下步骤:

  1. 创建单独的逻辑应用或 Power Automate Flow

  2. 配置为 When an HTTP request is received 触发器:

    • Who Can Trigger The Flow? 设置为 Anyone
    • 设置为 Request Body JSON Schema
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Method 设置为 POST
  3. 添加 AssemblyAI Get Transcript 作,从 transcript_id 触发器传入参数 Transcript ID

  4. 在执行任何其他作之前,应检查 Statuscompleted 还是 error。 添加一个Condition作,用于检查输出中是否StatusGet Transcripterror

    • True分支中,添加作Terminate
      • 设置为StatusFailed
      • 设置为CodeTranscript Error
      • ErrorGet Transcript输出传递到Message参数。
    • 可以将分支留 False 空。

    现在,你可以在知道脚本状态completedCondition添加任何作,并且可以检索作的任何输出属性Get Transcript

  5. 保存逻辑应用或流。 将为触发器生成When an HTTP request is receivedHTTP URL触发器。 复制 HTTP URL 并返回原始逻辑应用或流。

  6. 在原始逻辑应用或流中,更新 Transcribe Audio 作。 将之前复制的 HTTP URL 粘贴到 Webhook URL 参数中,然后保存。

当脚本状态变为 completederror时,AssemblyAI 将向 Webhook URL 发送 HTTP POST 请求,该 URL 将由其他逻辑应用或 Flow 处理。

作为使用 Webhook 的替代方法,可以轮询脚本状态,如下一部分所述。

轮询脚本状态

可以使用以下步骤轮询脚本状态:

  • 添加作Initialize variable

    • Name 设置为 transcript_status
    • Type 设置为 String
    • 将输出中的StatusTranscribe Audio输出存储到参数中Value
  • 添加作Do until

    • Loop Until使用以下 Fx 代码配置参数:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      此代码检查变量completedtranscript_status还是 error
    • Count 参数配置为 86400
    • Timeout 参数配置为 PT24H

    在该作中 Do until ,添加以下作:

    • Delay添加等待一秒的作
    • 添加作 Get Transcript 并将输出中的输出传递到 IDTranscribe AudioTranscript ID 参数。
    • 添加作Set variable
      • Name 设置为 transcript_status
      • StatusGet Transcript输出传递给Value参数

    循环 Do until 将继续,直到脚本完成或发生错误。

  • 添加另一个 Get Transcript 作,例如之前,但在循环之后 Do until 添加该作,使其输出在作范围 Do until 之外可用。

在执行任何其他作之前,应检查脚本Statuscompleted是还是 error。 添加一个 Condition 作,用于检查 transcript_status 是否为 error

  • True分支中,添加作Terminate
    • Status 设置为 Failed
    • Code 设置为 Transcript Error
    • ErrorGet Transcript输出传递到Message参数。
  • 可以将分支留 False 空。

现在,你可以在知道脚本状态completedCondition添加任何作,并且可以检索作的任何输出属性Get Transcript

添加更多操作

完成听录后,可以使用传入 ID 脚本的许多其他作,例如

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

已知问题和限制

目前没有已知问题。 不支持流式处理语音To-Text(实时),因为无法使用自定义连接器。

常见错误和补救措施

可以在 AssemblyAI 文档中找到有关错误的详细信息。

FAQ

可以在 我们的文档中找到常见问题

正在创建连接

连接器支持以下身份验证类型:

默认 用于创建连接的参数。 所有区域 不可共享

违约

适用:所有区域

用于创建连接的参数。

这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。

Name 类型 Description 必选
AssemblyAI API 密钥 securestring 用于对 AssemblyAI API 进行身份验证的 AssemblyAI API 密钥。 True

限制

名称 调用 续订期
每个连接的 API 调用数 100 60 秒

操作

上传媒体文件

将媒体文件上传到 AssemblyAI 的服务器。

使用 LeMUR 运行任务

使用 LeMUR 任务终结点输入自己的 LLM 提示符。

列出脚本

检索创建的脚本列表。 脚本从最新到最早的排序。 上一个 URL 始终指向包含较旧脚本的页面。

删除脚本

删除脚本。 删除不会删除资源本身,而是从资源中删除数据并将其标记为已删除。

在脚本中搜索字词

搜索关键字的脚本。 可以搜索包含最多五个单词或数字的单个单词、数字或短语。

检索 LeMUR 响应

检索以前生成的 LeMUR 响应。

清除 LemUR 请求数据

删除以前提交的 LeMUR 请求的数据。 LLM 响应数据以及原始请求中提供的任何上下文都将被删除。

获取修订的音频

检索包含已编修音频的状态和 URL 的已编修音频对象。

获取脚本

获取脚本资源。 当“状态”为“已完成”时,脚本已准备就绪。

获取脚本中的句子

获取按句子拆分的脚本。 API 将尝试以语义方式将脚本分段为句子,以创建更易读的脚本。

获取脚本中的段落

获取按段落拆分的脚本。 API 将尝试以语义方式将脚本分段为段落,以创建更易读的脚本。

获取脚本字幕

以 SRT 或 VTT 格式导出脚本,以用于字幕和隐藏式字幕的视频播放器。

转录音频

从可通过 URL 访问的媒体文件创建脚本。

上传媒体文件

将媒体文件上传到 AssemblyAI 的服务器。

参数

名称 密钥 必需 类型 说明
文件内容
file True binary

要上传的文件。

返回

使用 LeMUR 运行任务

使用 LeMUR 任务终结点输入自己的 LLM 提示符。

参数

名称 密钥 必需 类型 说明
Prompt
prompt True string

要提示模型生成所需输出的文本,包括要传入模型的任何上下文。

脚本 ID
transcript_ids array of uuid

包含文本的已完成脚本的列表。 最多 100 个文件或 100 小时,以较低者为准。 使用 transcript_ids 或 input_text 作为 LeMUR 的输入。

输入文本
input_text string

自定义格式化脚本数据。 最大大小是所选模型的上下文限制,默认为 100000。 使用 transcript_ids 或 input_text 作为 LeMUR 的输入。

上下文
context string

用于提供模型的上下文。 可以是字符串或自由格式的 JSON 值。

最终模型
final_model string

执行压缩后用于最终提示的模型。

最大输出大小
max_output_size integer

令牌中的最大输出大小,最大为 4000

温度
temperature float

要用于模型的温度。 较高的值导致答案更具创意,较低的值更保守。 可以是介于 0.0 和 1.0 之间的任意值(含 1.0)。

返回

列出脚本

检索创建的脚本列表。 脚本从最新到最早的排序。 上一个 URL 始终指向包含较旧脚本的页面。

参数

名称 密钥 必需 类型 说明
限度
limit integer

要检索的最大脚本量

状态
status string

脚本的状态。 可能的值为排队、处理、已完成或错误。

创建日期
created_on date

仅获取在此日期创建的脚本

ID 之前
before_id uuid

获取在此脚本 ID 之前创建的脚本

ID 之后
after_id uuid

获取在此脚本 ID 之后创建的脚本

仅限限制
throttled_only boolean

仅获取受限制的脚本,覆盖状态筛选器

返回

脚本列表。 脚本从最新到最早的排序。 上一个 URL 始终指向包含较旧脚本的页面。

删除脚本

删除脚本。 删除不会删除资源本身,而是从资源中删除数据并将其标记为已删除。

参数

名称 密钥 必需 类型 说明
脚本 ID
transcript_id True string

脚本的 ID

返回

脚本对象

Body
Transcript

在脚本中搜索字词

搜索关键字的脚本。 可以搜索包含最多五个单词或数字的单个单词、数字或短语。

参数

名称 密钥 必需 类型 说明
脚本 ID
transcript_id True string

脚本的 ID

单词
words True array

要搜索的关键字

返回

检索 LeMUR 响应

检索以前生成的 LeMUR 响应。

参数

名称 密钥 必需 类型 说明
LeMUR 请求 ID
request_id True string

之前发出的 LeMUR 请求的 ID。 这可以在原始请求的响应中找到。

返回

清除 LemUR 请求数据

删除以前提交的 LeMUR 请求的数据。 LLM 响应数据以及原始请求中提供的任何上下文都将被删除。

参数

名称 密钥 必需 类型 说明
LeMUR 请求 ID
request_id True string

要删除其数据的 LeMUR 请求的 ID。 这可以在原始请求的响应中找到。

返回

获取修订的音频

检索包含已编修音频的状态和 URL 的已编修音频对象。

参数

名称 密钥 必需 类型 说明
脚本 ID
transcript_id True string

脚本的 ID

返回

获取脚本

获取脚本资源。 当“状态”为“已完成”时,脚本已准备就绪。

参数

名称 密钥 必需 类型 说明
脚本 ID
transcript_id True string

脚本的 ID

返回

脚本对象

Body
Transcript

获取脚本中的句子

获取按句子拆分的脚本。 API 将尝试以语义方式将脚本分段为句子,以创建更易读的脚本。

参数

名称 密钥 必需 类型 说明
脚本 ID
transcript_id True string

脚本的 ID

返回

获取脚本中的段落

获取按段落拆分的脚本。 API 将尝试以语义方式将脚本分段为段落,以创建更易读的脚本。

参数

名称 密钥 必需 类型 说明
脚本 ID
transcript_id True string

脚本的 ID

返回

获取脚本字幕

以 SRT 或 VTT 格式导出脚本,以用于字幕和隐藏式字幕的视频播放器。

参数

名称 密钥 必需 类型 说明
脚本 ID
transcript_id True string

脚本的 ID

字幕格式
subtitle_format True string

副标题的格式

每个标题的字符数
chars_per_caption integer

每个题注的最大字符数

返回

response
string

转录音频

从可通过 URL 访问的媒体文件创建脚本。

参数

名称 密钥 必需 类型 说明
音频 URL
audio_url True string

要转录的音频或视频文件的 URL。

语言代码
language_code string

音频文件的语言。 支持的语言中可以找到可能的值。 默认值为“en_us”。

语言检测
language_detection boolean

启用自动语言检测(true 或 false)。

语音模型
speech_model string

要用于听录的语音模型。

标点
punctuate boolean

启用自动标点,可以是 true 或 false

设置文本格式
format_text boolean

启用文本格式,可以是 true 或 false

不合时常
disfluencies boolean

在媒体文件中转录填充词,如“um”;可以为 true 或 false

双通道
dual_channel boolean

启用双通道听录,可以是 true 或 false。

Webhook URL
webhook_url string

我们向其发送 Webhook 请求的 URL。 我们发送两种类型的 Webhook 请求。 脚本完成或失败时发出一个请求,如果启用了redact_pii_audio,则为已编修音频时发出一个请求。

Webhook 身份验证标头名称
webhook_auth_header_name string

要随脚本完成或失败的 Webhook 请求一起发送的标头名称

Webhook 身份验证标头值
webhook_auth_header_value string

返回的标头值,其中包含已完成的脚本或失败的 Webhook 请求以增加安全性

关键短语
auto_highlights boolean

启用关键短语(true 或 false)

音频起始时间
audio_start_from integer

开始在媒体文件中转录的时间点(以毫秒为单位)

音频结束位置
audio_end_at integer

停止在媒体文件中转录的时间点(以毫秒为单位)

Word Boost
word_boost array of string

用于提升听录概率的自定义词汇列表

Word 提升级别
boost_param string

提升指定字词的量

筛选不雅内容
filter_profanity boolean

筛选转录文本中的不雅内容,可以是 true 或 false

Redact PII
redact_pii boolean

使用 Redact PII 模型从转录文本中编辑 PII 可以是 true 或 false

Redact PII Audio
redact_pii_audio boolean

生成带有口述 PII“蜂鸣”的原始媒体文件的副本,可以是 true 或 false。 有关更多详细信息,请参阅 PII 修订。

Redact PII Audio Quality
redact_pii_audio_quality string

控制由redact_pii_audio创建的音频的文件类型。 目前支持 mp3(默认)和 wav。 有关更多详细信息,请参阅 PII 修订。

Redact PII 策略
redact_pii_policies array of string

要启用的 PII 修订策略列表。 有关更多详细信息,请参阅 PII 修订。

Redact PII 替换
redact_pii_sub string

检测到的 PII 的替换逻辑可以是“entity_name”或“hash”。 有关更多详细信息,请参阅 PII 修订。

说话人标签
speaker_labels boolean

启用说话人分割,可以是 true 或 false

预期演讲者
speakers_expected integer

告知扬声器标签模型它应尝试识别的扬声器数,最多 10 个。 有关更多详细信息,请参阅演讲者分割。

内容审核
content_safety boolean

启用内容审查,可以是 true 或 false

内容审查置信度
content_safety_confidence integer

内容审查模型的置信度阈值。 值必须介于 25 和 100 之间。

主题检测
iab_categories boolean

启用主题检测,可以是 true 或 false

来自
from True array of string

要替换的字词或短语

to True string

要替换为的单词或短语

情绪分析
sentiment_analysis boolean

启用情绪分析,可以是 true 或 false

自动章节
auto_chapters boolean

启用自动章节,可以是 true 或 false

实体检测
entity_detection boolean

启用实体检测,可以是 true 或 false

语音阈值
speech_threshold float

拒绝包含小于此语音分数的音频文件。 有效值在 [0, 1] 范围内(含 1)。

启用摘要
summarization boolean

启用摘要,可以是 true 或 false

摘要模型
summary_model string

用于汇总脚本的模型

摘要类型
summary_type string

摘要的类型

启用自定义主题
custom_topics boolean

启用自定义主题(true 或 false)

自定义主题
topics array of string

自定义主题列表

返回

脚本对象

Body
Transcript

定义

RedactedAudioResponse

名称 路径 类型 说明
状态
status string

已编入音频的状态

修订的音频 URL
redacted_audio_url string

已编入音频文件的 URL

WordSearchResponse

名称 路径 类型 说明
脚本 ID
id uuid

脚本的 ID

匹配项总数
total_count integer

所有匹配实例的总计数。 例如,单词 1 匹配 2 次,单词 2 匹配 3 次,total_count等于 5。

匹配
matches array of object

搜索的匹配项

文本
matches.text string

匹配的单词

计数
matches.count integer

单词在脚本中的总次数

时间 戳
matches.timestamps array of array

时间戳数组

时间戳
matches.timestamps array of integer

结构化为 [start_time, end_time] 的时间戳数组(以毫秒为单位)

Indexes
matches.indexes array of integer

完成脚本的单词数组内该单词的所有索引位置的数组

字幕

脚本对象

名称 路径 类型 说明
ID
id uuid

脚本的唯一标识符

音频 URL
audio_url string

已转录的媒体的 URL

状态
status string

脚本的状态。 可能的值为排队、处理、已完成或错误。

语言代码
language_code string

音频文件的语言。 支持的语言中可以找到可能的值。 默认值为“en_us”。

语言检测
language_detection boolean

是否启用自动语言检测(true 或 false)

语音模型
speech_model string

要用于听录的语音模型。

文本
text string

媒体文件的文本脚本

单词
words array of object

临时顺序单词对象的数组,脚本中每个单词对应一个。 有关详细信息,请参阅语音识别。

置信度
words.confidence double
Start
words.start integer
结束
words.end integer
文本
words.text string
议长
words.speaker string

如果启用了说话人 Diarization,则句子的说话人,否则为 null

陈述
utterances array of object

启用dual_channel或speaker_labels时,轮次陈述对象列表。 有关详细信息,请参阅演讲者分割。

置信度
utterances.confidence double

此陈述脚本的置信度分数

Start
utterances.start integer

音频文件中话语的开始时间(以毫秒为单位)

结束
utterances.end integer

音频文件中话语的结束时间(以毫秒为单位)

文本
utterances.text string

此陈述的文本

单词
utterances.words array of object

话语中的单词。

置信度
utterances.words.confidence double
Start
utterances.words.start integer
结束
utterances.words.end integer
文本
utterances.words.text string
议长
utterances.words.speaker string

如果启用了说话人 Diarization,则句子的说话人,否则为 null

议长
utterances.speaker string

此陈述的说话人,其中每个说话人都分配有一个顺序大写字母,例如说话人 A 的“A”、说话人 B 的“B”等。

置信度
confidence double

脚本的置信度分数,介于 0.0(低置信度)和 1.0 之间(高置信度)

音频持续时间
audio_duration integer

此脚本对象的媒体文件的持续时间(以秒为单位)

标点
punctuate boolean

是否启用自动标点符号(true 还是 false)

设置文本格式
format_text boolean

是否启用文本格式,为 true 还是 false

不合时常
disfluencies boolean

在媒体文件中转录填充词,如“um”;可以为 true 或 false

双通道
dual_channel boolean

是否在听录请求中启用了双通道听录(true 还是 false)

Webhook URL
webhook_url string

我们向其发送 Webhook 请求的 URL。 我们发送两种类型的 Webhook 请求。 脚本完成或失败时发出一个请求,如果启用了redact_pii_audio,则为已编修音频时发出一个请求。

Webhook HTTP 状态代码
webhook_status_code integer

提供脚本已完成或 Webhook 请求失败时从服务器收到的状态代码(如果提供了 Webhook URL)

已启用 Webhook 身份验证
webhook_auth boolean

是否提供了 Webhook 身份验证详细信息

Webhook 身份验证标头名称
webhook_auth_header_name string

要随脚本完成或失败的 Webhook 请求一起发送的标头名称

速度提升
speed_boost boolean

是否启用速度提升

关键短语
auto_highlights boolean

关键短语是启用的,是 true 还是 false

状态
auto_highlights_result.status string

在极少数情况下,模型失败或不可用

Results
auto_highlights_result.results array of object

关键短语的临时顺序数组

计数
auto_highlights_result.results.count integer

关键短语出现在音频文件中的总次数

等级
auto_highlights_result.results.rank float

此关键短语的整体音频文件的总相关性 - 一个更大的数字意味着更相关

文本
auto_highlights_result.results.text string

关键短语的文本本身

时间 戳
auto_highlights_result.results.timestamps array of object

关键短语的时间戳

Start
auto_highlights_result.results.timestamps.start integer

开始时间(以毫秒为单位)

结束
auto_highlights_result.results.timestamps.end integer

结束时间(以毫秒为单位)

音频起始时间
audio_start_from integer

开始听录的文件的时间点(以毫秒为单位)

音频结束位置
audio_end_at integer

终止听录的文件的时间点(以毫秒为单位)

Word Boost
word_boost array of string

用于提升听录概率的自定义词汇列表

提高
boost_param string

单词提升参数值

筛选不雅内容
filter_profanity boolean

是否启用不雅内容筛选(true 或 false)

Redact PII
redact_pii boolean

是否启用 PII 修订(true 或 false)

Redact PII Audio
redact_pii_audio boolean

是生成音频文件的修订版本,是 true 还是 false。 有关详细信息,请参阅 PII 修订。

Redact PII Audio Quality
redact_pii_audio_quality string

控制由redact_pii_audio创建的音频的文件类型。 目前支持 mp3(默认)和 wav。 有关更多详细信息,请参阅 PII 修订。

Redact PII 策略
redact_pii_policies array of string

如果启用了 PII Redaction,则启用的 PII 修订策略列表。 有关详细信息,请参阅 PII 修订。

Redact PII 替换
redact_pii_sub string

检测到的 PII 的替换逻辑可以是“entity_name”或“hash”。 有关更多详细信息,请参阅 PII 修订。

说话人标签
speaker_labels boolean

是否启用说话人分割,可以是 true 还是 false

预期演讲者
speakers_expected integer

告知扬声器标签模型它应尝试识别的扬声器数,最多 10 个。 有关更多详细信息,请参阅演讲者分割。

内容审核
content_safety boolean

是否启用内容审查,可以是 true 还是 false

状态
content_safety_labels.status string

在极少数情况下,模型失败或不可用

Results
content_safety_labels.results array of object
文本
content_safety_labels.results.text string

内容审查模型标记的部分的脚本

标签
content_safety_labels.results.labels array of object

安全标签数组,每个敏感主题一个,在本节中检测到

标签
content_safety_labels.results.labels.label string

敏感主题的标签

置信度
content_safety_labels.results.labels.confidence double

正在讨论的主题的置信度分数,从 0 到 1

Severity
content_safety_labels.results.labels.severity double

从 0 到 1 部分讨论主题的严重程度

句子索引开始
content_safety_labels.results.sentences_idx_start integer

节开始的句子索引

句子索引结束
content_safety_labels.results.sentences_idx_end integer

节结束的句子索引

Start
content_safety_labels.results.timestamp.start integer

开始时间(以毫秒为单位)

结束
content_safety_labels.results.timestamp.end integer

结束时间(以毫秒为单位)

概要
content_safety_labels.summary object

整个音频文件的内容审查置信度结果摘要

严重性分数摘要
content_safety_labels.severity_score_summary object

整个音频文件的内容审查严重性结果摘要

主题检测
iab_categories boolean

是否启用主题检测,可以是 true 还是 false

状态
iab_categories_result.status string

在极少数情况下,模型失败或不可用

Results
iab_categories_result.results array of object

主题检测模型的结果数组

文本
iab_categories_result.results.text string

脚本中发生检测到的主题的文本

标签
iab_categories_result.results.labels array of object
相关性
iab_categories_result.results.labels.relevance double

检测到的主题与检测到的主题的相关性

标签
iab_categories_result.results.labels.label string

检测到主题的标签的 IAB 分类标签,其中 > 表示超topic/subtopic 关系

Start
iab_categories_result.results.timestamp.start integer

开始时间(以毫秒为单位)

结束
iab_categories_result.results.timestamp.end integer

结束时间(以毫秒为单位)

概要
iab_categories_result.summary object

主题与整个音频文件的整体相关性

自定义拼写
custom_spelling array of object

自定义单词的拼写和格式设置方式,以及如何使用值与值进行格式设置

来自
custom_spelling.from array of string

要替换的字词或短语

custom_spelling.to string

要替换为的单词或短语

启用自动章节
auto_chapters boolean

是否启用自动章节,可以是 true 还是 false

chapters array of object

音频文件的临时顺序章节数组

Gist
chapters.gist string

一篇超短摘要(只是几句话)在章节中讲的内容

标题
chapters.headline string

章节中讲的内容的单个句子摘要

概要
chapters.summary string

章节中讲的内容的一段摘要

Start
chapters.start integer

章节的起始时间(以毫秒为单位)

结束
chapters.end integer

章节的起始时间(以毫秒为单位)

已启用摘要
summarization boolean

是否启用摘要(true 或 false)

摘要类型
summary_type string

如果启用了摘要,则生成的摘要类型

摘要模型
summary_model string

如果启用了摘要,则用于生成摘要的摘要模型

概要
summary string

如果启用了摘要,则为媒体文件的生成摘要

已启用自定义主题
custom_topics boolean

自定义主题是启用的,是 true 还是 false

主题
topics array of string

启用自定义主题时提供的自定义主题列表

情绪分析
sentiment_analysis boolean

是否启用情绪分析,可以是 true 还是 false

情绪分析结果
sentiment_analysis_results array of object

情绪分析模型的结果数组(如果已启用)。 有关详细信息,请参阅情绪分析。

文本
sentiment_analysis_results.text string

句子的脚本

Start
sentiment_analysis_results.start integer

句子的起始时间(以毫秒为单位)

结束
sentiment_analysis_results.end integer

句子的结束时间(以毫秒为单位)

情绪
sentiment_analysis_results.sentiment

检测到句子的情绪,一个积极,中性,负

置信度
sentiment_analysis_results.confidence double

检测到句子情绪的置信度分数,从 0 到 1

议长
sentiment_analysis_results.speaker string

如果启用了说话人 Diarization,则句子的说话人,否则为 null

实体检测
entity_detection boolean

实体检测是启用的,可以是 true 还是 false

Entities
entities array of object

实体检测模型的结果数组(如果已启用)。 有关详细信息,请参阅实体检测。

实体类型
entities.entity_type string

检测到的实体的实体类型

文本
entities.text string

检测到的实体的文本

Start
entities.start integer

开始时间(以毫秒为单位),检测到的实体出现在音频文件中

结束
entities.end integer

音频文件中检测到的实体的结束时间(以毫秒为单位)

语音阈值
speech_threshold float

默认值为 null。 拒绝包含小于此语音分数的音频文件。 有效值在 [0, 1] 范围内(含 1)。

扼杀
throttled boolean

当请求被限制时为 True,当请求不再受到限制时为 false

错误
error string

脚本失败原因的错误消息

语言模型
language_model string

用于脚本的语言模型

声学模型
acoustic_model string

用于脚本的声学模型

SentencesResponse

名称 路径 类型 说明
脚本 ID
id uuid
置信度
confidence double
音频持续时间
audio_duration number
句子
sentences array of object
文本
sentences.text string
Start
sentences.start integer
结束
sentences.end integer
置信度
sentences.confidence double
单词
sentences.words array of object
置信度
sentences.words.confidence double
Start
sentences.words.start integer
结束
sentences.words.end integer
文本
sentences.words.text string
议长
sentences.words.speaker string

如果启用了说话人 Diarization,则句子的说话人,否则为 null

议长
sentences.speaker string

如果启用了说话人 Diarization,则句子的说话人,否则为 null

ParagraphsResponse

名称 路径 类型 说明
脚本 ID
id uuid
置信度
confidence double
音频持续时间
audio_duration number
Paragraphs
paragraphs array of object
文本
paragraphs.text string
Start
paragraphs.start integer
结束
paragraphs.end integer
置信度
paragraphs.confidence double
单词
paragraphs.words array of object
置信度
paragraphs.words.confidence double
Start
paragraphs.words.start integer
结束
paragraphs.words.end integer
文本
paragraphs.words.text string
议长
paragraphs.words.speaker string

如果启用了说话人 Diarization,则句子的说话人,否则为 null

议长
paragraphs.speaker string

如果启用了说话人 Diarization,则句子的说话人,否则为 null

TranscriptList

脚本列表。 脚本从最新到最早的排序。 上一个 URL 始终指向包含较旧脚本的页面。

名称 路径 类型 说明
限度
page_details.limit integer

此页的结果数限制为

结果计数
page_details.result_count integer

页面中的实际结果数

当前 URL
page_details.current_url string

用于检索当前脚本页的 URL

上一个 URL
page_details.prev_url string

下一页脚本的 URL。 上一个 URL 始终指向包含较旧脚本的页面。

下一个 URL
page_details.next_url string

下一页脚本的 URL。 下一个 URL 始终指向包含较新脚本的页面。

Transcripts
transcripts array of object
ID
transcripts.id uuid
资源 URL
transcripts.resource_url string
状态
transcripts.status string

脚本的状态。 可能的值为排队、处理、已完成或错误。

已创建
transcripts.created string
完成
transcripts.completed string
音频 URL
transcripts.audio_url string
错误
transcripts.error string

脚本失败原因的错误消息

UploadedFile

名称 路径 类型 说明
上传的文件 URL
upload_url string

指向音频文件的 URL,只能通过 AssemblyAI 的服务器访问

PurgeLemurRequestDataResponse

名称 路径 类型 说明
清除请求 ID
request_id uuid

LeMUR 请求的删除请求的 ID

要清除的 LeMUR 请求 ID
request_id_to_purge uuid

要清除其数据的 LeMUR 请求的 ID

已删除
deleted boolean

请求数据是否已删除

LemurTaskResponse

名称 路径 类型 说明
响应
response string

LeMUR 生成的响应。

LeMUR 请求 ID
request_id uuid

LeMUR 请求的 ID

输入标记
usage.input_tokens integer

模型使用的输入令牌数

输出令牌
usage.output_tokens integer

模型生成的输出令牌数

LemurResponse

名称 路径 类型 说明
响应
response string

LeMUR 生成的响应。

LeMUR 请求 ID
request_id uuid

LeMUR 请求的 ID

输入标记
usage.input_tokens integer

模型使用的输入令牌数

输出令牌
usage.output_tokens integer

模型生成的输出令牌数

字符串

这是基本数据类型“string”。