AssemblyAI(預覽版)
使用 AssemblyAI 的語音 AI 從音頻中轉錄和提取數據。
此連接器適用於以下產品和區域:
| 服務 | Class | Regions |
|---|---|---|
| 副駕駛工作室 | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 邏輯應用程式 | 標準 | 所有 Logic Apps 區域, 但下列區域除外: - Azure Government 區域 - Azure 中國區域 - 美國國防部 (DoD) |
| Power Apps | 進階 | 除下列區域外的所有 Power Apps 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| Power Automate(自動化服務) | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 連絡人 | |
|---|---|
| 名稱 | Support |
| URL | https://www.assemblyai.com/docs/ |
| support@assemblyai.com |
| 連接器中繼資料 | |
|---|---|
| Publisher | 組裝AI |
| 網站 | https://www.assemblyai.com |
| 隱私策略 | https://www.assemblyai.com/legal/privacy-policy |
| 類別 | AI |
透過 AssemblyAI 連接器,您可以使用 AssemblyAI 的模型來處理音訊數據,方法是使用語音辨識模型轉錄音訊資料,使用音訊智慧模型進行分析,並使用 LLM 在其基礎上建立生成功能。
- 語音轉文字 包括許多可配置的功能,例如說話者分類、自定義拼寫、自定義詞彙等。
- 音訊智慧模型是 透過轉錄設定提供和設定的其他 AI 模型。
- LeMUR 可讓您將各種 LLM 模型套用至您的成績單,而無需為非常大的成績單建立自己的 RAG 基礎設施。
先決條件
您將需要以下內容才能繼續:
- 一個 AssemblyAI API 密克(免費獲取一個)
如何取得認證
您可以通過 註冊帳戶 並從 儀表板複製 API 密鑰來免費獲得 AssemblyAI API 密鑰。
開始使用連接器
請依照下列步驟,使用 AssemblyAI 連接器轉錄音訊。
上傳檔案
要使用 AssemblyAI 轉錄音頻文件,該文件需要可供 AssemblyAI 訪問。 如果您的音訊檔案已可透過 URL 存取,您可以使用現有的 URL。
否則,您可以使用該 Upload a File 動作將檔案上傳至 AssemblyAI。
您將返回文件的 URL,該 URL 只能用於使用您的 API 密鑰進行轉錄。
轉錄文件後,該文件將從 AssemblyAI 的服務器中刪除。
轉錄音頻
若要轉錄音訊,請 Audio URL 使用音訊檔案 URL 設定參數。
然後,設定其他參數以啟用更多 語音辨識 功能和 音訊智慧 模型。
轉錄音訊動作的結果是佇列的文字記錄,該文字記錄將立即開始處理。 若要取得完整的成績單,您有兩個選項:
處理文字記錄就緒的 Webhook
如果您不想使用 Logic Apps 或 Power Automate 來處理 Webhook,請在動作中Transcribe Audio設定Webhook URL參數,並遵循 AssemblyAI 的 Webhook 檔實作 Webhook。
若要使用 Logic Apps 或 Power Automate 處理 Webhook,請遵循下列步驟:
建立個別的邏輯應用程式或 Power Automate 流程
設定
When an HTTP request is received為觸發器:- 將
Who Can Trigger The Flow?設定為Anyone - 設定
Request Body JSON Schema為:{ "type": "object", "properties": { "transcript_id": { "type": "string" }, "status": { "type": "string" } } } - 將
Method設定為POST
- 將
新增 AssemblyAI
Get Transcript動作,將 fromtranscript_id觸發程式傳遞至Transcript ID參數。在執行任何其他操作之前,您應該檢查 是
Statuscompleted還是error。 新增一個Condition動作,以檢查輸出中的Get Transcript是否Status為error:- 在分支中
True,新增動作Terminate- 將 設定為
StatusFailed - 將 設定為
CodeTranscript Error - 將 從
ErrorGet Transcript輸出傳遞至Message參數。
- 將 設定為
- 您可以將分支留
False空。
現在,您可以在知道文字記錄狀態為
completed之後新增任何動作Condition,而且您可以擷取動作Get Transcript的任何輸出屬性。- 在分支中
儲存您的邏輯應用程式或流程。 將為觸發器產生
When an HTTP request is received。HTTP URL複製 並HTTP URL返回原始邏輯應用程式或流程。在原始邏輯應用程式或流程中,更新
Transcribe Audio動作。 將您之前複製的粘HTTP URL貼到參數中Webhook URL,然後保存。
當文字記錄狀態變成 completed 或 error時,AssemblyAI 會將 HTTP POST 要求傳送至 Webhook URL,這會由您的其他邏輯應用程式或流程處理。
作為使用 Webhook 的替代方案,您可以輪詢文字記錄狀態,如下一節所述。
輪詢文字記錄狀態
您可以使用下列步驟輪詢文字記錄狀態:
新增
Initialize variable動作- 將
Name設定為transcript_status - 將
Type設定為String - 將 from
StatusTranscribe Audio輸出儲存到參數中Value
- 將
新增
Do until動作-
Loop Until使用下列 Fx 程式碼設定參數:
這段程式碼會檢查變數是否or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))transcript_status為completederror或 。 - 將參數設定
Count為86400 - 將參數設定
Timeout為PT24H
在動作中
Do until,新增下列動作:- 新增
Delay等待一秒鐘的動作 - 新增動作
Get Transcript,並將 從IDTranscribe Audio輸出傳遞至Transcript ID參數。 - 新增
Set variable動作- 將
Name設定為transcript_status - 將輸出的
Get Transcript傳遞Status給Value參數
- 將
循環將繼續
Do until,直到文字記錄完成或發生錯誤為止。-
新增另一個
Get Transcript動作,就像之前一樣,但在迴圈之後Do until新增它,使其輸出在動作範圍Do until之外可用。
在執行任何其他操作之前,您應該檢查成績單 Status 是否為 completederror或 。
新增一個 Condition 動作,檢查 是否 transcript_status 為 error:
- 在分支中
True,新增動作Terminate- 將
Status設定為Failed - 將
Code設定為Transcript Error - 將 從
ErrorGet Transcript輸出傳遞至Message參數。
- 將
- 您可以將分支留
False空。
現在,您可以在知道文字記錄狀態為 completed之後新增任何動作Condition,而且您可以擷取動作Get Transcript的任何輸出屬性。
新增更多動作
現在您已經完成了轉錄,您可以使用傳入轉錄的許多 ID 其他動作,例如
Get Sentences of TranscriptGet Paragraphs of TranscriptGet Subtitles of TranscriptGet Redacted AudioSearch Transcript for WordsRun a Task using LeMUR
已知問題與限制
目前沒有已知問題。 我們不支援串流語音 -To-Text (即時),因為無法使用自訂連接器。
常見錯誤和補救措施
您可以在 AssemblyAI 文件中找到有關錯誤的詳細資訊。
FAQ
您可以在 我們的文件中找到常見問題。
正在建立連線
連接器支援下列驗證類型:
| 預設值 | 建立連線的參數。 | 所有區域 | 不可共享 |
預設
適用:所有地區
建立連線的參數。
這不是可共用的連線。 如果 Power App 與其他使用者共用,系統會明確提示其他使用者建立新連線。
| 名稱 | 類型 | Description | 為必填項目 |
|---|---|---|---|
| AssemblyAI API 金鑰 | securestring | 用於驗證 AssemblyAI API 的 AssemblyAI API 金鑰。 | 對 |
節流限制
| 名稱 | 呼叫 | 續約期間 |
|---|---|---|
| 每個連線的 API 呼叫 | 100 | 60 秒 |
動作
| 上傳媒體檔案 |
將媒體檔案上傳到 AssemblyAI 的伺服器。 |
| 使用 LeMUR 執行任務 |
使用 LeMUR 任務端點輸入您自己的 LLM 提示。 |
| 列表成績單 |
擷取您建立的文字記錄清單。 成績單從最新到最舊排序。 先前的 URL 一律指向具有較舊文字記錄的頁面。 |
| 刪除文字記錄 |
刪除文字記錄。 刪除不會刪除資源本身,但會從資源中移除資料,並將其標示為已刪除。 |
| 取得已編輯的音訊 |
擷取已編輯的音訊物件,其中包含已編輯音訊的狀態和 URL。 |
| 取得文字記錄 |
取得文字記錄資源。 當「狀態」為「已完成」時,文字記錄就緒。 |
| 在成績單中獲取句子 |
取得按句子分割的文字記錄。 API 將嘗試在語義上將轉錄分成句子,以創建更易於讀者的轉錄。 |
| 在文字記錄中獲取段落 |
取得按段落分割的文字記錄。 API 將嘗試在語義上將您的轉錄分成段落,以創建更易於讀者的轉錄。 |
| 成績單中的搜尋字詞 |
在文字記錄中搜索關鍵字。 您可以搜尋包含最多五個單字或數字的單字、數字或片語。 |
| 擷取 LeMUR 回應 |
擷取先前產生的 LeMUR 回應。 |
| 清除 LeMUR 請求數據 |
刪除先前提交的 LeMUR 請求的資料。 LLM 回應資料以及原始請求中提供的任何內容都將被刪除。 |
| 獲取文字記錄的字幕 |
以 SRT 或 VTT 格式匯出您的文字記錄,以便與視訊播放器一起使用,以獲取字幕和隱藏式字幕。 |
| 轉錄音頻 |
從可透過 URL 存取的媒體檔案建立文字記錄。 |
上傳媒體檔案
將媒體檔案上傳到 AssemblyAI 的伺服器。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
檔案內容
|
file | True | binary |
要上傳的檔案。 |
傳回
- 身體
- UploadedFile
使用 LeMUR 執行任務
使用 LeMUR 任務端點輸入您自己的 LLM 提示。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
Prompt
|
prompt | True | string |
提示模型產生所需輸出的文字,包括您想要傳遞至模型的任何內容。 |
|
成績單 ID
|
transcript_ids | array of uuid |
已完成的文字記錄清單。 最多 100 個檔案或 100 小時,以較低者為準。 使用 transcript_ids 或 input_text 作為 LeMUR 的輸入。 |
|
|
輸入文字
|
input_text | string |
自訂格式的文字記錄資料。 最大大小是所選模型的前後關聯限制,預設為 100000。 使用 transcript_ids 或 input_text 作為 LeMUR 的輸入。 |
|
|
上下文
|
context | string |
內容來提供模型。 這可以是字串或自由格式的 JSON 值。 |
|
|
最終模型
|
final_model | string |
執行壓縮後用於最終提示的模型。 |
|
|
最大輸出大小
|
max_output_size | integer |
以代幣為單位的最大輸出大小,最多 4000 |
|
|
溫度
|
temperature | float |
要用於模型的溫度。 值越高,答案越有創意,值越低,答案越保守。 可以是介於 0.0 到 1.0 之間的任何值(含)。 |
傳回
列表成績單
擷取您建立的文字記錄清單。 成績單從最新到最舊排序。 先前的 URL 一律指向具有較舊文字記錄的頁面。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
限制
|
limit | integer |
要擷取的文字記錄數量上限 |
|
|
地位
|
status | string |
成績單的狀態。 可能的值為 queued、processing、completed 或 error。 |
|
|
創建日期
|
created_on | date |
僅取得在此日期建立的文字記錄 |
|
|
身分證之前
|
before_id | uuid |
取得在此文字記錄 ID 之前建立的文字記錄 |
|
|
識別後
|
after_id | uuid |
取得在此文字記錄 ID 之後建立的文字記錄 |
|
|
僅限流
|
throttled_only | boolean |
僅取得節流的文字記錄,覆寫狀態篩選 |
傳回
成績單清單。 成績單從最新到最舊排序。 先前的 URL 一律指向具有較舊文字記錄的頁面。
刪除文字記錄
刪除文字記錄。 刪除不會刪除資源本身,但會從資源中移除資料,並將其標示為已刪除。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
成績單 ID
|
transcript_id | True | string |
成績單的 ID |
傳回
文字記錄物件
- 身體
- Transcript
取得已編輯的音訊
擷取已編輯的音訊物件,其中包含已編輯音訊的狀態和 URL。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
成績單 ID
|
transcript_id | True | string |
成績單的 ID |
傳回
取得文字記錄
取得文字記錄資源。 當「狀態」為「已完成」時,文字記錄就緒。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
成績單 ID
|
transcript_id | True | string |
成績單的 ID |
傳回
文字記錄物件
- 身體
- Transcript
在成績單中獲取句子
取得按句子分割的文字記錄。 API 將嘗試在語義上將轉錄分成句子,以創建更易於讀者的轉錄。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
成績單 ID
|
transcript_id | True | string |
成績單的 ID |
傳回
在文字記錄中獲取段落
取得按段落分割的文字記錄。 API 將嘗試在語義上將您的轉錄分成段落,以創建更易於讀者的轉錄。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
成績單 ID
|
transcript_id | True | string |
成績單的 ID |
傳回
成績單中的搜尋字詞
在文字記錄中搜索關鍵字。 您可以搜尋包含最多五個單字或數字的單字、數字或片語。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
成績單 ID
|
transcript_id | True | string |
成績單的 ID |
|
字組
|
words | True | array |
要搜尋的關鍵字 |
傳回
擷取 LeMUR 回應
擷取先前產生的 LeMUR 回應。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
LeMUR 請求 ID
|
request_id | True | string |
您先前提出的 LeMUR 請求的 ID。 這將在原始請求的回應中找到。 |
傳回
清除 LeMUR 請求數據
刪除先前提交的 LeMUR 請求的資料。 LLM 回應資料以及原始請求中提供的任何內容都將被刪除。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
LeMUR 請求 ID
|
request_id | True | string |
您要刪除其資料的 LeMUR 請求的 ID。 這將在原始請求的回應中找到。 |
傳回
獲取文字記錄的字幕
以 SRT 或 VTT 格式匯出您的文字記錄,以便與視訊播放器一起使用,以獲取字幕和隱藏式字幕。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
成績單 ID
|
transcript_id | True | string |
成績單的 ID |
|
字幕格式
|
subtitle_format | True | string |
字幕格式 |
|
每個標題的字元數
|
chars_per_caption | integer |
每個標題的字元數上限 |
傳回
- response
- string
轉錄音頻
從可透過 URL 存取的媒體檔案建立文字記錄。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
音訊網址
|
audio_url | True | string |
要轉錄的音訊或視訊檔案的 URL。 |
|
語言代碼
|
language_code | string |
音訊檔案的語言。 可能的值可在支援的語言中找到。 預設值為 'en_us'。 |
|
|
語言偵測
|
language_detection | boolean |
啟用自動語言偵測,true 或 false。 |
|
|
語音模型
|
speech_model | string |
要用於轉錄的語音模型。 |
|
|
標點符號
|
punctuate | boolean |
啟用自動標點符號,可以是 true 或 false |
|
|
格式化文字
|
format_text | boolean |
啟用文字格式,可以是 true 或 false |
|
|
不流暢
|
disfluencies | boolean |
在您的媒體文件中轉錄填充詞,例如“嗯”;可以是真,也可以是假 |
|
|
雙通道
|
dual_channel | boolean |
啟用雙通道轉錄,可以是 true 或 false。 |
|
|
Webhook 網址
|
webhook_url | string |
我們傳送 Webhook 請求的 URL。 我們傳送兩種不同類型的 Webhook 請求。 當文字記錄完成或失敗時發出一個請求,如果啟用了編輯音訊,則在編輯的音訊準備就緒時發出一個請求redact_pii_audio。 |
|
|
Webhook 驗證標頭名稱
|
webhook_auth_header_name | string |
要與文字記錄已完成或失敗的 Webhook 請求一起傳送的標頭名稱 |
|
|
Webhook 驗證標頭值
|
webhook_auth_header_value | string |
要與文字記錄已完成或失敗的 Webhook 請求一起傳回的標頭值,以增加安全性 |
|
|
關鍵詞組
|
auto_highlights | boolean |
啟用關鍵詞組,true 或 false |
|
|
音訊開始
|
audio_start_from | integer |
開始在媒體檔案中轉錄的時間點 (以毫秒為單位) |
|
|
音訊結束於
|
audio_end_at | integer |
停止在媒體檔案中轉錄的時間點 (以毫秒為單位) |
|
|
單詞提升
|
word_boost | array of string |
自訂詞彙清單,以提高轉錄機率 |
|
|
單詞提升級別
|
boost_param | string |
提升指定字詞多少 |
|
|
過濾褻瀆
|
filter_profanity | boolean |
從轉錄的文字中篩選髒話,可以是 true 或 false |
|
|
編輯 PII
|
redact_pii | boolean |
使用編輯 PII 模型從轉錄文字中編輯 PII,可以是 true 或 false |
|
|
編輯 PII 音訊
|
redact_pii_audio | boolean |
生成原始媒體檔案的副本,並發出語音 PII「嗶嗶聲」,可以是 true 或 false。 如需詳細資訊,請參閱 PII 編輯。 |
|
|
編輯 PII 音訊品質
|
redact_pii_audio_quality | string |
控制redact_pii_audio所建立音訊的檔案類型。 目前支援mp3(預設)和wav。 如需詳細資訊,請參閱 PII 編輯。 |
|
|
編輯 PII 政策
|
redact_pii_policies | array of string |
要啟用的 PII 編輯政策清單。 如需詳細資訊,請參閱 PII 編輯。 |
|
|
編輯 PII 替換
|
redact_pii_sub | string |
偵測到 PII 的替換邏輯可以是「entity_name」或「雜湊」。 如需詳細資訊,請參閱 PII 編輯。 |
|
|
揚聲器標籤
|
speaker_labels | boolean |
啟用說話者分類,可以是 true 或 false |
|
|
預計演講者
|
speakers_expected | integer |
告知說話者標籤模型應該嘗試識別多少個說話者,最多 10 個。 如需詳細資訊,請參閱說話者分類。 |
|
|
內容審核
|
content_safety | boolean |
啟用內容審核,可以是 true 或 false |
|
|
內容審核信心
|
content_safety_confidence | integer |
內容審核模型的信賴度臨界值。 值必須介於 25 到 100 之間。 |
|
|
主題偵測
|
iab_categories | boolean |
啟用主題偵測,可以是 true 或 false |
|
|
寄件者
|
from | True | array of string |
要取代的字詞或片語 |
|
發往
|
to | True | string |
要取代的單字或片語 |
|
情感分析
|
sentiment_analysis | boolean |
啟用情緒分析,可以是 true 或 false |
|
|
自動章節
|
auto_chapters | boolean |
啟用自動章節,可以是 true 或 false |
|
|
實體偵測
|
entity_detection | boolean |
啟用實體偵測,可以是 true 或 false |
|
|
語音閾值
|
speech_threshold | float |
拒絕包含少於此語音部分的音訊檔案。 有效值在 [0, 1] (含) 範圍內。 |
|
|
啟用摘要
|
summarization | boolean |
啟用摘要,可以是 true 或 false |
|
|
摘要模型
|
summary_model | string |
總結文字記錄的模型 |
|
|
摘要類型
|
summary_type | string |
摘要類型 |
|
|
啟用自訂主題
|
custom_topics | boolean |
啟用自訂主題,true 或 false |
|
|
自訂主題
|
topics | array of string |
自訂主題清單 |
傳回
文字記錄物件
- 身體
- Transcript
定義
已編輯音訊回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
地位
|
status | string |
已編輯音訊的狀態 |
|
已編輯的音訊 URL
|
redacted_audio_url | string |
已編輯音訊檔案的 URL |
WordSearch回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
成績單 ID
|
id | uuid |
文字記錄的 ID |
|
比賽總數
|
total_count | integer |
所有相符執行個體的總計數。 例如,單字 1 匹配 2 次,單字 2 匹配 3 次,total_count 將等於 5。 |
|
相符
|
matches | array of object |
搜尋的相符項 |
|
文字
|
matches.text | string |
相符的單字 |
|
Count
|
matches.count | integer |
單字在文字記錄中的總次數 |
|
時間戳記
|
matches.timestamps | array of array |
時間戳記陣列 |
|
時間戳
|
matches.timestamps | array of integer |
結構為 [start_time, end_time] 的時間戳記陣列,以毫秒為單位 |
|
Indexes
|
matches.indexes | array of integer |
已完成文字記錄的單字陣列中該單字的所有索引位置的陣列 |
文字記錄
文字記錄物件
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
ID
|
id | uuid |
成績單的唯一識別碼 |
|
音訊網址
|
audio_url | string |
轉錄媒體的 URL |
|
地位
|
status | string |
成績單的狀態。 可能的值為 queued、processing、completed 或 error。 |
|
語言代碼
|
language_code | string |
音訊檔案的語言。 可能的值可在支援的語言中找到。 預設值為 'en_us'。 |
|
語言偵測
|
language_detection | boolean |
是否啟用自動語言偵測,為 true 或 false |
|
語音模型
|
speech_model | string |
要用於轉錄的語音模型。 |
|
文字
|
text | string |
媒體檔案的文字記錄 |
|
字組
|
words | array of object |
時間順序單字物件的陣列,文字記錄中的每個單字各一個。 如需詳細資訊,請參閱語音辨識。 |
|
信賴度
|
words.confidence | double | |
|
開始
|
words.start | integer | |
|
結束
|
words.end | integer | |
|
文字
|
words.text | string | |
|
議長
|
words.speaker | string |
如果已啟用 [說話者分類],則為句子的說話者,否則為 null |
|
表達方式
|
utterances | array of object |
啟用dual_channel或speaker_labels時,會是逐步陳述物件的清單。 如需詳細資訊,請參閱說話者分類。 |
|
信賴度
|
utterances.confidence | double |
此話語文字記錄的信賴分數 |
|
開始
|
utterances.start | integer |
音訊檔案中話語的開始時間 (以毫秒為單位) |
|
結束
|
utterances.end | integer |
音訊檔案中話語的結束時間 (以毫秒為單位) |
|
文字
|
utterances.text | string |
此話語的文字 |
|
字組
|
utterances.words | array of object |
話語中的話。 |
|
信賴度
|
utterances.words.confidence | double | |
|
開始
|
utterances.words.start | integer | |
|
結束
|
utterances.words.end | integer | |
|
文字
|
utterances.words.text | string | |
|
議長
|
utterances.words.speaker | string |
如果已啟用 [說話者分類],則為句子的說話者,否則為 null |
|
議長
|
utterances.speaker | string |
此話語的說話者,其中每個說話者都會被分配一個連續的大寫字母 - 例如,“A”代表說話者 A,“B”代表說話者 B,等等。 |
|
信賴度
|
confidence | double |
文字記錄的信賴分數,介於 0.0 (低信賴度) 和 1.0 (高信賴度) 之間 |
|
音訊持續時間
|
audio_duration | integer |
此轉錄物件媒體檔案的持續時間 (以秒為單位) |
|
標點符號
|
punctuate | boolean |
是否啟用自動標點符號,為 true 或 false |
|
格式化文字
|
format_text | boolean |
是否啟用「文字格式」,為 true 或 false |
|
不流暢
|
disfluencies | boolean |
在您的媒體文件中轉錄填充詞,例如“嗯”;可以是真,也可以是假 |
|
雙通道
|
dual_channel | boolean |
是否在轉錄請求中啟用雙通道轉錄,為 true 或 false |
|
Webhook 網址
|
webhook_url | string |
我們傳送 Webhook 請求的 URL。 我們傳送兩種不同類型的 Webhook 請求。 當文字記錄完成或失敗時發出一個請求,如果啟用了編輯音訊,則在編輯的音訊準備就緒時發出一個請求redact_pii_audio。 |
|
Webhook HTTP 狀態碼
|
webhook_status_code | integer |
如果提供了 Webhook URL,則我們在傳遞文字記錄完成或失敗的 Webhook 請求時從您的伺服器收到的狀態碼 |
|
已啟用Webhook驗證
|
webhook_auth | boolean |
是否提供 Webhook 驗證詳細資料 |
|
Webhook 驗證標頭名稱
|
webhook_auth_header_name | string |
要與文字記錄已完成或失敗的 Webhook 請求一起傳送的標頭名稱 |
|
速度提升
|
speed_boost | boolean |
是否啟用速度提升 |
|
關鍵詞組
|
auto_highlights | boolean |
是否啟用關鍵詞組,為 true 或 false |
|
地位
|
auto_highlights_result.status | string |
成功,或在模型失敗的極少數情況下無法使用 |
|
Results
|
auto_highlights_result.results | array of object |
按時間順序排列的關鍵短語陣列 |
|
Count
|
auto_highlights_result.results.count | integer |
關鍵詞組在音訊檔案中出現的總次數 |
|
等級
|
auto_highlights_result.results.rank | float |
與該關鍵短語的整體音頻文件的總相關性 - 數字越大意味著更相關 |
|
文字
|
auto_highlights_result.results.text | string |
關鍵詞組的文本本身 |
|
時間戳記
|
auto_highlights_result.results.timestamps | array of object |
關鍵詞組的時間戳記 |
|
開始
|
auto_highlights_result.results.timestamps.start | integer |
開始時間(以毫秒為單位) |
|
結束
|
auto_highlights_result.results.timestamps.end | integer |
結束時間(以毫秒為單位) |
|
音訊開始
|
audio_start_from | integer |
開始轉錄的檔案中的時間點 (以毫秒為單位) |
|
音訊結束於
|
audio_end_at | integer |
檔案中終止轉錄的時間點 (以毫秒為單位) |
|
單詞提升
|
word_boost | array of string |
自訂詞彙清單,以提高轉錄機率 |
|
促進
|
boost_param | string |
單字提升參數值 |
|
過濾褻瀆
|
filter_profanity | boolean |
是否已啟用褻瀆過濾,true 或 false |
|
編輯 PII
|
redact_pii | boolean |
是否啟用 PII 編輯,為 true 或 false |
|
編輯 PII 音訊
|
redact_pii_audio | boolean |
是否生成了音頻文件的編輯版本,是 true 還是 false。 如需詳細資訊,請參閱 PII 編輯。 |
|
編輯 PII 音訊品質
|
redact_pii_audio_quality | string |
控制redact_pii_audio所建立音訊的檔案類型。 目前支援mp3(預設)和wav。 如需詳細資訊,請參閱 PII 編輯。 |
|
編輯 PII 政策
|
redact_pii_policies | array of string |
如果已啟用 PII 密文,則已啟用的 PII 密文政策清單。 如需詳細資訊,請參閱 PII 編輯。 |
|
編輯 PII 替換
|
redact_pii_sub | string |
偵測到 PII 的替換邏輯可以是「entity_name」或「雜湊」。 如需詳細資訊,請參閱 PII 編輯。 |
|
揚聲器標籤
|
speaker_labels | boolean |
是否啟用說話者分類,可以是 true 或 false |
|
預計演講者
|
speakers_expected | integer |
告訴喇叭標籤模型應該嘗試識別多少個喇叭,最多 10 個。 如需詳細資訊,請參閱說話者分類。 |
|
內容審核
|
content_safety | boolean |
是否啟用內容審核,可以是 true 或 false |
|
地位
|
content_safety_labels.status | string |
成功,或在模型失敗的極少數情況下無法使用 |
|
Results
|
content_safety_labels.results | array of object | |
|
文字
|
content_safety_labels.results.text | string |
內容審核模型所標示之區段的文字記錄 |
|
Labels
|
content_safety_labels.results.labels | array of object |
安全標籤陣列,每個在區段中偵測到的敏感主題一個 |
|
標籤
|
content_safety_labels.results.labels.label | string |
敏感主題的標籤 |
|
信賴度
|
content_safety_labels.results.labels.confidence | double |
所討論主題的信賴分數,從 0 到 1 |
|
Severity
|
content_safety_labels.results.labels.severity | double |
該部分討論該主題的嚴重程度,從 0 到 1 |
|
句子索引開始
|
content_safety_labels.results.sentences_idx_start | integer |
該節開始的句子索引 |
|
句子索引結尾
|
content_safety_labels.results.sentences_idx_end | integer |
區段結尾的句子索引 |
|
開始
|
content_safety_labels.results.timestamp.start | integer |
開始時間(以毫秒為單位) |
|
結束
|
content_safety_labels.results.timestamp.end | integer |
結束時間(以毫秒為單位) |
|
總結
|
content_safety_labels.summary | object |
整個音訊檔案的內容審核信賴度結果摘要 |
|
嚴重性分數摘要
|
content_safety_labels.severity_score_summary | object |
整個音訊檔案的內容審核嚴重性結果摘要 |
|
主題偵測
|
iab_categories | boolean |
是否啟用主題偵測,可以是 true 或 false |
|
地位
|
iab_categories_result.status | string |
成功,或在模型失敗的極少數情況下無法使用 |
|
Results
|
iab_categories_result.results | array of object |
主題偵測模型的結果陣列 |
|
文字
|
iab_categories_result.results.text | string |
文字記錄中偵測到的主題發生的文字 |
|
Labels
|
iab_categories_result.results.labels | array of object | |
|
相關性
|
iab_categories_result.results.labels.relevance | double |
偵測到的主題與偵測到的主題的相關性 |
|
標籤
|
iab_categories_result.results.labels.label | string |
偵測到主題標籤的IAB分類標籤,其中 > 表示超主題/子主題關係 |
|
開始
|
iab_categories_result.results.timestamp.start | integer |
開始時間(以毫秒為單位) |
|
結束
|
iab_categories_result.results.timestamp.end | integer |
結束時間(以毫秒為單位) |
|
總結
|
iab_categories_result.summary | object |
主題與整個音訊檔案的整體相關性 |
|
自訂拼字
|
custom_spelling | array of object |
使用 to 和 from 值自訂單字的拼字和格式化方式 |
|
寄件者
|
custom_spelling.from | array of string |
要取代的字詞或片語 |
|
發往
|
custom_spelling.to | string |
要取代的單字或片語 |
|
啟用自動章節
|
auto_chapters | boolean |
是否啟用自動章節,可以是 true 或 false |
|
章節
|
chapters | array of object |
音訊檔案的時間順序章節陣列 |
|
要旨
|
chapters.gist | string |
對章節所說內容的超簡摘要(短短幾句話) |
|
題
|
chapters.headline | string |
章節中所說內容的單句總結 |
|
總結
|
chapters.summary | string |
本章所說內容的一段摘要 |
|
開始
|
chapters.start | integer |
章節的開始時間 (以毫秒為單位) |
|
結束
|
chapters.end | integer |
章節的開始時間 (以毫秒為單位) |
|
已啟用摘要
|
summarization | boolean |
是否啟用摘要,為 true 或 false |
|
摘要類型
|
summary_type | string |
產生的摘要類型 (如果已啟用摘要) |
|
摘要模型
|
summary_model | string |
用來產生摘要的摘要模型 (如果已啟用摘要) |
|
總結
|
summary | string |
媒體檔案產生的摘要 (如果已啟用摘要) |
|
已啟用自訂主題
|
custom_topics | boolean |
是否啟用自訂主題,為 true 或 false |
|
主題
|
topics | array of string |
如果已啟用自訂主題,則提供的自訂主題清單 |
|
情感分析
|
sentiment_analysis | boolean |
是否啟用情緒分析,可以是 true 或 false |
|
情緒分析結果
|
sentiment_analysis_results | array of object |
情緒分析模型的結果陣列 (如果已啟用)。 如需詳細資訊,請參閱情緒分析。 |
|
文字
|
sentiment_analysis_results.text | string |
判決的文字記錄 |
|
開始
|
sentiment_analysis_results.start | integer |
句子的開始時間 (以毫秒為單位) |
|
結束
|
sentiment_analysis_results.end | integer |
句子的結束時間 (以毫秒為單位) |
|
情緒
|
sentiment_analysis_results.sentiment |
偵測到的句子情緒,POSITIVE、NEUTRAL、NEGATIVE 之一 |
|
|
信賴度
|
sentiment_analysis_results.confidence | double |
偵測到的句子情緒的信賴度分數,從 0 到 1 |
|
議長
|
sentiment_analysis_results.speaker | string |
如果已啟用 [說話者分類],則為句子的說話者,否則為 null |
|
實體偵測
|
entity_detection | boolean |
是否啟用實體偵測,可以是 true 或 false |
|
實體或單位
|
entities | array of object |
實體偵測模型的結果陣列 (如果已啟用)。 如需詳細資訊,請參閱實體偵測。 |
|
實體類型
|
entities.entity_type | string |
偵測到的實體的實體類型 |
|
文字
|
entities.text | string |
偵測到的實體的文字 |
|
開始
|
entities.start | integer |
偵測到的實體出現在音訊檔案中的開始時間 (以毫秒為單位) |
|
結束
|
entities.end | integer |
音訊檔案中偵測到的實體的結束時間 (以毫秒為單位) |
|
語音閾值
|
speech_threshold | float |
預設為 null。 拒絕包含少於此語音部分的音訊檔案。 有效值在 [0, 1] (含) 範圍內。 |
|
節流
|
throttled | boolean |
當要求受到節流時為 true,當要求不再節流時為 false |
|
錯誤
|
error | string |
文字記錄失敗原因的錯誤訊息 |
|
語言模型
|
language_model | string |
用於文字記錄的語言模型 |
|
聲學模型
|
acoustic_model | string |
用於文字記錄的聲學模型 |
句子回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
成績單 ID
|
id | uuid | |
|
信賴度
|
confidence | double | |
|
音訊持續時間
|
audio_duration | number | |
|
句子
|
sentences | array of object | |
|
文字
|
sentences.text | string | |
|
開始
|
sentences.start | integer | |
|
結束
|
sentences.end | integer | |
|
信賴度
|
sentences.confidence | double | |
|
字組
|
sentences.words | array of object | |
|
信賴度
|
sentences.words.confidence | double | |
|
開始
|
sentences.words.start | integer | |
|
結束
|
sentences.words.end | integer | |
|
文字
|
sentences.words.text | string | |
|
議長
|
sentences.words.speaker | string |
如果已啟用 [說話者分類],則為句子的說話者,否則為 null |
|
議長
|
sentences.speaker | string |
如果已啟用 [說話者分類],則為句子的說話者,否則為 null |
段落回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
成績單 ID
|
id | uuid | |
|
信賴度
|
confidence | double | |
|
音訊持續時間
|
audio_duration | number | |
|
Paragraphs
|
paragraphs | array of object | |
|
文字
|
paragraphs.text | string | |
|
開始
|
paragraphs.start | integer | |
|
結束
|
paragraphs.end | integer | |
|
信賴度
|
paragraphs.confidence | double | |
|
字組
|
paragraphs.words | array of object | |
|
信賴度
|
paragraphs.words.confidence | double | |
|
開始
|
paragraphs.words.start | integer | |
|
結束
|
paragraphs.words.end | integer | |
|
文字
|
paragraphs.words.text | string | |
|
議長
|
paragraphs.words.speaker | string |
如果已啟用 [說話者分類],則為句子的說話者,否則為 null |
|
議長
|
paragraphs.speaker | string |
如果已啟用 [說話者分類],則為句子的說話者,否則為 null |
成績單列表
成績單清單。 成績單從最新到最舊排序。 先前的 URL 一律指向具有較舊文字記錄的頁面。
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
限制
|
page_details.limit | integer |
此頁面僅限於結果數量 |
|
結果計數
|
page_details.result_count | integer |
頁面中的實際結果數目 |
|
目前的 URL
|
page_details.current_url | string |
用來擷取文字記錄目前頁面的 URL |
|
上一個網址
|
page_details.prev_url | string |
下一頁文字記錄的 URL。 先前的 URL 一律指向具有較舊文字記錄的頁面。 |
|
下一個網址
|
page_details.next_url | string |
下一頁文字記錄的 URL。 下一個 URL 一律指向具有較新文字記錄的頁面。 |
|
Transcripts
|
transcripts | array of object | |
|
ID
|
transcripts.id | uuid | |
|
資源 URL
|
transcripts.resource_url | string | |
|
地位
|
transcripts.status | string |
成績單的狀態。 可能的值為 queued、processing、completed 或 error。 |
|
已建立
|
transcripts.created | string | |
|
完成
|
transcripts.completed | string | |
|
音訊網址
|
transcripts.audio_url | string | |
|
錯誤
|
transcripts.error | string |
文字記錄失敗原因的錯誤訊息 |
已上傳檔案
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
上傳的檔案網址
|
upload_url | string |
指向您的音頻文件的 URL,只能由 AssemblyAI 的服務器訪問 |
PurgeLemurRequestDataResponse
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
清除要求識別碼
|
request_id | uuid |
LeMUR 請求的刪除請求的 ID |
|
LeMUR 請求 ID 清除
|
request_id_to_purge | uuid |
LeMUR 要求清除資料的 ID |
|
已刪除
|
deleted | boolean |
是否已刪除請求資料 |
狐猴任務回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
回應
|
response | string |
LeMUR 產生的回應。 |
|
LeMUR 請求 ID
|
request_id | uuid |
LeMUR 請求的 ID |
|
輸入權杖
|
usage.input_tokens | integer |
模型使用的輸入記號數目 |
|
輸出權杖
|
usage.output_tokens | integer |
模型產生的輸出權杖數目 |
狐猴回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
回應
|
response | string |
LeMUR 產生的回應。 |
|
LeMUR 請求 ID
|
request_id | uuid |
LeMUR 請求的 ID |
|
輸入權杖
|
usage.input_tokens | integer |
模型使用的輸入記號數目 |
|
輸出權杖
|
usage.output_tokens | integer |
模型產生的輸出權杖數目 |
字串
這是基本資料類型「string」。