共用方式為


AssemblyAI(預覽版)

使用 AssemblyAI 的語音 AI 從音頻中轉錄和提取數據。

此連接器適用於以下產品和區域:

服務 Class Regions
副駕駛工作室 進階 除下列區域外的所有 Power Automate 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
邏輯應用程式 標準 所有 Logic Apps 區域, 但下列區域除外:
     - Azure Government 區域
     - Azure 中國區域
     - 美國國防部 (DoD)
Power Apps 進階 除下列區域外的所有 Power Apps 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
Power Automate(自動化服務) 進階 除下列區域外的所有 Power Automate 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
連絡人​​
名稱 Support
URL https://www.assemblyai.com/docs/
Email support@assemblyai.com
連接器中繼資料
Publisher 組裝AI
網站 https://www.assemblyai.com
隱私策略 https://www.assemblyai.com/legal/privacy-policy
類別 AI

透過 AssemblyAI 連接器,您可以使用 AssemblyAI 的模型來處理音訊數據,方法是使用語音辨識模型轉錄音訊資料,使用音訊智慧模型進行分析,並使用 LLM 在其基礎上建立生成功能。

  • 語音轉文字 包括許多可配置的功能,例如說話者分類、自定義拼寫、自定義詞彙等。
  • 音訊智慧模型是 透過轉錄設定提供和設定的其他 AI 模型。
  • LeMUR 可讓您將各種 LLM 模型套用至您的成績單,而無需為非常大的成績單建立自己的 RAG 基礎設施。

先決條件

您將需要以下內容才能繼續:

如何取得認證

您可以通過 註冊帳戶 並從 儀表板複製 API 密鑰來免費獲得 AssemblyAI API 密鑰。

開始使用連接器

請依照下列步驟,使用 AssemblyAI 連接器轉錄音訊。

上傳檔案

要使用 AssemblyAI 轉錄音頻文件,該文件需要可供 AssemblyAI 訪問。 如果您的音訊檔案已可透過 URL 存取,您可以使用現有的 URL。

否則,您可以使用該 Upload a File 動作將檔案上傳至 AssemblyAI。 您將返回文件的 URL,該 URL 只能用於使用您的 API 密鑰進行轉錄。 轉錄文件後,該文件將從 AssemblyAI 的服務器中刪除。

轉錄音頻

若要轉錄音訊,請 Audio URL 使用音訊檔案 URL 設定參數。 然後,設定其他參數以啟用更多 語音辨識 功能和 音訊智慧 模型。

轉錄音訊動作的結果是佇列的文字記錄,該文字記錄將立即開始處理。 若要取得完整的成績單,您有兩個選項:

  1. 處理文字記錄就緒的 Webhook
  2. 輪詢文字記錄狀態

處理文字記錄就緒的 Webhook

如果您不想使用 Logic Apps 或 Power Automate 來處理 Webhook,請在動作中Transcribe Audio設定Webhook URL參數,並遵循 AssemblyAI 的 Webhook 檔實作 Webhook

若要使用 Logic Apps 或 Power Automate 處理 Webhook,請遵循下列步驟:

  1. 建立個別的邏輯應用程式或 Power Automate 流程

  2. 設定 When an HTTP request is received 為觸發器:

    • Who Can Trigger The Flow? 設定為 Anyone
    • 設定 Request Body JSON Schema 為:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Method 設定為 POST
  3. 新增 AssemblyAI Get Transcript 動作,將 from transcript_id 觸發程式傳遞至 Transcript ID 參數。

  4. 在執行任何其他操作之前,您應該檢查 是 Statuscompleted 還是 error。 新增一個Condition動作,以檢查輸出中的 Get Transcript 是否Statuserror

    • 在分支中True,新增動作Terminate
      • 將 設定為StatusFailed
      • 將 設定為CodeTranscript Error
      • 將 從ErrorGet Transcript輸出傳遞至Message參數。
    • 您可以將分支留 False 空。

    現在,您可以在知道文字記錄狀態為 completed之後新增任何動作Condition,而且您可以擷取動作Get Transcript的任何輸出屬性。

  5. 儲存您的邏輯應用程式或流程。 將為觸發器產生When an HTTP request is receivedHTTP URL 複製 並 HTTP URL 返回原始邏輯應用程式或流程。

  6. 在原始邏輯應用程式或流程中,更新 Transcribe Audio 動作。 將您之前複製的粘 HTTP URL 貼到參數中 Webhook URL ,然後保存。

當文字記錄狀態變成 completederror時,AssemblyAI 會將 HTTP POST 要求傳送至 Webhook URL,這會由您的其他邏輯應用程式或流程處理。

作為使用 Webhook 的替代方案,您可以輪詢文字記錄狀態,如下一節所述。

輪詢文字記錄狀態

您可以使用下列步驟輪詢文字記錄狀態:

  • 新增 Initialize variable 動作

    • Name 設定為 transcript_status
    • Type 設定為 String
    • 將 from StatusTranscribe Audio 輸出儲存到參數中Value
  • 新增 Do until 動作

    • Loop Until使用下列 Fx 程式碼設定參數:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      這段程式碼會檢查變數是否 transcript_statuscompletederror或 。
    • 將參數設定 Count86400
    • 將參數設定 TimeoutPT24H

    在動作中 Do until ,新增下列動作:

    • 新增 Delay 等待一秒鐘的動作
    • 新增動作Get Transcript,並將 從IDTranscribe Audio輸出傳遞至Transcript ID參數。
    • 新增 Set variable 動作
      • Name 設定為 transcript_status
      • 將輸出的 Get Transcript 傳遞StatusValue參數

    循環將繼續 Do until ,直到文字記錄完成或發生錯誤為止。

  • 新增另一個 Get Transcript 動作,就像之前一樣,但在迴圈之後 Do until 新增它,使其輸出在動作範圍 Do until 之外可用。

在執行任何其他操作之前,您應該檢查成績單 Status 是否為 completederror或 。 新增一個 Condition 動作,檢查 是否 transcript_statuserror

  • 在分支中True,新增動作Terminate
    • Status 設定為 Failed
    • Code 設定為 Transcript Error
    • 將 從ErrorGet Transcript輸出傳遞至Message參數。
  • 您可以將分支留 False 空。

現在,您可以在知道文字記錄狀態為 completed之後新增任何動作Condition,而且您可以擷取動作Get Transcript的任何輸出屬性。

新增更多動作

現在您已經完成了轉錄,您可以使用傳入轉錄的許多 ID 其他動作,例如

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

已知問題與限制

目前沒有已知問題。 我們不支援串流語音 -To-Text (即時),因為無法使用自訂連接器。

常見錯誤和補救措施

您可以在 AssemblyAI 文件中找到有關錯誤的詳細資訊。

FAQ

您可以在 我們的文件中找到常見問題

正在建立連線

連接器支援下列驗證類型:

預設值 建立連線的參數。 所有區域 不可共享

預設

適用:所有地區

建立連線的參數。

這不是可共用的連線。 如果 Power App 與其他使用者共用,系統會明確提示其他使用者建立新連線。

名稱 類型 Description 為必填項目
AssemblyAI API 金鑰 securestring 用於驗證 AssemblyAI API 的 AssemblyAI API 金鑰。

節流限制

名稱 呼叫 續約期間
每個連線的 API 呼叫 100 60 秒

動作

上傳媒體檔案

將媒體檔案上傳到 AssemblyAI 的伺服器。

使用 LeMUR 執行任務

使用 LeMUR 任務端點輸入您自己的 LLM 提示。

列表成績單

擷取您建立的文字記錄清單。 成績單從最新到最舊排序。 先前的 URL 一律指向具有較舊文字記錄的頁面。

刪除文字記錄

刪除文字記錄。 刪除不會刪除資源本身,但會從資源中移除資料,並將其標示為已刪除。

取得已編輯的音訊

擷取已編輯的音訊物件,其中包含已編輯音訊的狀態和 URL。

取得文字記錄

取得文字記錄資源。 當「狀態」為「已完成」時,文字記錄就緒。

在成績單中獲取句子

取得按句子分割的文字記錄。 API 將嘗試在語義上將轉錄分成句子,以創建更易於讀者的轉錄。

在文字記錄中獲取段落

取得按段落分割的文字記錄。 API 將嘗試在語義上將您的轉錄分成段落,以創建更易於讀者的轉錄。

成績單中的搜尋字詞

在文字記錄中搜索關鍵字。 您可以搜尋包含最多五個單字或數字的單字、數字或片語。

擷取 LeMUR 回應

擷取先前產生的 LeMUR 回應。

清除 LeMUR 請求數據

刪除先前提交的 LeMUR 請求的資料。 LLM 回應資料以及原始請求中提供的任何內容都將被刪除。

獲取文字記錄的字幕

以 SRT 或 VTT 格式匯出您的文字記錄,以便與視訊播放器一起使用,以獲取字幕和隱藏式字幕。

轉錄音頻

從可透過 URL 存取的媒體檔案建立文字記錄。

上傳媒體檔案

將媒體檔案上傳到 AssemblyAI 的伺服器。

參數

名稱 機碼 必要 類型 Description
檔案內容
file True binary

要上傳的檔案。

傳回

身體
UploadedFile

使用 LeMUR 執行任務

使用 LeMUR 任務端點輸入您自己的 LLM 提示。

參數

名稱 機碼 必要 類型 Description
Prompt
prompt True string

提示模型產生所需輸出的文字,包括您想要傳遞至模型的任何內容。

成績單 ID
transcript_ids array of uuid

已完成的文字記錄清單。 最多 100 個檔案或 100 小時,以較低者為準。 使用 transcript_ids 或 input_text 作為 LeMUR 的輸入。

輸入文字
input_text string

自訂格式的文字記錄資料。 最大大小是所選模型的前後關聯限制,預設為 100000。 使用 transcript_ids 或 input_text 作為 LeMUR 的輸入。

上下文
context string

內容來提供模型。 這可以是字串或自由格式的 JSON 值。

最終模型
final_model string

執行壓縮後用於最終提示的模型。

最大輸出大小
max_output_size integer

以代幣為單位的最大輸出大小,最多 4000

溫度
temperature float

要用於模型的溫度。 值越高,答案越有創意,值越低,答案越保守。 可以是介於 0.0 到 1.0 之間的任何值(含)。

傳回

列表成績單

擷取您建立的文字記錄清單。 成績單從最新到最舊排序。 先前的 URL 一律指向具有較舊文字記錄的頁面。

參數

名稱 機碼 必要 類型 Description
限制
limit integer

要擷取的文字記錄數量上限

地位
status string

成績單的狀態。 可能的值為 queued、processing、completed 或 error。

創建日期
created_on date

僅取得在此日期建立的文字記錄

身分證之前
before_id uuid

取得在此文字記錄 ID 之前建立的文字記錄

識別後
after_id uuid

取得在此文字記錄 ID 之後建立的文字記錄

僅限流
throttled_only boolean

僅取得節流的文字記錄,覆寫狀態篩選

傳回

成績單清單。 成績單從最新到最舊排序。 先前的 URL 一律指向具有較舊文字記錄的頁面。

刪除文字記錄

刪除文字記錄。 刪除不會刪除資源本身,但會從資源中移除資料,並將其標示為已刪除。

參數

名稱 機碼 必要 類型 Description
成績單 ID
transcript_id True string

成績單的 ID

傳回

文字記錄物件

身體
Transcript

取得已編輯的音訊

擷取已編輯的音訊物件,其中包含已編輯音訊的狀態和 URL。

參數

名稱 機碼 必要 類型 Description
成績單 ID
transcript_id True string

成績單的 ID

傳回

取得文字記錄

取得文字記錄資源。 當「狀態」為「已完成」時,文字記錄就緒。

參數

名稱 機碼 必要 類型 Description
成績單 ID
transcript_id True string

成績單的 ID

傳回

文字記錄物件

身體
Transcript

在成績單中獲取句子

取得按句子分割的文字記錄。 API 將嘗試在語義上將轉錄分成句子,以創建更易於讀者的轉錄。

參數

名稱 機碼 必要 類型 Description
成績單 ID
transcript_id True string

成績單的 ID

傳回

在文字記錄中獲取段落

取得按段落分割的文字記錄。 API 將嘗試在語義上將您的轉錄分成段落,以創建更易於讀者的轉錄。

參數

名稱 機碼 必要 類型 Description
成績單 ID
transcript_id True string

成績單的 ID

傳回

成績單中的搜尋字詞

在文字記錄中搜索關鍵字。 您可以搜尋包含最多五個單字或數字的單字、數字或片語。

參數

名稱 機碼 必要 類型 Description
成績單 ID
transcript_id True string

成績單的 ID

字組
words True array

要搜尋的關鍵字

傳回

擷取 LeMUR 回應

擷取先前產生的 LeMUR 回應。

參數

名稱 機碼 必要 類型 Description
LeMUR 請求 ID
request_id True string

您先前提出的 LeMUR 請求的 ID。 這將在原始請求的回應中找到。

傳回

身體
LemurResponse

清除 LeMUR 請求數據

刪除先前提交的 LeMUR 請求的資料。 LLM 回應資料以及原始請求中提供的任何內容都將被刪除。

參數

名稱 機碼 必要 類型 Description
LeMUR 請求 ID
request_id True string

您要刪除其資料的 LeMUR 請求的 ID。 這將在原始請求的回應中找到。

傳回

獲取文字記錄的字幕

以 SRT 或 VTT 格式匯出您的文字記錄,以便與視訊播放器一起使用,以獲取字幕和隱藏式字幕。

參數

名稱 機碼 必要 類型 Description
成績單 ID
transcript_id True string

成績單的 ID

字幕格式
subtitle_format True string

字幕格式

每個標題的字元數
chars_per_caption integer

每個標題的字元數上限

傳回

response
string

轉錄音頻

從可透過 URL 存取的媒體檔案建立文字記錄。

參數

名稱 機碼 必要 類型 Description
音訊網址
audio_url True string

要轉錄的音訊或視訊檔案的 URL。

語言代碼
language_code string

音訊檔案的語言。 可能的值可在支援的語言中找到。 預設值為 'en_us'。

語言偵測
language_detection boolean

啟用自動語言偵測,true 或 false。

語音模型
speech_model string

要用於轉錄的語音模型。

標點符號
punctuate boolean

啟用自動標點符號,可以是 true 或 false

格式化文字
format_text boolean

啟用文字格式,可以是 true 或 false

不流暢
disfluencies boolean

在您的媒體文件中轉錄填充詞,例如“嗯”;可以是真,也可以是假

雙通道
dual_channel boolean

啟用雙通道轉錄,可以是 true 或 false。

Webhook 網址
webhook_url string

我們傳送 Webhook 請求的 URL。 我們傳送兩種不同類型的 Webhook 請求。 當文字記錄完成或失敗時發出一個請求,如果啟用了編輯音訊,則在編輯的音訊準備就緒時發出一個請求redact_pii_audio。

Webhook 驗證標頭名稱
webhook_auth_header_name string

要與文字記錄已完成或失敗的 Webhook 請求一起傳送的標頭名稱

Webhook 驗證標頭值
webhook_auth_header_value string

要與文字記錄已完成或失敗的 Webhook 請求一起傳回的標頭值,以增加安全性

關鍵詞組
auto_highlights boolean

啟用關鍵詞組,true 或 false

音訊開始
audio_start_from integer

開始在媒體檔案中轉錄的時間點 (以毫秒為單位)

音訊結束於
audio_end_at integer

停止在媒體檔案中轉錄的時間點 (以毫秒為單位)

單詞提升
word_boost array of string

自訂詞彙清單,以提高轉錄機率

單詞提升級別
boost_param string

提升指定字詞多少

過濾褻瀆
filter_profanity boolean

從轉錄的文字中篩選髒話,可以是 true 或 false

編輯 PII
redact_pii boolean

使用編輯 PII 模型從轉錄文字中編輯 PII,可以是 true 或 false

編輯 PII 音訊
redact_pii_audio boolean

生成原始媒體檔案的副本,並發出語音 PII「嗶嗶聲」,可以是 true 或 false。 如需詳細資訊,請參閱 PII 編輯。

編輯 PII 音訊品質
redact_pii_audio_quality string

控制redact_pii_audio所建立音訊的檔案類型。 目前支援mp3(預設)和wav。 如需詳細資訊,請參閱 PII 編輯。

編輯 PII 政策
redact_pii_policies array of string

要啟用的 PII 編輯政策清單。 如需詳細資訊,請參閱 PII 編輯。

編輯 PII 替換
redact_pii_sub string

偵測到 PII 的替換邏輯可以是「entity_name」或「雜湊」。 如需詳細資訊,請參閱 PII 編輯。

揚聲器標籤
speaker_labels boolean

啟用說話者分類,可以是 true 或 false

預計演講者
speakers_expected integer

告知說話者標籤模型應該嘗試識別多少個說話者,最多 10 個。 如需詳細資訊,請參閱說話者分類。

內容審核
content_safety boolean

啟用內容審核,可以是 true 或 false

內容審核信心
content_safety_confidence integer

內容審核模型的信賴度臨界值。 值必須介於 25 到 100 之間。

主題偵測
iab_categories boolean

啟用主題偵測,可以是 true 或 false

寄件者
from True array of string

要取代的字詞或片語

發往
to True string

要取代的單字或片語

情感分析
sentiment_analysis boolean

啟用情緒分析,可以是 true 或 false

自動章節
auto_chapters boolean

啟用自動章節,可以是 true 或 false

實體偵測
entity_detection boolean

啟用實體偵測,可以是 true 或 false

語音閾值
speech_threshold float

拒絕包含少於此語音部分的音訊檔案。 有效值在 [0, 1] (含) 範圍內。

啟用摘要
summarization boolean

啟用摘要,可以是 true 或 false

摘要模型
summary_model string

總結文字記錄的模型

摘要類型
summary_type string

摘要類型

啟用自訂主題
custom_topics boolean

啟用自訂主題,true 或 false

自訂主題
topics array of string

自訂主題清單

傳回

文字記錄物件

身體
Transcript

定義

已編輯音訊回應

名稱 路徑 類型 Description
地位
status string

已編輯音訊的狀態

已編輯的音訊 URL
redacted_audio_url string

已編輯音訊檔案的 URL

WordSearch回應

名稱 路徑 類型 Description
成績單 ID
id uuid

文字記錄的 ID

比賽總數
total_count integer

所有相符執行個體的總計數。 例如,單字 1 匹配 2 次,單字 2 匹配 3 次,total_count 將等於 5。

相符
matches array of object

搜尋的相符項

文字
matches.text string

相符的單字

Count
matches.count integer

單字在文字記錄中的總次數

時間戳記
matches.timestamps array of array

時間戳記陣列

時間戳
matches.timestamps array of integer

結構為 [start_time, end_time] 的時間戳記陣列,以毫秒為單位

Indexes
matches.indexes array of integer

已完成文字記錄的單字陣列中該單字的所有索引位置的陣列

文字記錄

文字記錄物件

名稱 路徑 類型 Description
ID
id uuid

成績單的唯一識別碼

音訊網址
audio_url string

轉錄媒體的 URL

地位
status string

成績單的狀態。 可能的值為 queued、processing、completed 或 error。

語言代碼
language_code string

音訊檔案的語言。 可能的值可在支援的語言中找到。 預設值為 'en_us'。

語言偵測
language_detection boolean

是否啟用自動語言偵測,為 true 或 false

語音模型
speech_model string

要用於轉錄的語音模型。

文字
text string

媒體檔案的文字記錄

字組
words array of object

時間順序單字物件的陣列,文字記錄中的每個單字各一個。 如需詳細資訊,請參閱語音辨識。

信賴度
words.confidence double
開始
words.start integer
結束
words.end integer
文字
words.text string
議長
words.speaker string

如果已啟用 [說話者分類],則為句子的說話者,否則為 null

表達方式
utterances array of object

啟用dual_channel或speaker_labels時,會是逐步陳述物件的清單。 如需詳細資訊,請參閱說話者分類。

信賴度
utterances.confidence double

此話語文字記錄的信賴分數

開始
utterances.start integer

音訊檔案中話語的開始時間 (以毫秒為單位)

結束
utterances.end integer

音訊檔案中話語的結束時間 (以毫秒為單位)

文字
utterances.text string

此話語的文字

字組
utterances.words array of object

話語中的話。

信賴度
utterances.words.confidence double
開始
utterances.words.start integer
結束
utterances.words.end integer
文字
utterances.words.text string
議長
utterances.words.speaker string

如果已啟用 [說話者分類],則為句子的說話者,否則為 null

議長
utterances.speaker string

此話語的說話者,其中每個說話者都會被分配一個連續的大寫字母 - 例如,“A”代表說話者 A,“B”代表說話者 B,等等。

信賴度
confidence double

文字記錄的信賴分數,介於 0.0 (低信賴度) 和 1.0 (高信賴度) 之間

音訊持續時間
audio_duration integer

此轉錄物件媒體檔案的持續時間 (以秒為單位)

標點符號
punctuate boolean

是否啟用自動標點符號,為 true 或 false

格式化文字
format_text boolean

是否啟用「文字格式」,為 true 或 false

不流暢
disfluencies boolean

在您的媒體文件中轉錄填充詞,例如“嗯”;可以是真,也可以是假

雙通道
dual_channel boolean

是否在轉錄請求中啟用雙通道轉錄,為 true 或 false

Webhook 網址
webhook_url string

我們傳送 Webhook 請求的 URL。 我們傳送兩種不同類型的 Webhook 請求。 當文字記錄完成或失敗時發出一個請求,如果啟用了編輯音訊,則在編輯的音訊準備就緒時發出一個請求redact_pii_audio。

Webhook HTTP 狀態碼
webhook_status_code integer

如果提供了 Webhook URL,則我們在傳遞文字記錄完成或失敗的 Webhook 請求時從您的伺服器收到的狀態碼

已啟用Webhook驗證
webhook_auth boolean

是否提供 Webhook 驗證詳細資料

Webhook 驗證標頭名稱
webhook_auth_header_name string

要與文字記錄已完成或失敗的 Webhook 請求一起傳送的標頭名稱

速度提升
speed_boost boolean

是否啟用速度提升

關鍵詞組
auto_highlights boolean

是否啟用關鍵詞組,為 true 或 false

地位
auto_highlights_result.status string

成功,或在模型失敗的極少數情況下無法使用

Results
auto_highlights_result.results array of object

按時間順序排列的關鍵短語陣列

Count
auto_highlights_result.results.count integer

關鍵詞組在音訊檔案中出現的總次數

等級
auto_highlights_result.results.rank float

與該關鍵短語的整體音頻文件的總相關性 - 數字越大意味著更相關

文字
auto_highlights_result.results.text string

關鍵詞組的文本本身

時間戳記
auto_highlights_result.results.timestamps array of object

關鍵詞組的時間戳記

開始
auto_highlights_result.results.timestamps.start integer

開始時間(以毫秒為單位)

結束
auto_highlights_result.results.timestamps.end integer

結束時間(以毫秒為單位)

音訊開始
audio_start_from integer

開始轉錄的檔案中的時間點 (以毫秒為單位)

音訊結束於
audio_end_at integer

檔案中終止轉錄的時間點 (以毫秒為單位)

單詞提升
word_boost array of string

自訂詞彙清單,以提高轉錄機率

促進
boost_param string

單字提升參數值

過濾褻瀆
filter_profanity boolean

是否已啟用褻瀆過濾,true 或 false

編輯 PII
redact_pii boolean

是否啟用 PII 編輯,為 true 或 false

編輯 PII 音訊
redact_pii_audio boolean

是否生成了音頻文件的編輯版本,是 true 還是 false。 如需詳細資訊,請參閱 PII 編輯。

編輯 PII 音訊品質
redact_pii_audio_quality string

控制redact_pii_audio所建立音訊的檔案類型。 目前支援mp3(預設)和wav。 如需詳細資訊,請參閱 PII 編輯。

編輯 PII 政策
redact_pii_policies array of string

如果已啟用 PII 密文,則已啟用的 PII 密文政策清單。 如需詳細資訊,請參閱 PII 編輯。

編輯 PII 替換
redact_pii_sub string

偵測到 PII 的替換邏輯可以是「entity_name」或「雜湊」。 如需詳細資訊,請參閱 PII 編輯。

揚聲器標籤
speaker_labels boolean

是否啟用說話者分類,可以是 true 或 false

預計演講者
speakers_expected integer

告訴喇叭標籤模型應該嘗試識別多少個喇叭,最多 10 個。 如需詳細資訊,請參閱說話者分類。

內容審核
content_safety boolean

是否啟用內容審核,可以是 true 或 false

地位
content_safety_labels.status string

成功,或在模型失敗的極少數情況下無法使用

Results
content_safety_labels.results array of object
文字
content_safety_labels.results.text string

內容審核模型所標示之區段的文字記錄

Labels
content_safety_labels.results.labels array of object

安全標籤陣列,每個在區段中偵測到的敏感主題一個

標籤
content_safety_labels.results.labels.label string

敏感主題的標籤

信賴度
content_safety_labels.results.labels.confidence double

所討論主題的信賴分數,從 0 到 1

Severity
content_safety_labels.results.labels.severity double

該部分討論該主題的嚴重程度,從 0 到 1

句子索引開始
content_safety_labels.results.sentences_idx_start integer

該節開始的句子索引

句子索引結尾
content_safety_labels.results.sentences_idx_end integer

區段結尾的句子索引

開始
content_safety_labels.results.timestamp.start integer

開始時間(以毫秒為單位)

結束
content_safety_labels.results.timestamp.end integer

結束時間(以毫秒為單位)

總結
content_safety_labels.summary object

整個音訊檔案的內容審核信賴度結果摘要

嚴重性分數摘要
content_safety_labels.severity_score_summary object

整個音訊檔案的內容審核嚴重性結果摘要

主題偵測
iab_categories boolean

是否啟用主題偵測,可以是 true 或 false

地位
iab_categories_result.status string

成功,或在模型失敗的極少數情況下無法使用

Results
iab_categories_result.results array of object

主題偵測模型的結果陣列

文字
iab_categories_result.results.text string

文字記錄中偵測到的主題發生的文字

Labels
iab_categories_result.results.labels array of object
相關性
iab_categories_result.results.labels.relevance double

偵測到的主題與偵測到的主題的相關性

標籤
iab_categories_result.results.labels.label string

偵測到主題標籤的IAB分類標籤,其中 > 表示超主題/子主題關係

開始
iab_categories_result.results.timestamp.start integer

開始時間(以毫秒為單位)

結束
iab_categories_result.results.timestamp.end integer

結束時間(以毫秒為單位)

總結
iab_categories_result.summary object

主題與整個音訊檔案的整體相關性

自訂拼字
custom_spelling array of object

使用 to 和 from 值自訂單字的拼字和格式化方式

寄件者
custom_spelling.from array of string

要取代的字詞或片語

發往
custom_spelling.to string

要取代的單字或片語

啟用自動章節
auto_chapters boolean

是否啟用自動章節,可以是 true 或 false

章節
chapters array of object

音訊檔案的時間順序章節陣列

要旨
chapters.gist string

對章節所說內容的超簡摘要(短短幾句話)

chapters.headline string

章節中所說內容的單句總結

總結
chapters.summary string

本章所說內容的一段摘要

開始
chapters.start integer

章節的開始時間 (以毫秒為單位)

結束
chapters.end integer

章節的開始時間 (以毫秒為單位)

已啟用摘要
summarization boolean

是否啟用摘要,為 true 或 false

摘要類型
summary_type string

產生的摘要類型 (如果已啟用摘要)

摘要模型
summary_model string

用來產生摘要的摘要模型 (如果已啟用摘要)

總結
summary string

媒體檔案產生的摘要 (如果已啟用摘要)

已啟用自訂主題
custom_topics boolean

是否啟用自訂主題,為 true 或 false

主題
topics array of string

如果已啟用自訂主題,則提供的自訂主題清單

情感分析
sentiment_analysis boolean

是否啟用情緒分析,可以是 true 或 false

情緒分析結果
sentiment_analysis_results array of object

情緒分析模型的結果陣列 (如果已啟用)。 如需詳細資訊,請參閱情緒分析。

文字
sentiment_analysis_results.text string

判決的文字記錄

開始
sentiment_analysis_results.start integer

句子的開始時間 (以毫秒為單位)

結束
sentiment_analysis_results.end integer

句子的結束時間 (以毫秒為單位)

情緒
sentiment_analysis_results.sentiment

偵測到的句子情緒,POSITIVE、NEUTRAL、NEGATIVE 之一

信賴度
sentiment_analysis_results.confidence double

偵測到的句子情緒的信賴度分數,從 0 到 1

議長
sentiment_analysis_results.speaker string

如果已啟用 [說話者分類],則為句子的說話者,否則為 null

實體偵測
entity_detection boolean

是否啟用實體偵測,可以是 true 或 false

實體或單位
entities array of object

實體偵測模型的結果陣列 (如果已啟用)。 如需詳細資訊,請參閱實體偵測。

實體類型
entities.entity_type string

偵測到的實體的實體類型

文字
entities.text string

偵測到的實體的文字

開始
entities.start integer

偵測到的實體出現在音訊檔案中的開始時間 (以毫秒為單位)

結束
entities.end integer

音訊檔案中偵測到的實體的結束時間 (以毫秒為單位)

語音閾值
speech_threshold float

預設為 null。 拒絕包含少於此語音部分的音訊檔案。 有效值在 [0, 1] (含) 範圍內。

節流
throttled boolean

當要求受到節流時為 true,當要求不再節流時為 false

錯誤
error string

文字記錄失敗原因的錯誤訊息

語言模型
language_model string

用於文字記錄的語言模型

聲學模型
acoustic_model string

用於文字記錄的聲學模型

句子回應

名稱 路徑 類型 Description
成績單 ID
id uuid
信賴度
confidence double
音訊持續時間
audio_duration number
句子
sentences array of object
文字
sentences.text string
開始
sentences.start integer
結束
sentences.end integer
信賴度
sentences.confidence double
字組
sentences.words array of object
信賴度
sentences.words.confidence double
開始
sentences.words.start integer
結束
sentences.words.end integer
文字
sentences.words.text string
議長
sentences.words.speaker string

如果已啟用 [說話者分類],則為句子的說話者,否則為 null

議長
sentences.speaker string

如果已啟用 [說話者分類],則為句子的說話者,否則為 null

段落回應

名稱 路徑 類型 Description
成績單 ID
id uuid
信賴度
confidence double
音訊持續時間
audio_duration number
Paragraphs
paragraphs array of object
文字
paragraphs.text string
開始
paragraphs.start integer
結束
paragraphs.end integer
信賴度
paragraphs.confidence double
字組
paragraphs.words array of object
信賴度
paragraphs.words.confidence double
開始
paragraphs.words.start integer
結束
paragraphs.words.end integer
文字
paragraphs.words.text string
議長
paragraphs.words.speaker string

如果已啟用 [說話者分類],則為句子的說話者,否則為 null

議長
paragraphs.speaker string

如果已啟用 [說話者分類],則為句子的說話者,否則為 null

成績單列表

成績單清單。 成績單從最新到最舊排序。 先前的 URL 一律指向具有較舊文字記錄的頁面。

名稱 路徑 類型 Description
限制
page_details.limit integer

此頁面僅限於結果數量

結果計數
page_details.result_count integer

頁面中的實際結果數目

目前的 URL
page_details.current_url string

用來擷取文字記錄目前頁面的 URL

上一個網址
page_details.prev_url string

下一頁文字記錄的 URL。 先前的 URL 一律指向具有較舊文字記錄的頁面。

下一個網址
page_details.next_url string

下一頁文字記錄的 URL。 下一個 URL 一律指向具有較新文字記錄的頁面。

Transcripts
transcripts array of object
ID
transcripts.id uuid
資源 URL
transcripts.resource_url string
地位
transcripts.status string

成績單的狀態。 可能的值為 queued、processing、completed 或 error。

已建立
transcripts.created string
完成
transcripts.completed string
音訊網址
transcripts.audio_url string
錯誤
transcripts.error string

文字記錄失敗原因的錯誤訊息

已上傳檔案

名稱 路徑 類型 Description
上傳的檔案網址
upload_url string

指向您的音頻文件的 URL,只能由 AssemblyAI 的服務器訪問

PurgeLemurRequestDataResponse

名稱 路徑 類型 Description
清除要求識別碼
request_id uuid

LeMUR 請求的刪除請求的 ID

LeMUR 請求 ID 清除
request_id_to_purge uuid

LeMUR 要求清除資料的 ID

已刪除
deleted boolean

是否已刪除請求資料

狐猴任務回應

名稱 路徑 類型 Description
回應
response string

LeMUR 產生的回應。

LeMUR 請求 ID
request_id uuid

LeMUR 請求的 ID

輸入權杖
usage.input_tokens integer

模型使用的輸入記號數目

輸出權杖
usage.output_tokens integer

模型產生的輸出權杖數目

狐猴回應

名稱 路徑 類型 Description
回應
response string

LeMUR 產生的回應。

LeMUR 請求 ID
request_id uuid

LeMUR 請求的 ID

輸入權杖
usage.input_tokens integer

模型使用的輸入記號數目

輸出權杖
usage.output_tokens integer

模型產生的輸出權杖數目

字串

這是基本資料類型「string」。