共用方式為


取得媒體轉譯、翻譯和語言識別見解

媒體轉譯、翻譯和語言識別

轉譯、翻譯和語言識別會偵測、轉譯,並將媒體檔案中的語音翻譯成超過 50 種語言。

Azure AI 影片索引器 (VI) 會處理音訊檔案中的語音,以擷取轉譯,然後轉譯成多種語言。 選取翻譯為特定語言時,轉譯和深入解析 (例如關鍵字、主題、標籤或 OCR) 都會翻譯成指定的語言。 轉譯可以像往常一樣使用,也可以與對應文字記錄並指派給說話者的說話者深入解析結合。 可以在音訊檔案中偵測到多個說話者。 識別碼會指派給每個說話者,並顯示在其轉譯語音底下。

語言識別 (LID) 可辨識影片檔案中支持的主導口語語言。 如需詳細資訊,請參閱套用 LID

多語言識別 (MLID) 會自動辨識音訊檔案中不同區段中的口語,並傳送要以識別語言轉譯的每個區段。 在此程序結束時,所有轉譯都會合併至相同檔案。 如需詳細資訊,請參閱套用 MLID。 產生的深入解析會在 JSON 檔案的分類清單中產生,其中包含標識碼、語言、轉譯文字、持續時間和信賴分數。

使用多個說話者為媒體檔案編製索引時,Azure AI 影片索引器會執行說話者讀音,以識別視訊中的每個說話者,並將每個轉譯的行屬性都轉譯為喇叭。 說話者會獲得唯一的身分識別,例如說話者 #1 和說話者 #2。 這可讓您在交談期間識別說話者,並可用於各種案例,例如醫生-病患交談、代理客戶互動和法庭訴訟。

媒體轉譯、翻譯和語言識別使用案例

  • 使用 Azure AI Video Indexer 產生語音轉換文字轉譯和翻譯成多種語言,為聽力障礙人士提供內容,藉此提升可及性。
  • 使用 Azure AI Video Indexer 的轉譯和翻譯功能,以多種語言傳遞內容,改善對於不同區域和語言的各種對象的內容散發。
  • 使用 Azure AI 影片索引器轉譯和翻譯功能,以及使用 Azure AI 影片索引器以其中一種支援格式產生的隱藏式輔助字幕,來增強和改善手動隱藏式輔助字幕產生。
  • 使用語言識別 (LID) 或多語言識別 (MLID) 來轉譯未知語言的影片,讓 Azure AI Video Indexer 自動識別影片中顯示的語言,並據以產生轉譯。

使用入口網站檢視深入解析 JSON

上傳影片並編製索引之後,您可以使用入口網站以 JSON 格式下載深入解析。

  1. 選取 [連結 庫] 索引標籤
  2. 選取您想要使用的媒體。
  3. 選取 [下載] 和 [深入解析] [JSON]。 JSON 檔案會在新的瀏覽器索引標籤開啟。
  4. 尋找範例回應中所述的密鑰組。

使用 API

  1. 使用取得 影片索引 要求。 我們建議傳遞 &includeSummarizedInsights=false
  2. 尋找範例回應中所述的密鑰組。

範例回應

影片中偵測到的所有語言都位於sourceLanauge底下,而轉譯 sectin 中的每個實例都包含已描述的語言。

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

重要

請務必閱讀 所有 VI 功能的透明度附注概觀 。 每個深入解析也有自己的透明度注意事項:

轉譯、翻譯和語言識別筆記

在負責任且謹慎地使用時,Azure AI Video Indexer 是許多產業的寶貴工具。 您必須一律尊重他人的隱私權和安全,並遵守當地和全球法規。 我們建議:

  • 仔細考慮結果的正確性,促進更精確的數據,檢查音訊的品質,低品質音訊可能會影響偵測到的深入解析。
  • 影片索引器不會執行說話者辨識,因此不會將說話者指派給多個檔案的標識符。 您無法在多個檔案或文字記錄中搜尋個別說話者。
  • 說話者識別碼會隨機指派,而且只能用來區分單一檔案中的不同說話者。
  • 對談和重疊的語音:當多個說話者同時說話或互相打斷時,模型很難準確區分並指派正確的文字給對應的說話者。
  • 說話者重疊:有時候,說話者可能會有類似的語音模式、口音或使用類似的詞彙,使得模型難以區分它們。
  • 音訊雜訊:音訊品質差、背景雜訊或低質量錄音可能會妨礙模型正確識別和轉譯說話者的能力。
  • 情緒性語音:語音中的情感變化,例如喊叫、哭泣或極端興奮,可能會影響模型準確區分說話者的能力。
  • 說話者偽裝或模擬:如果說話者刻意嘗試模仿或偽裝其聲音,模型可能會誤判說話者。
  • 模棱兩可的說話者識別:某些語音區段可能沒有足夠的獨特特性讓模型自信地歸因於特定說話者。
  • 包含您所選取語言以外的音訊會產生非預期的結果。
  • 偵測每個語言的最社區段長度為15秒。
  • 語言偵測位移平均為3秒。
  • 語音必須是連續的。 語言之間的頻繁交替可能會影響模型的效能。
  • 非原生說話者的語音可能會影響模型的效能(例如,當說話者使用他們的第一種語言,並切換到另一種語言時)。
  • 此模型的設計目的是使用合理的音訊原音辨識自發的對話語音(不是語音命令、唱歌等)。
  • 專案建立和編輯不適用於多語言影片。
  • 使用多語言偵測時,無法使用自定義語言模型。
  • 不支援新增關鍵詞。
  • 導出的隱藏式輔助字幕檔案中未包含語言指示。
  • API 中的更新文字記錄不支援多種語言檔案。
  • 此模型的設計目的是辨識自發性對話語音 (非語音命令、唱歌等)。
  • 如果 Azure AI Video Indexer 無法識別信賴度夠高的語言 (大於 0.6),則後援語言為英語。

以下是支持的語言清單

轉譯、翻譯和語言識別元件

在轉譯、翻譯和語言識別程序期間,會處理媒體檔案中的語音,如下所示:

元件 定義
來源語言 使用者上傳要編製索引的來源檔案,並且:
- 指定影片來源語言。
- 選取自動偵測單一語言 (LID) 以識別檔案的語言。 輸出會個別儲存。
- 選取自動偵測多語言 (MLID) 以識別檔案中的多個語言。 每個語言的輸出會個別儲存。
轉譯 API 音訊檔案會傳送至 Azure AI 服務以取得已轉譯和翻譯的輸出。 如果指定語言,則會據以處理。 如果未指定任何語言,則會執行 LID 或 MLID 程序來識別檔案處理之後的語言。
輸出統一 轉譯和翻譯的檔案會整合到相同的檔案中。 輸出的資料包含每個擷取句子的說話者識別碼,以及其信賴度等級。
信賴度值 每個句子的估計信賴度等級會以 0 到 1 的範圍計算。 信賴度分數代表結果正確性的確定性。 例如,82% 的確定性會以分數 0.82 表示。

範例指令碼

查看 VI 的所有範例