共用方式為


Azure AI Content Understanding 影片解決方案 (預覽)

重要

  • Azure AI Content Understanding 可在預覽中取得。 公開預覽版本提供主動開發中功能的早期存取權。
  • 正式運作前的功能、方法和程式可以變更或具有有限的功能。
  • 如需詳細資訊,請參閱 Azure 預覽版Microsoft補充使用規定。

Azure AI Content Understanding 可讓您產生一組標準影片元數據,並使用產生模型的強大功能,為您的特定使用案例建立自定義字段。 Content Understanding 有助於有效率地管理、分類、擷取和建置影片資產的工作流程。 它可增強您的媒體資產庫、支援醒目提示產生、分類內容等工作流程,並協助應用程式,例如擷取增強世代(RAG)。

Content Understanding 影片處理流程的圖例。

預建的影片分析器會輸出適用於 RAG 的 Markdown,其中包括:

  • 抄本: 標準 WEBVTT 格式的內嵌文字記錄
  • 描述: 具有視覺和語音內容的自然語言區段描述
  • 分割: 自動場景分割將影片分成邏輯區塊
  • 主要畫面格: 已排序的主要畫面格縮圖,可進行更深入的分析

此格式可以直接放入向量存放區,以啟用代理程式或RAG工作流程,而不需要後續處理。

您可以從該處 自定義分析器 ,以更精細地控制輸出。 您可以定義自訂欄位、區段或啟用臉部識別。 自定義可讓您使用產生模型的完整功能,從影片的視覺和音訊詳細數據擷取深入解析。

例如,自訂可讓您:

  • 定義自定義欄位: 識別影片中看到或提及的產品和品牌。
  • 產生自定義區段: 根據所討論的主題或新聞故事,將新聞廣播分割成章節。
  • 使用人員目錄來識別人員,讓客戶使用臉部識別在鏡頭中標記會議演講者,例如、 CEO John DoeCFO Jane Smith

為什麼要對影片使用 Content Understanding?

影片的內容瞭解具有廣泛的潛在用途。 例如,您可以自定義元數據來標記訓練影片中的特定場景,讓員工更容易找到並重新流覽重要區段。 您也可以使用元數據自定義來識別促銷影片中的產品放置,這有助於行銷小組分析品牌曝光。 其他使用案例包括:

  • 廣播媒體和娛樂: 藉由為每個資產產生詳細的元數據,以管理大型的節目、電影和剪輯連結庫。
  • 教育與電子學習: 在教育影片或講座中編製索引並擷取特定時刻。
  • 公司訓練: 依重要主題、場景或重要時刻組織訓練影片。
  • 營銷和廣告: 分析促銷影片,以擷取產品位置、品牌外觀和重要訊息。

預先建置的影片分析器範例

使用預先建置的影片分析器 (prebuilt-videoAnalyzer),您可以上傳影片並立即取得可使用的知識資產。 此服務會將每個剪輯封裝成具有豐富格式的 Markdown 和 JSON。 此程式可讓您的搜尋索引或聊天代理程式內嵌,而不需要自定義黏附程序代碼。

  • 例如,建立基底 prebuilt-videoAnalyzer ,如下所示:

    {
      "config": {},
      "BaseAnalyzerId": "prebuilt-videoAnalyzer",
    }
    
  • 接下來,分析 30 秒的廣告影片會產生下列輸出:

       # Video: 00:00.000 => 00:30.000
       Width: 1280
       Height: 720
    
       ## Segment 1: 00:00.000 => 00:06.000
       A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Get new years ready.
    
       Key Frames
       - 00:00.600 ![](keyFrame.600.jpg)
       - 00:01.200 ![](keyFrame.1200.jpg)
    
       ## Segment 2: 00:06.000 => 00:10.080
       The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Go team!
    
       Key Frames
       - 00:06.200 ![](keyFrame.6200.jpg)
       - 00:07.080 ![](keyFrame.7080.jpg)
    
          *…additional data omitted for brevity…*
    

逐步解說

我們最近發佈了一篇關於使用 Content Understanding 於視頻中 RAG 的逐步解說。 https://www.youtube.com/watch?v=fafneWnT2kw&lc=Ugy2XXFsSlm7PgIsWQt4AaABAg

能力

  1. 內容提取
  2. 欄位擷取
  3. 臉部識別

在幕後,兩個階段會將原始圖元轉換成商務就緒見解。 下圖顯示如何藉由擷取來支持生成過程,確保每個下游步驟都具備所需的上下文。

影片分析器流程的螢幕快照。

服務會分兩個階段運作。 第一個階段的內容擷取牽涉到擷取基礎元數據,例如文字記錄、拍攝和臉部。 第二階段,欄位萃取,使用生成模型以建立自定義欄位並進行分割。 此外,您可以選擇性地啟用臉部附加元件來識別個人,並在影片中加以描述。

內容擷取功能

第一個階段主要是擷取一組初步細節——誰在說話、剪輯在哪裡,以及哪些面孔重複出現。 它會建立穩固的元數據骨幹,稍後的步驟可以在上面進行推理。

  • 轉錄: 以 WebVTT 格式將交談音訊轉換成可搜尋和可分析的文字記錄。 如果 "returnDetails": true 已設定,可以使用句子層級時間戳。 Content Understanding 支援一組完整的 Azure AI 語音語音轉換文字語言。 視訊語言支援的詳細數據與音訊相同,如需詳細資訊, 請參閱音訊語言處理 。 請考慮下列轉譯詳細數據:

    • Diarization: 在輸出中區分交談中的說話者,將文本記錄的不同部分分配給特定的說話者。

    • 多語系轉譯: 產生多語系文字記錄。 文字記錄中的每個片語會套用語言/地區設定。 當 "returnDetails": true 設定時,輸出片語。 當未指定語言/地區設定或將語言設定為 auto 時,即會啟用此功能,而非依賴語言偵測。

      備註

      使用多語系轉譯時,任何具有不支援地區設定的檔案都會根據最接近支援的地區設定產生結果,這可能是不正確的。 此結果是已知的行為。 避免轉錄質量問題,請確保在未使用支援多語系轉錄的語言區域設置時,正確配置語言區域設置!

    • 主要畫面格擷取: 從影片擷取主要畫面格,以完整呈現每個鏡頭,確保每個鏡頭有足夠的主要畫面格,讓字段擷取能夠有效運作。

    • 拍攝偵測: 識別視訊區段,並盡可能與拍攝界限對齊,允許精確編輯和重新封裝內容,並完全中斷現有的編輯。 輸出是 中的 cameraShotTimesMs時間戳清單,以毫秒為單位。 只有在設定 "returnDetails": true 後,才會傳回輸出。

欄位擷取和分割

接下來,生成模型透過標記場景、概括動作,以及根據您的要求將影片切割成片段,來層疊意義。 此動作是將提示轉變為結構化數據的過程。

自訂欄位

調整輸出以符合您的商務用語。 使用 fieldSchema 物件,其中每個項目都會定義欄位的名稱、類型和描述。 在執行時,生成模型會填滿每個區段的欄位。

範例:

  • 媒體資產管理:

    • 影片類別: 將編輯和製作人分類為新聞、體育、採訪、紀錄片、廣告等,協助編輯和製作人組織內容。適用於元數據標記和更快速的內容篩選和擷取。
    • 色彩配置: 傳達情緒和氣氛,對於敘事一致性和觀眾參與至關重要。 識別色彩主題有助於尋找加速視訊編輯的相符剪輯。
  • 廣告:

    • 品牌: 識別品牌存在,對於分析廣告影響、品牌可見度和與產品的關聯至關重要。 這項功能可讓廣告客戶評估品牌突出度,並確保遵守品牌指導方針。
    • 廣告類別: 依產業、產品類型或物件區段分類廣告類型,其支援目標廣告策略、分類和績效分析。

範例︰

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

分割模式

備註

設定分割會觸發欄位擷取,即使未定義任何字段也一樣。

Content Understanding 提供三種方式來切割影片,以取得完整影片或短片的所需輸出。 您可以在自訂分析器上設定 SegmentationMode 屬性,以使用這些選項。

  • 整個影片segmentationMode : noSegmentation 服務會將整個視訊檔案視為單一區段,並在整個期間擷取元數據。

    範例︰

    • 合規性檢查尋找於廣告中任一位置出現的特定品牌安全問題
    • 完整描述性摘要
  • 自動分割segmentationMode = auto 服務會分析時間軸,併為您細分時間軸。 將鏡頭分組成為連貫的場景,每個場景的長度上限為一分鐘。

    範例︰

    • 從影集建立分鏡腳本
    • 在適合的暫停點插入中插廣告。
  • 自訂分割segmentationMode : custom 您會以自然語言描述邏輯,而模型會建立要相符的區段。 以字串設定 segmentationDefinition ,描述您希望影片如何分割。 根據提示,自定義允許長度從秒到分鐘不等的區段。

    範例︰

    • 將新聞播報分成多個故事。
    {
      "segmentationMode": "custom",
      "segmentationDefinition": "news broadcasts divided by individual stories"
    }
    

臉部辨識和描述插件

備註

這項功能是有限的存取權,涉及臉部識別和群組;客戶必須在臉部辨識註冊存取權。 臉部功能會產生額外的成本。

臉部識別說明是一種附加功能,透過使用臉部資訊為內容擷取和欄位擷取提供上下文。

內容擷取 - 群組和識別

臉部附加元件使您可以在內容擷取部分產生群組和識別的結果。 若要啟用臉部功能,請在分析器組態中設定"enableFace":true

  • 分組: 影片中會群組顯示的臉部,從中擷取出代表每個人的臉部影像,並提供每人出現在影片中的區段。 群組臉部數據可作為元數據使用,而且可用於在分析器時 returnDetails: true 產生自定義的元數據欄位。
  • 識別: 根據人臉 API 的個人目錄,對影片中的個人加上姓名標籤。 客戶可以在分析器屬性的目前資源 personDirectoryId 中提供臉部 API 目錄的名稱,以啟用此功能。 若要使用這項功能,您必須先建立personDirectory,然後在分析器中參考它。 如需如何執行此動作的詳細資訊,請參閱 如何建置人員目錄

欄位擷取 – 臉部描述

欄位擷取功能可藉由在影片中提供已識別臉部的詳細描述來增強。 這項功能包括臉部毛髮、表情和名人的存在等屬性,這對於各種分析和編製索引目的至關重要。 若要啟用臉部描述功能,請在分析器配置中設定 disableFaceBlurring : true

範例:

  • 範例字段:emotionDescription:提供此剪輯中主要人員情感狀態的描述(例如、happysadangry
  • 範例字段:facialHairDescription:描述臉部頭髮的類型(例如、beardmustacheclean-shaven

重點優勢

相較於其他影片分析解決方案,Content Understanding 提供數個主要優點:

  • 以區段為基礎的多框架分析: 藉由分析每個視訊區段的多個畫面,而不是個別畫面,來識別動作、事件、主題和主題。
  • 客製化: 根據您的特定使用案例修改結構,客製化您設計的欄位和區段。
  • 再生模型: 以自然語言描述您想要擷取的內容,而 Content Understanding 會使用產生模型來擷取該元數據。
  • 優化的前置處理: 執行數個內容擷取前置處理步驟,例如轉譯和場景偵測,已優化以提供豐富的內容給 AI 產生模型。

技術約束和限制

要記住的具體視訊處理限制:

  • 畫面取樣 (~ 1 FPS):分析器會每秒檢查大約一個畫面。 快速動作或單幀事件可能會被忽略。
  • 幀解析度(512 × 512 像素):取樣的幀會調整大小為 512 × 512 像素。 小型文字或遠距物件可能會遺失。
  • 語音:只轉譯口語。 會忽略音樂、音效和環境噪音。

輸入需求

如需支援的格式,請參閱 服務配額和限制

支援的語言和區域

請參閱 語言和區域支援

資料隱私權和安全性

如同所有 Azure AI 服務,請檢閱Microsoft 的數據、保護和隱私權 檔。

重要

如果您處理 生物特徵辨識數據 (例如,啟用 臉部群組臉部識別),您必須符合 GDPR 或其他適用法律下的所有通知、同意和刪除需求。 請參閱 臉部的數據與隱私權

下一步