Azure AI Video Indexer 深入解析

發行項
10/09/2024

當影片編製索引時，Azure AI 影片索引器會執行 30 個以上的 AI 模型來分析視訊和音訊內容，併產生包含影片見解的 JSON，包括文字記錄、光學字元辨識元素（OCR）、臉部、主題、表情等。每個深入解析類型都包含時間範圍的實例，這些實例會在影片中顯示深入解析時顯示。

使用深入解析數據表中的連結，瞭解如何在入口網站中使用 API 取得每個深入解析 JSON 回應。

深入解析

深入解析	描述
臉部偵測	臉部偵測會偵測媒體檔案中的臉部，然後將類似臉部的實例匯總成群組。臉部偵測深入解析會在 JSON 檔案中產生為分類清單，其中包含縮圖和每個臉部的名稱或標識符。在入口網站中，選取臉部的縮圖會顯示資訊，例如人員名稱（如果被辨識）、該人員出現的視訊百分比，以及該人員的傳記，如果是名人。您也可以在人員出現的影片中的執行個體之間捲動。
標籤識別	標籤識別是 Azure AI Video Indexer AI 功能，可識別出現在媒體檔案之影片畫面中，如視覺物件 (太陽眼鏡) 或動作 (游泳) 等。有許多標籤辨識類別，擷取後，標籤識別執行個體會顯示在 [深入解析] 索引標籤中，並且可以翻譯成 50 多種語言。按一下 [標籤] 會開啟媒體檔案中的執行個體，選取 [播放上一頁] 或 [播放下一步] 以查看更多執行個體。
物件偵測	Azure AI 影片索引器會偵測影片中的物件，例如汽車、手提包和背包，以及膝上型電腦。
觀察到的人員偵測	觀察到的人員偵測並比對臉部會自動偵測並比對媒體檔案中的人員。觀察到的人偵測和相符的臉部可以設定為顯示人員、衣服及其外觀確切時間範圍的見解。
OCR	OCR 會從圖片、街道標誌和媒體檔案中的產品等影像擷取文字，以建立見解。
生產後：clapper 面板偵測	Clapper 面板偵測會偵測在拍攝期間使用的clapper面板，該面板也會提供在clapper面板上偵測到的信息作為元數據，例如製作、滾動、場景、拍攝等。Clapper面板是您在上傳檔案並編製索引時可在入口網站進階設定中選取的後續深入解析的一部分。
生產後：數位模式	數字圖樣偵測會偵測拍攝期間所使用的色彩橫條。數位模式是後續生產深入解析的一部分，您可以在上傳檔案並編製索引時，於入口網站進階設定中選取。
場景、鏡頭和主要畫面格	場景偵測會根據視覺提示，偵測影片中的場景何時變更。場景描述單一事件，由一系列相關拍攝所組成。拍攝是一系列以視覺提示區分的畫面，例如相鄰畫面格色彩配置的突然和漸進式轉換。拍攝的元數據包括開始和結束時間，以及鏡頭中包含的主要畫面格清單。主要畫面格是從最能代表拍攝的畫面格。

音訊深入解析

深入解析	描述
音訊效果偵測	音訊效果偵測會偵測聲場事件，並將其分類為笑聲、人群反應、警報和/或警笛等類別。
關鍵字擷取	關鍵詞擷取會偵測媒體檔案中所討論之不同關鍵詞的深入解析。它會擷取單一語言和多語言媒體檔案中的深入解析。
具名實體	具名實體擷取會使用自然語言處理（NLP）來擷取媒體檔案中音訊和影像中出現的位置、人員和品牌見解。具名實體擷取深入解析會使用轉譯和光學字元辨識（OCR）。
文字型的情緒偵測	表情偵測會偵測影片文字記錄行中的表情。每個句子都可以偵測到為憤怒，恐懼，歡樂，悲傷，如果沒有其他情緒被偵測到。
主題推斷	主題推斷會建立衍生自轉譯音訊、視覺文字中 OCR 內容的推斷深入解析，以及使用影片索引器臉部辨識模型辨識的名人。
謄寫、翻譯和語言識別	轉譯、翻譯和語言識別會偵測、轉譯，並將媒體檔案中的語音翻譯成超過 50 種語言。