Azure AI Video Indexer 概觀

2025-06-03

Azure AI Video Indexer 是一個雲端應用程式，屬於 Azure AI 服務的一部分，以 Azure AI 服務 (例如臉部、翻譯工具、Azure AI 視覺和語音) 為基礎建構。其可讓您使用 Azure AI Video Indexer 的影片與音訊模型，從影片中擷取見解。

Azure AI Video Indexer 會執行 30 個以上的 AI 模型來分析影片和音訊內容，並產生豐富的深入解析。以下是 Azure AI 影片索引器在背景中執行的音訊和視訊分析圖例：

若要開始使用 Azure AI Video Indexer 來擷取深入解析，請參閱如何開始使用一節。

Azure AI Video Indexer 有何用途？

Azure AI 影片索引器深入解析可以套用至許多案例：

深入搜尋：若要增強影片庫中的搜尋體驗，請使用從影片擷取的深入解析。例如，將口說的字詞與人臉編製索引，以便於在搜尋影片時，透過這種索引功能找出某人講出特定字句或兩人同時出現在影片中的片段。以這類影片深入解析為基礎的搜尋服務適用於新聞機構、教育機構、廣播公司、娛樂事業擁有者、企業 LOB 應用程式，以及通常有影片庫讓使用者搜尋的任何產業。
建立內容：根據 Azure AI Video Indexer 從您的內容中擷取的深入解析，建立預告、精華片段、社交媒體內容或新聞剪輯。主要影格、場景標記和人員及標籤出現的時間戳記，讓創作流程更為順暢且更容易，使您在創作內容時能輕鬆找到所需的影片部分。
協助工具：無論您是要讓行動不便人士能夠使用您的內容，還是要將您的內容使用不同語言散發到不同區域，都可以使用 Azure AI Video Indexer 所提供的多種語言轉譯和翻譯。
創造營收：Azure AI Video Indexer 可協助提高影片的價值。例如，依賴廣告收益的產業 (新聞媒體、社交媒體等) 可以使用所擷取的深入解析作為廣告伺服器的額外訊號，來提供更為相關的廣告。
內容審核：使用文字和視覺的內容審核模型，讓您的使用者不會收到不適當的內容，並驗證您發佈的內容是否符合組織的價值觀。您可以自動封鎖特定影片，或針對該內容向使用者發出警示。
推薦：視頻深入解析可通過展示相關影片的精華片段來提升使用者參與度。藉由使用更多元數據標記每個影片，您可以建議使用者最相關的影片，並醒目提示符合其需求的影片部分。

影片/音訊 AI 功能

下列清單顯示您可以從影片/音訊檔案中擷取的洞察，這些洞察是使用 Azure AI Video Indexer 的影片和音訊 AI 特徵（模型）所得。

注意

鑒於隱私權和法規需求，這些功能的一些限制為使用和/或需要授權才能充分利用。

除非另有指定，否則模型普遍可用。

影片模型

臉部偵測：偵測並分組在影片中出現的臉部。
名人識別：識別 1 百萬個以上的名人，例如全球各地的世界級領導者、演員、藝人、運動員、研究人員、商人和技術領導者等。您也可以在各種網站 (IMDB、維基百科等等) 上找到這些名人的相關資料。
以帳戶為基礎的臉部辨識：可針對特定帳戶訓練模型。接著，其可根據已定型的模型來辨識影片中的人臉。如需詳細資訊，請參閱從 Azure AI Video Indexer 網站自訂人員模型和使用 Azure AI Video Indexer API 來自訂人員模型。
臉部的縮圖擷取：識別每個臉部群組中所擷取到的最佳面貌 (根據品質、大小和正面位置)，並將其擷取為影像資產。
光學字元辨識（OCR）：從圖片、街道標誌和媒體檔案中的產品等影像擷取文字，以建立見解。
視覺內容審核：偵測成人和/或不雅的視覺效果。
標籤識別：識別顯示的視覺物件和動作。
場景分割：根據視覺提示來判斷影片中的場景何時變更。場景會描述單一事件，並且會由一系列與語義相關的連續鏡頭組成。
鏡頭分割：根據視覺提示來判斷影片中的鏡頭何時變更。鏡頭指的是透過相同電影攝影機所拍攝的一系列動態影像影格。如需詳細資訊，請參閱場景、鏡頭和主要畫面格。
黑色畫面偵測：識別影片中出現的黑色畫面。
關鍵畫面擷取：偵測影片中的穩定的關鍵畫面。
滾動字幕：用來識別電視節目和電影結束時滾動字幕的開頭與結尾。
編輯偵測鏡頭類型：根據鏡頭的類型 (例如，寬鏡頭、中鏡頭、特寫、極度特寫、雙人鏡頭、多人、戶外和室內等等) 來為鏡頭加上標籤。如需詳細資訊，請參閱編輯鏡頭類型偵測。
觀察到的人員偵測：偵測影片中觀察到的人員，並提供資訊，例如人員在視訊畫面中的位置（使用周框方塊）和確切時間戳（開始、結束）和人員出現時的信心。如需詳細資訊，請參閱追蹤影片中觀察到的人員。
- 已配對的人員：比對在影片中看到的人與偵測到的對應臉部。觀察到的人員與臉部之間的比對包含可信度等級。
- 偵測到的服裝：偵測影片中出現人物的服裝類型，並提供短袖、長袖、短褲、長褲、裙子或連衣裙等資訊。偵測到的服裝會與穿著的人員相關聯，以及提供確切的時間戳記 (開始、結束) 與偵測的信賴度等級。
- 精選服裝：擷取出現在影片中的精選服裝影像。您可以使用精選服裝分析來提升您的目標廣告效果。如需了解精選服裝影像的排名規則以及如何獲得深入解析的資訊，請參閱精選服裝。
物件偵測 偵測並追蹤唯一物件，以便在它們返回畫面時被辨識。請參閱 Azure AI 影片索引器對象偵測
Slate 偵測：使用進階索引選項為影片編製索引時，識別下列電影後製作訊息：
- 具有中繼資料擷取的場記板偵測。
- 數位模式偵測，包含彩色條。
- 無文字板偵測，包括場景比對。
如需詳細資訊，請參閱Slate 偵測。
文字標誌偵測：使用 Azure AI 影片索引器 OCR 比對特定預先定義的文字。例如，如果使用者建立了文字標誌： Microsoft，則會偵測到文字 Microsoft 的不同外觀做為 Microsoft 標誌。如需詳細資訊，請參閱偵測文字標誌。

音頻模型

音訊轉譯：將語音轉換為超過 50 種語言的文字，並允許擴充。如需詳細資訊，請參閱Azure AI Video Indexer 語言支援。
自動語言偵測：識別主要口說語言。如需詳細資訊，請參閱Azure AI Video Indexer 語言支援。如果沒有把握能識別語言，Azure AI Video Indexer 就會假設該口說語言為英文。
多語言語音識別和轉譯：識別音訊中不同區段的口說語言。其會傳送所要轉譯媒體檔案的每個區段，然後將轉譯結果回頭合併為一個整合起來的轉譯。如需轉譯的詳細資訊，請參閱轉譯
隱藏式輔助字幕：建立三種格式的隱藏式輔助字幕：VTT、TTML、SRT。
雙通道處理：自動偵測分離的文字記錄並合併到單一時間軸。
減少雜訊：清除電話音頻或錄音雜訊 (視 Skype 的篩選條件而定)。
自訂文字記錄 (CRIS)：訓練自訂語音轉換文字模型，以建立產業特有的文字記錄。如需詳細資訊，請參閱自定義語言模型。
說話者辨識：辨識並了解每位說話者在何時說了哪些單詞。您可以在單一音訊檔案中偵測到十六個喇叭。
說話者統計資料：提供說話者語音比率的統計資料。
文字內容審核：檢測音訊文字記錄中的露骨文字。
文字型情緒偵測：透過文字記錄分析偵測到的情緒，例如快樂、悲傷、憤怒和恐懼。
翻譯：將音訊文字記錄翻譯成許多不同的語言。如需詳細資訊，請參閱Azure AI Video Indexer 語言支援。
音效偵測：偵測內容中非語音區段的下列音效：警報或警笛、狗叫、人群反應（歡呼、鼓掌和噓）、槍聲或爆炸、笑聲、碎玻璃和安靜。

偵測到的聲音事件位於隱藏式輔助字幕檔案中。您可以從 Azure AI Video Indexer 網站下載該檔案。如需詳細資訊，請參閱音訊效果偵測。

注意

只有在上傳預設中上傳檔案時選擇 [進階音訊分析] 時，才能使用完整的事件集。根據預設，只會偵測到沉默。

音訊與影片模型 (多通道)

當您依一個通道編製索引時，可以使用這些模型的部分結果。

關鍵字擷取：擷取語音和視覺文字中的關鍵字。
具名實體擷取：透過自然語言處理 (NLP)，從語音和視覺文字中擷取品牌、位置和人員。
主題推斷：根據各種關鍵字擷取主題 (亦即關鍵字「證券交易所」、「華爾街」將會產生主題「經濟」)。此模型使用三種不同的文體（IPTC、維琪百科和影片索引器階層式主題本體）。此模型使用轉譯 (口語)、OCR 內容 (視覺文字)，以及使用影片索引子臉部辨識模型在影片中辨識的名人。
工件：為每個模型擷取一組豐富的「下一層細節」的工件。
情感分析：識別語音和視覺文字中的正面、負面及中性情緒。

如何開始使用 Azure AI Video Indexer？

了解如何開始使用 Azure AI Video Indexer。

設定之後，開始使用分析見解並查看其他 操作指南。

合規性、隱私權和安全性

注意

2020年6月11日，Microsoft宣佈，在制定基於人權的強有力的監管之前，它不會向美國員警部門出售面部識別技術。因此，如果客戶是美國警察局或允許美國警察局使用這類服務，則無法使用 Azure AI 服務中包含的臉部辨識特性或功能，例如臉部識別器或視訊索引器。

注意

臉部識別、自定義和名人辨識功能存取權會根據資格和使用準則而受到限制，以支援我們的負責任 AI 原則。臉部識別、自定義和名人辨識功能僅適用於Microsoft受控客戶和合作夥伴。請使用臉部辨識受理表單以申請存取。

您必須遵守使用 Azure AI 影片索引器的所有適用法律，而且您無法以違反他人權利或可能對他人有害的方式使用 Azure AI 影片索引器或任何 Azure 服務。

將任何影片/影像上傳至 Azure AI 影片索引器之前，您必須擁有使用影片/影像的所有適當和合法權利，包括視訊/影像中個人（如果有的話）的所有必要同意，以在 Azure AI 影片索引器和 Azure 中使用、處理和儲存其數據。某些司法管轄區可能會對特定類別數據的收集、在線處理和儲存施加特殊法律要求，例如生物特徵辨識數據。在使用 Azure AI 影片索引器和 Azure 來處理和儲存任何受限於特殊法律需求的數據之前，您必須確定您的使用符合可能適用於您和預定使用的所有此類法律需求。

若要瞭解 Azure AI 影片索引器中的合規性、隱私權和安全性，請造訪 Microsoft 信任中心。如需Microsoft的隱私權義務、數據處理和保留做法，包括如何刪除您的數據、檢閱Microsoft的隱私聲明、在線服務條款（“OST”），以及數據處理增補（ “DPA”）。藉由使用 Azure AI 影片索引器，您同意受 OST、DPA 和隱私聲明的約束。