使用 Azure 媒體服務分析影片和音訊檔案

媒體服務標誌 v3


警告

Azure 媒體服務將於 2024 年 6 月 30 日淘汰。 如需詳細資訊,請參閱 AMS淘汰指南

重要

Microsoft 負責任 AI 標準 概述,Microsoft 致力於 AI 系統的公平性、隱私權、安全性和透明度。 為了符合這些標準,Azure 媒體服務會在 2023 年 9 月 14 日淘汰影片分析器預設。 此預設目前可讓您從視訊檔案擷取多個視訊和音訊深入解析。 客戶可以使用 Azure 影片索引器所提供的更進階功能集來取代其目前的工作流程。

媒體服務可讓您使用音訊和影片分析器預設,從影片和音訊檔案擷取深入解析。 本文說明用來擷取深入解析的分析器預設。 如果您想要更詳細的影片深入解析,請使用 Azure 影片索引器服務。 若要瞭解何時使用影片索引器與媒體服務分析器預設,請參閱 比較檔

音訊分析器預設有兩種模式,基本和標準。 請參閱下表中差異的描述。

若要使用媒體服務 v3 分析您的內容,請建立轉換,並提交使用下列其中一個預設值的作業VideoAnalyzerPresetAudioAnalyzerPreset

注意

如果記憶體帳戶沒有公用網路存取,則不支援 AudioAnalyzerPreset。

合規性、隱私權和安全性

您必須遵守使用影片索引器的所有適用法律,而且您不得以違反其他人權利或可能有害的方式使用影片索引器或任何其他 Azure 服務。 將任何影片 (包括任何生物特徵辨識資料) 上傳至影片索引子服務以進行處理和儲存之前,您必須擁有所有適當的權限,包括向影片中的個人徵得所有必要的同意。 若要瞭解影片索引器中的合規性、隱私權和安全性,請參閱 Azure 認知服務條款。 如需 Microsoft 的隱私權義務和您的資料處理方式,請參閱 Microsoft 的 隱私權聲明線上服務條款 ("OST") 和 資料處理增補 ("DPA")。 OST 中提供更多隱私權資訊,包括數據保留、刪除/解構。 藉由使用影片索引器,您同意受認知服務條款、OST、DPA 和隱私聲明所系結。

內建預設

媒體服務目前支援下列內建的分析器預設:

預設名稱 案例/模式 詳細資料
AudioAnalyzerPreset 分析音訊標準模式 此預設會套用一組預先定義的 AI 型分析作業,包括語音轉譯。 此預設目前支援處理具有單一音訊播放軌 (包含單一語言的語音) 的內容。 使用「語言標記-區域」的 BCP-47 格式,為輸入中的音訊承載指定語言。 如需可用的語言代碼,請參閱下方支援的語言清單。 自動語言偵測會選擇偵測到的第一種語言,並在未設定或設定為 Null 時,使用選取的語言繼續進行整個檔案。 自動語言偵測功能目前支援英文、簡體中文、法文、德文、義大利文、日文、西班牙文、俄文、巴西文和葡萄牙文。 不支援在偵測到第一個語言後,動態地切換語言。 搭配語音清晰的錄音時,自動語言偵測功能的效果最好。 如果自動語言偵測無法找到該語言,轉譯會切換回英文。
AudioAnalyzerPreset 分析音訊基本模式 此預設會針對 VTT 翻譯字幕/原文檔案進行語音轉換文字的謄寫與產生。 此模式的輸出包含 Insights JSON 檔案,該檔案只包含關鍵字、謄寫和計時資訊。 此模式不包含自動語言偵測和說話者自動分段標記。 支援語言的清單與上述標準模式相同。
VideoAnalyzerPreset 分析音訊和視訊 從音訊和視訊擷取見解 (豐富的中繼資料),並輸出 JSON 格式檔案。 您可以指定在處理視訊檔案時,是否只想擷取音訊見解。
FaceDetectorPreset 偵測影片中出現的臉部 描述分析影片以偵測所有出現臉部時要使用的設定。

注意

如果記憶體帳戶沒有公用網路存取,則不支援 AudioAnalyzerPreset。

支援的語言

  • 阿拉伯文 ('ar-BH'、'ar-EG'、'ar-IQ'、'ar-JO'、'ar-KW'、'ar-LB'、'ar-OM'、'ar-QA'、'ar-SA' 和 'ar-SY')
  • 巴西葡萄牙文 ('pt-BR')
  • 中文 ('zh-CN')
  • 丹麥文 ('da-DK')
  • 英文 ('en-US'、'en-GB' 和 'en-AU')
  • 芬蘭文 ('fi-FI')
  • 法文 ('fr-FR' 和 'fr-CA')
  • 德文 ('de-DE')
  • 希伯來文 ('he-IL')
  • 印度文 ('hi-IN'),韓文 ('ko-KR')
  • 義大利文 ('it-IT')
  • 日文 ('ja-JP')
  • 挪威文 ('nb-NO')
  • 波斯文 ('fa-IR')
  • 葡萄牙葡萄牙文 ('pt-PT')
  • 俄文 ('ru-RU')
  • 西班牙文 ('es-ES' 和 'es-MX')
  • 瑞典文 ('sv-SE')
  • 泰文 ('th-TH')
  • 土耳其文 ('tr-TR')

注意

如果記憶體帳戶沒有公用網路存取,則不支援 AudioAnalyzerPreset。

AudioAnalyzerPreset 標準模式

預設可讓您從音訊檔案或視訊檔案擷取多個音訊深入資訊。

輸出會包含 JSON 檔案 (包含所有的深入資訊) 和音訊文字記錄的 VTT 檔案。 此預設接受的屬性會指定輸入檔案的語言 (BCP47 字串形式)。 音訊的深入資訊包括:

  • 音訊轉譯:具有時間戳記的旁白文字記錄。 支援多種語言。
  • 關鍵字:從音訊轉譯擷取的關鍵字。

AudioAnalyzerPreset 基本模式

預設可讓您從音訊檔案或視訊檔案擷取多個音訊深入資訊。

輸出會包含 JSON 檔案和音訊文字記錄的 VTT 檔案。 此預設接受的屬性會指定輸入檔案的語言 (BCP47 字串形式)。 輸出包含:

  • 音訊轉譯:具有時間戳記的旁白文字記錄。 支援多種語言,但不包含自動語言偵測和演講者聽寫。
  • 關鍵字:從音訊轉譯擷取的關鍵字。

VideoAnalyzerPreset

預設可讓您從影片檔案擷取多個音訊和影片深入資訊。 輸出包含 JSON 檔案 (包含所有的深入資訊)、視訊文字記錄的 VTT 檔案,以及縮圖的集合。 此預設也接受 BCP47 字串 (表示視訊的語言) 當作屬性。 視訊深入資訊包含上述的音訊深入資訊和下列額外項目:

  • 臉部追蹤:臉部在視訊中出現的時間。 每一張臉都有臉部識別碼和相對應的縮圖集合。
  • 視覺文字:透過光學字元辨識偵測到的文字。 文字會加上時間戳記,並且也用來擷取關鍵字 (除了音訊文字記錄以外)。
  • 主要畫面格:從視訊擷取的主要畫面格集合。
  • 視覺內容合適性:視訊中被標記為成人或猥亵性質的部分。
  • 註釋:根據預先定義的物件模型,為視訊加上註解的結果

insights.json 元素

輸出會包含一個 JSON 檔案 (insights.json) 並包含視訊或音訊中所有找到的深入資訊。 JSON 可以包含下列其中一個元素:

文字記錄

名称 描述
id 行識別碼。
text 文字記錄本身。
語言 文字記錄語言。 用於支援文字記錄,其中每一行可以有不同的語言。
執行個體 這一行曾出現的時間範圍清單。 如果執行個體是文字記錄,則只能有一個執行個體。

範例:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

名称 描述
id OCR 行識別碼。
text OCR 文字。
信賴度 辨識信賴。
語言 OCR 語言。
執行個體 此 OCR 曾出現的時間範圍清單 (相同的 OCR 可以出現多次)。
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

臉部

名称 描述
id 臉部識別碼。
NAME 臉部名稱。 這可以是 ‘Unknown #0’、已識別的名人或客戶培訓人員。
信賴度 臉部識別信賴。
描述 名人的描述。
thumbnailId 該臉部的縮圖識別碼。
knownPersonId 內部識別碼 (如果是已知人員)。
referenceId Bing 識別碼 (如果是 Bing 名人)。
referenceType 目前只是 Bing。
title 職稱 (如果是名人,例如「Microsoft 的 CEO」)。
imageUrl 影像 URL (如果是名人)。
執行個體 這些是臉部出現在指定時間範圍中的執行個體。 每個執行個體也會有 thumbnailsId。
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

擷取畫面

名称 描述
id 擷取畫面識別碼。
keyFrames 擷取畫面的主要畫面清單 (每個主要畫面都有一個識別碼和執行個體的時間範圍清單)。 主要畫面格執行個體中有縮圖識別碼欄位,其中包含主要畫面格的縮圖識別碼。
執行個體 此擷取畫面的時間範圍清單 (擷取畫面只能有一個執行個體)。
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

統計資料

名称 描述
CorrespondenceCount 影片中的對應數目。
WordCount 每個說話者的字數。
SpeakerNumberOfFragments 說話者在影片中的片段數量。
SpeakerLongestMonolog 說話者最長的獨白。 若說話在獨白中有無聲的部分,也會包含在其中。 獨白開頭和結尾的無聲部分則會被移除。
SpeakerTalkToListenRatio 將說話者獨白的時間 (不含無聲的部分) 除以影片的總時間長度。 時間會四捨五入至小數點第三位。

標籤

名称 描述
id 標籤識別碼。
NAME 標籤名稱 (例如,電腦、電視)。
語言 標籤名稱語言 (轉譯時)。 BCP-47
執行個體 此標籤曾出現的時間範圍清單 (同一個標籤可以出現多次)。 每個執行個體都有一個信賴度欄位。
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

關鍵字

名称 描述
id 關鍵字識別碼。
text 關鍵字。
信賴度 關鍵字的辨識信賴。
語言 關鍵字語言 (轉譯時)。
執行個體 此關鍵字曾出現的時間範圍清單 (同一個關鍵字可以出現多次)。
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

visualContentModeration 區塊包含影片索引器偵測到可能含有成人內容的時間範圍。 若 visualContentModeration 是空的,表示未識別到任何成人內容。

經發現含有成人或猥褻內容的影片,只能供私人檢視。 使用者可以要求人工審核影片內容,在此情況下,IsAdult 屬性將包含人工審核的結果。

名称 描述
id 視覺內容仲裁識別碼。
adultScore 成人分數 (由內容仲裁提供)。
racyScore 辛辣分數 (由內容仲裁提供)。
執行個體 視覺內容仲裁出現的時間範圍清單。
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

取得說明及支援

您可以連絡媒體服務並詢問問題,或依照下列其中一種方法追蹤我們的更新: