使用 Azure 媒體服務分析視訊和音訊檔案

發行項
10/02/2024

警告

Azure 媒體服務將於 2024 年 6 月 30 日淘汰。如需詳細資訊，請參閱 AMS 淘汰指南。

重要

Microsoft 負責任 AI 標準概述時，Microsoft致力於 AI 系統的公平性、隱私權、安全性和透明度。為了符合這些標準，Azure 媒體服務將於 2023 年 9 月 14 日淘汰影片分析器預設。此預設目前可讓您從視訊檔案擷取多個視訊和音訊深入解析。客戶可以使用 Azure 影片索引器所提供的更進階功能集來取代其目前工作流程，。

媒體服務可讓您使用音訊和視訊分析器預設，從視訊和音訊檔案擷取深入解析。本文說明用來擷取深入解析的分析器預設值。如果您要更詳細的影片深入解析，請使用 Azure 影片索引器服務。若要瞭解使用影片索引器與媒體服務分析器預設值的時機，請參閱比較檔案。

音訊分析器預設、基本和標準有兩種模式。請參閱下表中差異的描述。

若要使用媒體服務 v3 預設值來分析內容，您可以建立轉換，並提交使用下列其中一個預設值的作業：VideoAnalyzerPreset 或 AudioAnalyzerPreset。

注意

如果記憶體帳戶沒有公用網路存取權，則不支援 AudioAnalyzerPreset。

合規性、隱私權和安全性

您必須遵守影片索引器使用中所有適用的法律，而且不得以違反他人權利或可能有害他人的方式使用影片索引器或任何其他 Azure 服務。將任何影片，包括任何生物特徵辨識數據上傳至影片索引器服務進行處理和儲存之前，您必須擁有影片中個人的所有適當許可權，包括所有適當的同意。若要瞭解影片索引器中的合規性、隱私權和安全性，Azure 認知服務條款。如需Microsoft的隱私權義務和處理數據，請檢閱Microsoft 隱私聲明、在線服務條款（“OST”）和數據處理增補（“DPA”）。 OST 提供更多隱私權資訊，包括有關數據保留、刪除/銷毀的資訊。藉由使用影片索引器，您同意受認知服務條款、OST、DPA 和隱私聲明的約束。

內建預設

媒體服務目前支援下列內建分析器預設：

預設名稱	案例/模式	詳細數據
AudioAnalyzerPreset	分析音訊標準模式	預設會套用一組預先定義的 AI 型分析作業，包括語音轉譯。目前，默認支援使用單一音訊播放軌來處理內容，其中包含單一語言的語音。使用 'language tag-region' 的 BCP-47 格式，在輸入中指定音訊承載的語言。如需可用的語言代碼，請參閱下方支援的語言清單。自動語言偵測會選擇偵測到的第一種語言，並在未設定或設定為 null 時繼續使用整個檔案的選取語言。自動語言偵測功能目前支援：英文、中文、法文、德文、義大利文、日文、西班牙文、俄文和巴西葡萄牙文。在偵測到第一種語言之後，它不支援在語言之間動態切換。自動語言偵測功能最適合使用具有清楚辨識語音的音訊錄製。如果自動語言偵測找不到語言，則轉譯會回復為英文。
AudioAnalyzerPreset	分析音訊基本模式	此預設模式會執行語音轉換文字轉譯和 VTT 字幕/輔助字幕檔案的產生。此模式的輸出包含 Insights JSON 檔案，只包含關鍵詞、轉譯和計時資訊。自動語言偵測和說話者聽寫不會包含在此模式中。支援的語言清單與上述標準模式相同。
VideoAnalyzerPreset	分析音訊和視訊	從音訊和視訊擷取深入解析（豐富元數據），並輸出 JSON 格式檔案。您可以指定是否只想要在處理視訊檔案時擷取音訊深入解析。
FaceDetectorPreset	偵測影片中的臉部	描述分析影片以偵測所有臉部時要使用的設定。

注意

如果記憶體帳戶沒有公用網路存取權，則不支援 AudioAnalyzerPreset。

支援的語言

阿拉伯文（'ar-BH'， 'ar-EG'， 'ar-IQ'， 'ar-JO'， 'ar-KW'， 'ar-LB'， 'ar-OM'， 'ar-QA'， 'ar-SA' 和 'ar-SY'）
巴西葡萄牙文（'pt-BR'）
中文（'zh-CN'）
丹麥文（'da-DK'）
英文（'en-US'， 'en-GB' 和 'en-AU'）
芬蘭文（'fi-FI'）
法文（'fr-FR' 和 'fr-CA'）
德文（'de-DE'）
希伯來文（he-IL）
印度文（'hi-IN'），韓文（'ko-KR'）
義大利文（'it-IT'）
日文（'ja-JP'）
挪威文（'nb-NO'）
波斯文（'fa-IR'）
葡萄牙葡萄牙文（'pt-PT'）
俄文（'ru-RU'）
西班牙文（'es-ES' 和 'es-MX'）
瑞典文（'sv-SE'）
泰文（'th-TH'）
土耳其文（'tr-TR'）

注意

如果記憶體帳戶沒有公用網路存取權，則不支援 AudioAnalyzerPreset。

AudioAnalyzerPreset 標準模式

默認可讓您從音訊或視訊檔案擷取多個音訊深入解析。

輸出包含 JSON 檔案（包含所有深入解析）和音訊文字記錄的 VTT 檔案。這個預設會接受屬性，這個屬性會以BCP47 字串的形式指定輸入檔的語言。音訊深入解析包括：

音訊轉譯：具有時間戳的口語文字記錄。支援多種語言。
關鍵詞：從音頻轉譯擷取的關鍵詞。

AudioAnalyzerPreset 基本模式

默認可讓您從音訊或視訊檔案擷取多個音訊深入解析。

輸出包含音訊文字記錄的 JSON 檔案和 VTT 檔案。這個預設會接受屬性，這個屬性會以BCP47 字串的形式指定輸入檔的語言。輸出包括：

音訊轉譯：具有時間戳的口語文字記錄。支援多種語言，但不包含自動語言偵測和說話者聽寫。
關鍵詞：從音頻轉譯擷取的關鍵詞。

VideoAnalyzerPreset

默認可讓您從視訊檔案擷取多個音訊和視訊深入解析。輸出包含 JSON 檔案（包含所有深入解析）、影片文字記錄的 VTT 檔案，以及縮圖的集合。此預設也會接受 BCP47 字串串（代表視訊的語言）作為屬性。影片深入解析包含上述所有音訊深入解析，以及下列額外專案：

臉部追蹤：視訊中出現臉部的時間。每個臉部都有臉部標識碼和對應的縮圖集合。
視覺文字：透過光學字元辨識偵測到的文字。文字是時間戳，也用來擷取關鍵詞（除了音訊文字記錄）。
Keyframes：從影片擷取的主要畫面格集合。
視覺內容仲裁：本質上標示為成人或猥褻的影片部分。
註釋：根據預先定義的物件模型標註影片的結果

insights.json 元素

輸出包含 JSON 檔案（insights.json），其中包含影片或音訊中找到的所有見解。 JSON 可能包含下列元素：

抄本

名字	描述
id	行標識碼。
發簡訊	文字記錄本身。
語言	文字記錄語言。旨在支援每一行可以有不同的語言的文字記錄。
實例	此行出現的時間範圍清單。如果實例是文字記錄，它只會有一個實例。

例：

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

光學字元識別

名字	描述
id	OCR 行標識碼。
發簡訊	OCR 文字。
信心	辨識信賴度。
語言	OCR 語言。
實例	此 OCR 出現的時間範圍清單（相同的 OCR 可以多次出現）。

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

面臨

名字	描述
id	臉部標識碼。
名字	臉部名稱。它可以是「未知 #0」、已識別的名人或客戶訓練的人員。
信心	臉部識別信賴度。
描述	名人的描述。
thumbnailId	該臉部縮圖的標識碼。
knownPersonId	內部識別碼（如果是已知人員）。
referenceId	Bing 識別碼（如果是 Bing 名人）。
referenceType	目前只有 Bing。
標題	標題（如果是名人，例如“Microsoft的首席執行官”）。
imageUrl	影像 URL，如果是名人。
實例	臉部出現在指定時間範圍內的實例。每個實例也有 thumbnailsId。

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

鏡頭

名字	描述
id	拍攝標識碼。
keyFrames	鏡頭內的主要畫面格清單（每個畫面都有標識符和實例時間範圍清單）。主要畫面格實例具有具有keyFrame縮圖標識碼的 thumbnailId 欄位。
實例	這個鏡頭的時間範圍清單（鏡頭只有一個實例）。

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

統計學

名字	描述
CorrespondenceCount	影片中的信件數目。
WordCount	每個說話者的字數。
SpeakerNumberOfFragments	說話者在視訊中擁有的片段數量。
SpeakerLongestMonolog	演講者最長的單曲。如果說話者在單曲內有無聲無聲，它就會包含它。會移除單曲開頭和結尾的沉默。
SpeakerTalkToListenRatio	計算是根據演講者單曲所花費的時間（在兩者之間沒有沉默）除以影片的總時間。時間會四捨五入至第三個小數點。

名字	描述
id	標籤標識碼。
名字	標籤名稱（例如'Computer'、'TV'）。
語言	標籤名稱語言（翻譯時）。 BCP-47
實例	此標籤出現的時間範圍清單（標籤可以多次出現）。每個實例都有信賴欄位。

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

關鍵字

名字	描述
id	關鍵詞標識碼。
發簡訊	關鍵詞文字。
信心	關鍵詞的辨識信賴度。
語言	關鍵詞語言（翻譯時）。
實例	出現此關鍵詞的時間範圍清單（關鍵詞可以多次出現）。

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

visualContentModeration 區塊包含時間範圍，影片索引器發現可能有成人內容。如果visualContentModeration是空的，則不會識別任何成人內容。

找到包含成人或猥褻內容的影片可能僅適用於私人檢視。使用者可以提交對內容進行人工檢閱的要求，在此情況下，IsAdult 屬性會包含人工檢閱的結果。

名字	描述
id	視覺內容仲裁標識碼。
adultScore	成人分數（來自內容仲裁者）。
racyScore	猥褻分數（來自內容仲裁）。
實例	此視覺內容仲裁出現的時間範圍清單。

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

取得說明和支援

您可以連絡媒體服務，詢問問題，或遵循下列其中一種方法來追蹤我們的更新：

Q & A
Stack Overflow。使用 azure-media-services標記問題。
@MSFTAzureMedia 或使用 @AzureSupport 來要求支援。
透過 Azure 入口網站開啟支援票證。

共用方式為

使用 Azure 媒體服務分析視訊和音訊檔案

合規性、隱私權和安全性

內建預設

支援的語言

AudioAnalyzerPreset 標準模式

AudioAnalyzerPreset 基本模式

VideoAnalyzerPreset

insights.json 元素

抄本

光學字元識別

面臨

鏡頭

統計學

標籤

關鍵字

visualContentModeration

取得說明和支援

其他資源