瞭解 Microsoft Purview 中的光學字元辨識

光學字元識別 (OCR) 掃描可讓 Microsoft Purview 掃描影像中的內容以取得敏感性資訊。 選擇性的功能是先在租用戶層級啟用 OCR 掃描。 啟用之後,您可以選取要掃描影像的位置。 影像掃描適用於 Exchange、SharePoint、OneDrive、Teams 和 Windows 裝置。 設定 OCR 設定之後,現有的數據外洩防護原則 (DLP) 、記錄管理和內部風險管理 (IRM) 會套用至影像和文字內容。 例如,假設您已設定 DLP 條件 內容包含敏感性資訊 ,並包含數據分類器,例如 (SIT) 的「信用卡」敏感性信息類型。 在此情況下,Microsoft Purview 會在所有選擇的位置掃描文字和影像中的信用卡號碼。

工作流程概覽

階段 需要的項目
階段 1: 視需要建立 Azure 訂用帳戶 如果您的組織還沒有租使用者的 Azure 隨用隨付訂用帳戶,您的全域管理員必須從建立 Azure 帳戶開始。
階段 2: 設定隨用隨付計費以啟用 OCR。 您的全域或 SharePoint 系統管理員必須遵循在 Azure 中設定 Microsoft Syntex 計費中的指示,以新增 OCR 的訂用帳戶。
階段 3: 設定 OCR 掃描設定 貴組織的合規性系統管理員會設定租使用者的 OCR 設定。

階段 1:必要條件

若要使用 OCR 掃描,貴組織的全域系統管理員必須確認 Azure 隨用隨付訂用帳戶已就緒。 如果沒有,他們必須依照建立初始 Azure 訂用帳戶中的指示進行設定

階段 2:設定計費

當您啟用 OCR 時,所有敏感性資訊類型和可訓練分類器都可以偵測影像中的字元。

因為這是選擇性功能,所以全域系統管理員必須設定隨用隨付計費,才能啟用 OCR。 請參閱在 Azure 中設定 Microsoft Syntex 計費中的指示,以新增 OCR 的訂用帳戶。

注意事項

一旦在 Microsoft Syntex 中輸入帳單資訊,您的合規性系統管理員就可以在 Microsoft Purview 中設定 OCR,而不需要任何其他設定或授權需求。

您可以在 Azure 中的 [設定 Microsoft Syntex 計費] 頁面上找到 OCR 隨用隨付定價資訊。

費用

每掃描 1,000 個專案,使用 OCR 的費用為 $1.00 美元。 每個掃描的影像都會計算為一筆交易。 這表示獨立映像 (JPEG、JPG、PNG、BMP 或 TIFF) 每個計數作為單一交易。 這也表示 PDF 檔案中的 每個頁面 會分別收費。 例如,如果 PDF 檔案中有 10 個頁面,則 PDF 檔案的 OCR 掃描會計算為 10 個不同的掃描。

注意事項

為了降低 OCR 成本,掃描每個唯一影像的費用只會產生一次。

小型影像,例如透過 Microsoft Exchange 以電子郵件傳送的標誌和簽章,會在租使用者的所有使用者中,針對每個唯一的影像掃描並計費一次。 針對所有後續實例,將會重複使用先前掃描的結果。

此外,每個掃描的映像都可以在數據外泄防護、內部風險管理、自動套用標籤和記錄管理等任意數目的原則中使用,而不需要額外付費。

重要事項

如需搭配 PDF 檔案使用 Microsoft Purview 資料外洩防護 (DLP) 功能的 Adobe 需求相關信息,請參閱 Acrobat 中的 Adobe:Microsoft Purview 資訊保護 支援一文。

若要檢視您的帳單,請遵循監視 Microsoft Syntex 隨用隨付使用量中所述的指示。

預估帳單

當您第一次開始使用 OCR 時,請將使用量限製為少數人員和適用的工作負載。 一小段時間之後,您就可以在 Azure 中檢視帳單,並查看使用量統計數據 & 每天的費用。 您可以從該處推斷完整使用者集的成本。 此外,您可以使用 Azure 成本管理中的「工作負載」標籤來查看每個工作負載的使用量明細。

階段 3:設定 OCR 設定

  1. 在 Microsoft Purview 合規性入口網站 中,移至 [設定]
  2. 取 [光學字元識別 (OCR) ],以輸入您的 OCR 組態設定。
  3. 選取您要掃描影像的位置。
  4. 選取您想要從 OCR 掃描中包含或排除的通訊群組。
  5. 選擇 [完成]

下表列出支援的位置和解決方案

權限

您用來建立和部署原則的帳戶必須是其中一個角色群組的成員

  • 合規性系統管理員
  • 合規性資料管理員
  • 全域管理員
  • 資訊保護
  • 資訊保護系統管理員

注意事項

支援的位置和解決方案

位置 支援的解決方案
Exchange 資料外洩防護

信息保護: 自動套用標籤原則

記錄管理: 自動套用保留標籤原則1
SharePoint 網站 資料外洩防護

測試人員風險管理2

記錄管理: 自動套用保留標籤原則1
OneDrive 帳戶 資料外洩防護

記錄管理: 自動套用保留標籤原則1
Teams 聊天和頻道訊息 資料外洩防護

測試人員風險管理2
裝置 資料外洩防護

測試人員風險管理2

1 支援關鍵詞和敏感性資訊類型。
2 考慮影像中存在的敏感性資訊類型和可訓練分類器,以進行風險評分。


支援哪些文件類型?

這項功能支援掃描下列檔類型的影像,並具有注意的需求:

支援的檔案類型 映像需求
JPEG、JPG、PNG、BMP、TIFF 和 PDF (映射僅) 檔案大小: Exchange 和 Teams 的圖像檔不得大於 20 MB。 針對 SharePoint、OneDrive 和 Windows 端點,映像檔案大小上限為 50 MB。

影像解析度: 影像解析度必須至少為 50 x 50 像素,而不是大於 16,000 x 16,000 像素。

重要事項

  • 只會掃描啟用 OCR 之後上傳的影像。
  • 來自組織外部使用者的內送電子郵件 (電子郵件) 和外寄電子郵件 (從組織內部使用者傳送的電子郵件) 都受到 OCR 掃描。 若只要將 OCR 掃描限制為外寄電子郵件,請將 OCR 設定從 [ 所有通訊群組 ] 的預設範圍變更為特定通訊群組 (的) ,並指定您要 OCR 掃描的內部通訊群組。 如需變更此設定的資訊,請參閱 階段 3:設定 OCR 設定
  • Exchange 中的映像不支持數據外泄防護原則提示。
  • 如果您在端點數據外泄防護設定中 排除路徑 ,OCR 將不會掃描這些資料夾中的影像。
  • 針對 Windows 裝置開啟 OCR 時,裝置會開始將訊息傳送至雲端進行掃描。 默認頻寬限制是 每個裝置每天 1024 MB 的數據。 一旦達到每日限制,OCR就會停止掃描影像。 如果您想要繼續掃描影像,可以增加頻寬限制。

支援哪些語言?

OCR 掃描支援超過 150種語言

摘要

另請參閱