Microsoft Purview での光学式文字認識について説明します

光学式文字認識 (OCR) スキャンを使用すると、Microsoft Purview は画像内のコンテンツで機密情報をスキャンできます。 オプションの機能である OCR スキャンは、最初にテナント レベルで有効になります。 有効にしたら、画像をスキャンする場所を選択します。 イメージ スキャンは、Exchange、SharePoint、OneDrive、Teams、および Windows デバイスで使用できます。 OCR 設定が構成されると、データ損失防止 (DLP)、レコード管理、およびインサイダー リスク管理 (IRM) の既存のポリシーが画像とテキスト ベースのコンテンツに適用されます。 たとえば、DLP 条件 コンテンツに機密情報が含まれ 、"クレジット カード" 機密情報の種類 (SIT) などのデータ分類子が含まれているとします。 この場合、Microsoft Purview は、選択したすべての場所のテキストと画像の両方でクレジット カード番号をスキャンします。

ワークフローの概要

フェーズ 前提条件
フェーズ 1: 必要に応じて Azure サブスクリプションを作成する organizationにテナントの従量課金制サブスクリプションがまだない場合は、グローバル管理者が Azure アカウントを作成することから始める必要があります。
フェーズ 2: OCR を有効にするために従量課金制を設定します。 グローバル管理者または SharePoint 管理者は、「Azure で課金Microsoft Syntex設定する」の手順に従って、OCR のサブスクリプションを追加する必要があります。
フェーズ 3: OCR スキャン設定を構成する organizationのコンプライアンス管理者は、テナントの OCR 設定を構成します。

フェーズ 1: 前提条件

OCR スキャンを使用するには、organizationのグローバル管理者が、Azure 従量課金制サブスクリプションが実施されていることを確認する必要があります。 そうでない場合は、「最初の Azure サブスクリプションを作成する」の手順に従って設定する必要があります。

フェーズ 2: 課金を構成する

OCR を有効にすると、すべての機密情報の種類とトレーニング可能な分類子で、画像内の文字を検出できます。

これはオプションの機能であるため、グローバル管理者は、OCR を有効にするために従量課金制を設定する必要があります。 OCR のサブスクリプションを追加するには、「Azure で課金Microsoft Syntex設定する」の手順を参照してください。

注:

Microsoft Syntexに課金情報を入力すると、コンプライアンス管理者は、追加のセットアップやライセンス要件なしで、Microsoft Purview で OCR を構成できます。

OCR 従量課金制の価格情報については、「Azure での課金Microsoft Syntex設定」ページを参照してください。

料金

OCR の使用料金は、スキャンされた 1,000 項目ごとに $1.00 です。 スキャンされた各イメージは、1 つのトランザクションとしてカウントされます。 つまり、スタンドアロン イメージ (JPEG、JPG、PNG、BMP、TIFF) はそれぞれ 1 つのトランザクションとしてカウントされます。 また、PDF ファイル内の 各ページ は個別に課金されます。 たとえば、PDF ファイルに 10 ページがある場合、PDF ファイルの OCR スキャンは 10 個の個別スキャンとしてカウントされます。

注:

OCR コストを削減するために、一意の各画像をスキャンするための料金は 1 回だけ発生します。

Microsoft Exchange 経由で電子メールで送信されるロゴや署名などの小さな画像は、テナントのすべてのユーザーの一意の画像ごとに 1 回だけスキャンおよび課金されます。 後続のすべてのインスタンスでは、前のスキャンの結果が再利用されます。

さらに、スキャンされた各イメージは、データ損失防止、インサイダー リスク管理、自動ラベル付け、レコード管理に関する任意の数のポリシーで追加料金なしで使用できます。

重要

PDF ファイルでMicrosoft Purview データ損失防止 (DLP) 機能を使用するための Adobe の要件については、Adobe: Microsoft Purview 情報保護 サポートの記事を参照してください。

請求書を表示するには、「従量課金制の使用状況をMicrosoft Syntex監視する」で説明されている手順に従います。

請求書の見積もり

OCR の使用を初めて開始するときは、使用量を少数のユーザーと該当するワークロードのみに制限します。 しばらくすると、Azure で請求書を表示し、毎日の使用量統計 & 料金を確認できます。 そこから、ユーザーの完全なセットのコストを推定できます。 さらに、Azure コスト管理の "ワークロード" タグを使用して、ワークロードごとの使用状況の内訳を確認できます。

フェーズ 3: OCR 設定を構成する

  1. Microsoft Purview コンプライアンス ポータルで、[設定] に移動します。
  2. OCR 構成設定を入力するには、[ 光学式文字認識 (OCR)] を選択します。
  3. 画像をスキャンする場所を選択します。
  4. OCR スキャンに含めたり、OCR スキャンから除外したりする配布グループを選択します。
  5. [ 完了] を選択します

サポートされている場所とソリューション を次の表に示します。

アクセス許可

ポリシーの作成と展開に使用するアカウントは、これらのロール グループの 1 つのメンバーである必要があります

  • コンプライアンス管理者
  • コンプライアンス データ管理者
  • グローバル管理者
  • 情報保護
  • Information Protection 管理者

注:

サポートされている場所とソリューション

場所 サポートされているソリューション
Exchange データ損失防止

情報保護: 自動ラベル付けポリシー

レコード管理: 保持ラベル ポリシーを自動適用する1
SharePoint サイト データ損失防止

インサイダーリスク管理2

レコード管理: 保持ラベル ポリシーを自動適用する1
OneDrive アカウント データ損失防止

レコード管理: 保持ラベル ポリシーを自動適用する1
Teams チャットおよびチャネル メッセージ データ損失防止

インサイダーリスク管理2
デバイス データ損失防止

インサイダーリスク管理2

1 キーワードと機密情報の種類をサポートします。
2 リスク スコアリングのために、画像に存在する機密情報の種類とトレーニング可能な分類子を考慮します。


サポートされているファイルの種類は何ですか?

この機能では、次のファイルの種類の画像のスキャンがサポートされています。特に説明されている要件があります。

サポートされているファイルの種類 イメージの要件
JPEG、JPG、PNG、BMP、TIFF、PDF (画像のみ) ファイル サイズ: Exchange および Teams のイメージ ファイルは、20 MB 以下にする必要があります。 SharePoint、OneDrive、および Windows エンドポイントの場合、最大イメージ ファイル サイズは 50 MB です。

画像の解像度: 画像の解像度は 50 x 50 ピクセル以上で、16,000 x 16,000 ピクセル以下である必要があります。

重要

  • OCR が有効になった後にアップロードされた画像のみがスキャンされます。
  • 受信メール (organization外のユーザーからの電子メール) と送信メール (organization内のユーザーから送信された電子メール) の両方が OCR スキャンの対象となります。 OCR スキャンを送信メールのみに制限するには、[ すべての配布グループ ] の既定のスコープから特定の配布グループに OCR 設定を変更し、OCR でスキャンする内部配布グループを指定します。 この構成の変更については、「 フェーズ 3: OCR 設定を構成する」を参照してください
  • Exchange のイメージでは、データ損失防止ポリシーのヒントはサポートされていません。
  • エンドポイント データ損失防止設定で パスを除外 した場合、OCR はそれらのフォルダー内の画像をスキャンしません。
  • Windows デバイスで OCR が有効になっていると、デバイスはスキャンのためにクラウドへのメッセージの送信を開始します。 既定の帯域幅制限は、 デバイスあたり 1 日あたり 1024 MB のデータです。 OCR は、この 1 日の制限に達すると画像のスキャンを停止します。 画像のスキャンを続行する場合は、帯域幅の制限を増やすことができます。

サポートされている言語は何ですか?

OCR スキャンでは 、150 を超える言語がサポートされています。

概要

関連項目