Microsoft Syntexにおける光学文字認識の概要

注:

2024 年 6 月まで、 従量課金制 を設定している場合は、光学式文字認識やその他の選択された Syntex サービスを無償で試すことができます。 詳細と制限事項については、「Microsoft Syntexを試してサービスを調べる」を参照してください。

Microsoft Syntexの光学式文字認識 (OCR) サービスを使用すると、画像やドキュメントから印刷または手書きのテキストを抽出できます。 画像の例としては、ポスター、図面、製品ラベルなどがあります。 ドキュメントの例としては、記事、レポート、フォーム、請求書などがあります。

テキストは通常、単語、テキスト行、段落またはテキスト ブロックとして抽出され、スキャンされたテキストのデジタル バージョンにアクセスできます。 抽出された情報は検索でインデックスが作成され、 データ損失防止 (DLP) などのコンプライアンス機能で使用できます。

たとえば、OCR サービスを有効にしてから、ドキュメント ライブラリにイメージ ファイルを追加します。 Microsoft Syntexは、画像ファイルを自動的にスキャンし、関連するテキストを抽出し、画像からテキストを検索およびインデックス作成できるようにします。 この機能を使用すると、探しているキーワードやフレーズをすばやく正確に見つけることができます。

要件と制限事項

サポートされているファイルの種類

エンドポイント サポートされているファイルの種類
SharePoint および OneDrive .bmp、.png、.jpeg、.jpg、.jfif、.arw、.cr2、.crw、.erf、.gif、.mef、.mrw、.nef、.nrw、.orf、.pef、.raw、.rw2、.rw1、.sr2、.tif、.tiff、.heic、.heif、.heif、 .ari、.bay、.cap、.cr3、.dcs、.dcr、.drf、.eip、.fff、.iiq、.k25、.kdc、.mef、.mos、.ptx、.pxn、.raf、.rwl、.sr2、.srf、.srw、.x3f、.dng、.tiff、.pdf (イメージのみ)
Teams、Exchange、および Windows デバイス .bmp、.png、.jpeg、.jpg、.tiff、.pdf (画像のみ)

注:

画像ファイルに OCR を適用すると、テキストは [抽出されたテキスト メタデータ] 列に格納されます。 PDF または TIFF ファイルに OCR を適用すると、抽出されたテキストのインデックスは検索されますが、メタデータ列では使用できません。

サポートされている言語

OCR サービスでは 、150 を超える言語がサポートされています。

サポートされている場所とソリューション

OCR サービスでは、次の表に示すように、複数のソリューションがサポートされています。 コンプライアンス ソリューションの詳細については、「 Microsoft Purview でサポートされている場所とソリューション」を参照してください。

場所 サポートされているソリューション
Exchange テキストは、エンドユーザーの検索と検索駆動型ソリューションで使用できます。
コンプライアンス ソリューションでは、テキストを使用できます。
SharePoint サイト テキストは、エンドユーザーの検索と検索駆動型ソリューションで使用できます。
コンプライアンス ソリューションでは、テキストを使用できます。
OneDrive アカウント テキストは、エンドユーザーの検索と検索駆動型ソリューションで使用できます。
コンプライアンス ソリューションでは、テキストを使用できます。
Teams チャットとチャネル メッセージ コンプライアンス ソリューションでは、テキストを使用できます。
デバイス コンプライアンス ソリューションでは、テキストを使用できます。

ファイルの制限事項

  • イメージは 50 MB 未満にする必要があります。

  • イメージは 50 x 50 ピクセル以上で、16,000 x 16,000 ピクセル以下である必要があります。

  • OCR が有効になった後にアップロードされた画像は、スキャンされる唯一の画像です。

  • Office ドキュメントに埋め込まれているイメージはサポートされていません。