注:
2025 年 12 月まで、従量課金制を設定している場合、光学式文字認識やその他の選択されたコンテンツ サービスを無償で試すことができます。 詳細と制限事項については、「 従量課金制サービスを試す」を参照してください。
SharePoint の光学式文字認識 (OCR) サービスを使用すると、画像やドキュメントから印刷または手書きのテキストを抽出できます。 画像の例としては、ポスター、図面、製品ラベルなどがあります。 ドキュメントの例としては、記事、レポート、フォーム、請求書などがあります。
テキストは通常、単語、テキスト行、段落またはテキスト ブロックとして抽出され、スキャンされたテキストのデジタル バージョンにアクセスできます。 抽出された情報は検索でインデックスが作成され、 データ損失防止 (DLP) などのコンプライアンス機能で使用できます。
たとえば、OCR サービスを有効にしてから、ドキュメント ライブラリにイメージ ファイルを追加します。 この機能は、画像ファイルを自動的にスキャンし、関連するテキストを抽出し、画像からテキストを検索およびインデックス作成できるようにします。 この機能を使用すると、探しているキーワードやフレーズをすばやく正確に見つけることができます。
要件と制限事項
サポートされているファイルの種類
エンドポイント | サポートされているファイルの種類 |
---|---|
SharePoint および OneDrive |
.bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf (scanned and hybrid)
docx, pptx, xlsx に埋め込まれた画像を抽出してスキャンする |
Exchange |
.jpeg, .jpg, .png, .bmp, .tiff, and PDFs (scanned and hybrid) . 埋め込み画像 docx, pptx, xlsx, rar, tar, zip, 7z |
Teams、Windows、macOS エンドポイント | .jpeg, .jpg, .png, .bmp, .tiff, and PDF (image only) |
SharePoint OCR では、画像ベースの PDF に加えて、ハイブリッド PDF (テキストと画像 PDF) がサポートされています。 新しくアップロードされたハイブリッド PDF は、OCR サービスによって処理されます。
注:
画像ファイルに OCR を適用すると、テキストは [抽出されたテキスト メタデータ] 列に格納されます。 PDF または TIFF ファイルに OCR を適用すると、抽出されたテキストのインデックスは検索されますが、メタデータ列では使用できません。
SharePoint での Office ファイルのサポート
SharePoint では、Word、PowerPoint、Excel ドキュメントなど、Microsoft 365 Office ファイルの OCR がサポートされるようになりました。 これらのファイルに追加された画像は OCR を使用して自動的にスキャンされ、抽出されたテキストは検索目的でインデックスが作成され、コンプライアンス ソリューションに統合されます。 さらに、SharePoint では、重複除去プロセスを実装して、同じイメージに対する重複料金を回避するために、一意のイメージをチェックしました。
サポートされている言語
OCR サービスでは 、150 を超える言語がサポートされています。
サポートされている場所とソリューション
OCR サービスでは、次の表に示すように、複数のソリューションがサポートされています。 コンプライアンス ソリューションの詳細については、「 Microsoft Purview でサポートされている場所とソリューション」を参照してください。
場所 | サポートされているソリューション |
---|---|
Exchange | テキストは、エンドユーザーの検索と検索駆動型ソリューションで使用できます。 コンプライアンス ソリューションでは、テキストを使用できます。 |
SharePoint サイト | テキストは、エンドユーザーの検索と検索駆動型ソリューションで使用できます。 コンプライアンス ソリューションでは、テキストを使用できます。 |
OneDrive アカウント | テキストは、エンドユーザーの検索と検索駆動型ソリューションで使用できます。 コンプライアンス ソリューションでは、テキストを使用できます。 |
Teams チャットとチャネル メッセージ | コンプライアンス ソリューションでは、テキストを使用できます。 |
デバイス | コンプライアンス ソリューションでは、テキストを使用できます。 |
ファイルの制限事項
イメージは 50 MB 未満にする必要があります。
イメージは 50 x 50 ピクセル以上で、16,000 x 16,000 ピクセル以下である必要があります。
OCR が有効になった後にアップロードされた画像は、スキャンされる唯一の画像です。