OCR - 光学式文字認識

警告

Foundry Tools のレガシ OCR API v3.2 や RecognizeText API v2.1 の Azure Vision を含め、このサービスを使用することはお勧めしません。

OCR (Read) エディション

重要

要件に最も適した Read エディションを選択します。

入力	例	Read エディション	長所
画像: 一般に出回っている画像	ラベル、道路標識、ポスター	画像の OCR (バージョン 4.0)	OCR をユーザーエクスペリエンスシナリオに簡単に埋め込むことができる、パフォーマンスが向上した同期 API を使用して、ドキュメント以外の一般的な画像用に最適化されています。
ドキュメント: デジタルとスキャン (画像を含む)	書籍、記事、レポート	Document Intelligence 読み取りモデル	インテリジェントなドキュメント処理を大規模に自動化するために、非同期 API を使用してテキストの量が多いスキャンおよびデジタルドキュメント用に最適化されています。

Azure Vision v3.2 GA Read について

最新の Azure Vision v3.2 GA Read をお探しですか? 今後のすべての OCR の読み取り拡張機能は、前述の 2 つのサービスの一部です。 Azure Vision v3.2 のそれ以上の更新はありません。詳細については、「 Azure Vision 3.2 GA Read API の呼び出し」と「クイックスタート: Azure Vision v3.2 GA Read」を参照してください。

OCR または光学式文字認識は、テキスト認識またはテキスト抽出とも呼ばれます。機械学習ベースの OCR 手法を使用すると、ポスター、道路標識、製品ラベルなどの画像や、記事、レポート、フォーム、請求書などのドキュメントから、印刷または手書きのテキストを抽出できます。通常、テキストは単語、テキスト行、段落またはテキストブロックとして抽出され、スキャンされたテキストのデジタルバージョンにアクセスできます。この機能により、手動でのデータ入力の必要性が排除または大幅に削減されます。

OCR エンジン

Microsoft の Read OCR エンジンでは、グローバル言語をサポートする複数の高度な機械学習モデルが使用されています。混合言語や書き込みスタイルなど、印刷されたテキストと手書きのテキストが抽出されます。クラウドサービスまたはオンプレミスコンテナーとして 読み取り を使用して、柔軟なデプロイを行うことができます。また、OCR 支援ユーザーエクスペリエンスの実装を簡略化するパフォーマンスが強化された、単一のドキュメント以外のイメージのみのシナリオ向けの同期 API としても使用できます。

インテリジェントドキュメント処理 (IDP) は、OCR を基盤技術として使用して、ドキュメントインテリジェンスなどの高度な機械学習ベースの AI サービスを使用して、構造、リレーションシップ、キー値、エンティティ、およびその他のドキュメント中心の分析情報を抽出します。 Document Intelligence には、OCR エンジンとしてドキュメントに最適化されたバージョンの Read が含まれる一方で、より高度な分析情報については他のモデルに委任されます。スキャンしたドキュメントとデジタルドキュメントからテキストを抽出する場合は、ドキュメントインテリジェンス読み取り OCR を使用します。

OCR でサポートされている言語

Azure Vision で現在利用できる 両方の読み取り バージョンでは、印刷されたテキストと手書きのテキストに対して複数の言語がサポートされています。印刷されたテキストの OCR は、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、中国語、日本語、韓国語、ロシア語、アラビア語、ヒンディー語、ラテン語、キリル文字、アラビア語、および Devanagari スクリプトを使用するその他の国際言語をサポートします。手書きテキストの OCR では、英語、簡体字中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、スペイン語がサポートされます。

OCR でサポートされている言語の完全な一覧を参照してください。

OCR の共通機能

読み取り OCR モデルは、それぞれのシナリオに合わせて最適化しながら、一般的なベースライン機能を備えた Azure Vision とドキュメントインテリジェンスで使用できます。一般的な機能を次に示します。

サポートされる言語での印刷テキストと手書きテキストの抽出
場所と信頼度スコアを持つページ、テキスト行、単語
混合言語、混合モード (印刷と手書き) のサポート
オンプレミスデプロイには Distroless Docker コンテナーとして利用可能

OCR クラウド API の使用またはオンプレミスへのデプロイ

ほとんどのお客様は、統合が簡単で、すぐに生産性を提供できるため、クラウド API を好みます。 Azure と Azure Vision サービスは、顧客のニーズを満たすことに集中しながら、スケール、パフォーマンス、データセキュリティ、コンプライアンスのニーズを処理します。

オンプレミスのデプロイでは、 Read Docker コンテナーを使用して、Azure Vision v3.2 の一般提供の OCR 機能を独自のローカル環境にデプロイできます。コンテナーは、特定のセキュリティ要件とデータガバナンス要件に適しています。

入力の要件

Read API は、画像やドキュメントを入力として受理します。画像とドキュメントは、次の要件を満たしている必要があります。

サポートされているファイル形式は JPEG、PNG、BMP、PDF、TIFF です。
PDF ファイルと TIFF ファイルの場合、最大 2,000 ページが処理されます (Free レベルの最初の 2 ページのみ)。
イメージのファイルサイズは、50 x 50 ピクセル以上、最大 10,000 x 10,000 ピクセルのサイズで、500 MB (Free レベルでは 4 MB) 未満である必要があります。 PDF ファイルにはサイズ制限がありません。
抽出するテキストの最小高は、1024 x 768 イメージに対して 12 ピクセルです。これは、150 DPI で約 8 ポイントのフォントテキストに相当します。

注

テキスト行の画像をトリミングする必要はありません。画像全体を Read API に送信すると、すべてのテキストが認識されます。

OCR のデータプライバシーとセキュリティ

すべての Foundry Tools と同様に、Azure Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに注意する必要があります。詳細については、Microsoft セキュリティセンターの Foundry Tools ページを参照してください。

次のステップ

一般的な (ドキュメント以外の) イメージを含む OCR については、 Azure Vision 4.0 プレビュー Image Analysis REST API のクイックスタートをお試しください。
PDF、Office、HTML ドキュメント、ドキュメントイメージを使用した OCR の場合は、ドキュメントインテリジェンス読み取りから始めます。
以前の GA バージョンについては、 Azure Vision 3.2 GA SDK または REST API のクイックスタートを参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-02-25