光学式文字認識とは

光学式文字認識 (OCR) を使用すると、道路標識や製品の写真などの画像や、送り状、請求書、財務報告書、記事などのドキュメントから、印刷または手書きのテキストを抽出できます。 Microsoft の OCR テクノロジでは、[複数の言語](./language-support.md)で印刷されたテキストの抽出がサポートされます。

REST API またはクライアント SDK の使用を開始するには、クイックスタートに従ってください。 または、Vision Studio を使用して、ブラウザーですばやく簡単に OCR の機能を試すことができます。

OCR のデモ

このドキュメントには、次のような記事が記載されています。

  • クイックスタートは、サービスの呼び出しと結果の取得を短時間で行えるようにする、ステップバイステップの手順です。
  • 攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。

より構造化されたアプローチについては、OCR の Learn モジュールに従ってください。

Read API

Computer Vision の Read API は、印刷されたテキスト (複数の言語)、手書きのテキスト (複数の言語)、数字、通貨記号を、画像や複数ページの PDF ドキュメントから抽出する、Azure の最新 OCR テクノロジです (新機能について学習する)。 これは、テキストの多い画像や、混合言語を含む複数ページの PDF ドキュメントからテキストを抽出するように最適化されています。 同じ画像またはドキュメントで、印刷と手書き両方のテキストの抽出がサポートされています。

OCR が画像やドキュメントからテキストを抽出する仕組み。

入力の要件

**Read** 呼び出しにより、画像とドキュメントが入力として取得されます。 これには次の要件があります。

  • サポートされているファイル形式: JPEG、PNG、BMP、PDF、TIFF
  • PDF ファイルと TIFF ファイルの場合は、最大 2,000 ページ (Free レベルの場合は最初の 2 ページのみ) が処理されます。
  • 画像のファイル サイズは 500 MB 未満 (Free レベルの場合は 4 MB)、寸法は 50 x 50 ピクセル以上 10,000 x 10,000 ピクセル以下にする必要があります。 PDF ファイルにはサイズ制限がありません。
  • 抽出するテキストの最小の高さは、1024 x 768 のイメージの場合は 12 ピクセルです。 これは、150 DPI での約 8 ポイントのフォントのテキストに対応します。

サポートされている言語

Read API の最新の一般提供 (GA) モデルでは、印刷テキストで 164 言語が、手書きテキストで 9 言語がサポートされます。

印刷テキストの OCR は、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、中国語、日本語、韓国語、ロシア語、アラビア語、ヒンディー語など、ラテン文字、キリル文字、アラビア文字、デーバナーガリー文字を使用する世界中の言語がサポートされます。

手書きテキストの OCR では、英語、簡体中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、スペイン語がサポートされます。

プレビューの言語と機能を使用するためのモデル バージョンの指定方法に関するページを参照してください。 [OCR でサポートされている言語](./language-support.md#optical-character-recognition-ocr)の完全な一覧を参照してください。

主要な機能

Read API には次の機能があります。

  • 164 言語の印刷テキストの抽出
  • 9 つの言語での手書きテキストの抽出
  • テキスト行と単語に位置と信頼度スコアを追加
  • 言語の識別が不要
  • 混合言語、混合モード (印刷と手書き) のサポート
  • 複数ページから成る大きなドキュメントからページやページ範囲を選択
  • テキスト行出力の自然な読み取り順オプション (ラテン語のみ)
  • テキスト行の手書き分類 (ラテン語のみ)
  • オンプレミス デプロイには Distroless Docker コンテナーとして利用可能

[OCR 機能の使用方法](./vision-api-how-to-topics/call-read-api.md)を参照してください。

クラウド API の使用またはオンプレミスへのデプロイ

Read 3.x クラウド API は、統合が簡単で、すぐに生産性を上げることができるため、ほとんどのお客様にとって推奨される選択肢です。 Azure と Computer Vision サービスがスケール、パフォーマンス、データ セキュリティ、コンプライアンスのニーズに対応する一方で、お客様は顧客のニーズを満たすことに集中できます。

オンプレミスへのデプロイの場合は、Read Docker コンテナー (プレビュー) を使用すると、専用のローカル環境に新しい OCR 機能をデプロイできます。 コンテナーは、特定のセキュリティ要件とデータ ガバナンス要件に適しています。

警告

Computer Vision の RecognizeText および ocr 操作は保守されておらず、非推奨になる予定であり、この記事で取り上げている新しい Read API がその代わりになります。 既存顧客の皆様には、[読み取り操作をご利用いただくように](upgrade-api-versions.md)お願いします。

データのプライバシーとセキュリティ

Cognitive Services 全般に言えることですが、Computer Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに留意する必要があります。 詳細については、Microsoft セキュリティ センターの Cognitive Services のページを参照してください。

次のステップ