Document Intelligence 読み取りモデル

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
  • 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • ドキュメント インテリジェンス クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2023-10-31-プレビュー にデフォルトで設定されます。
  • パブリック プレビュー バージョン 2023-10-31-preview は、現在、次の Azure リージョンでのみ使用できます。
  • 米国東部
  • 米国西部 2
  • "西ヨーロッパ"

このコンテンツの適用対象: checkmarkv4.0 (プレビュー) | 以前のバージョン: blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)

このコンテンツの適用対象:checkmarkv3.1 (GA) | 最新のバージョン:purple-checkmarkv4.0 (プレビュー) | 以前のバージョン:blue-checkmarkv3.0

このコンテンツの適用対象:checkmarkv3.0 (GA) | 最新バージョン:purple-checkmarkv4.0 (プレビュー)purple-checkmarkv3.1 (プレビュー)

Note

ラベル、道路標識、ポスターなどの外部画像からテキストを抽出するには、パフォーマンスが向上した同期 API を使用して、一般的なドキュメント以外の画像用に最適化された Azure AI Image Analysis v4.0 読み取り機能を使用します。これにより、ユーザー エクスペリエンス シナリオに OCR を簡単に埋め込むことができます。

Document Intelligence の読み取り光学式文字認識 (OCR) モデルは、Azure AI Vision の読み取りよりも高解像度で動作し、PDF ドキュメントやスキャン画像から印刷テキストや手書きテキストを抽出します。 また、Microsoft Word、Excel、PowerPoint、HTML ドキュメントからテキストを抽出するためのサポートも含まれています。 段落、テキスト行、単語、場所、言語が検出されます。 この読み取りモデルは、カスタム モデルに加えて、レイアウト、一般ドキュメント、請求書、領収書、身分証明書 (ID)、医療保険カード、W2 など、他の Document Intelligence 事前構築済みモデルの基になる OCR エンジンです。

ドキュメントの OCR とは

ドキュメントの光学式文字認識 (OCR) は、複数のファイル形式とグローバル言語の大きなテキスト負荷の高いドキュメントに最適化されています。 これには、ドキュメント画像の高解像度スキャンによる小さな文字や密集した文字の優れた処理、段落検出、入力可能なフォーム管理などの機能が含まれています。 OCR 機能には、1 文字のボックスや、請求書、領収書、その他の事前構築済みのシナリオでよく見られるキー フィールドの正確な抽出などの高度なシナリオも含まれます。

開発オプション

Document Intelligence v4.0 (2023-10-31-preview) では、次のツール、アプリケーション、ライブラリがサポートされています。

機能 リソース モデル ID
OCR 読み取りモデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-read

Document Intelligence v3.1 では、次のツール、アプリケーション、ライブラリがサポートされています。

機能 リソース モデル ID
OCR 読み取りモデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-read

ドキュメント インテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています:

機能 リソース モデル ID
OCR 読み取りモデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-read

入力の要件

  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
    既読
    Layout ✔ (2023-10-31-プレビュー)
    一般的なドキュメント
    事前構築済み
    Custom
  • PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1GB で、最大 10,000 ページです。

モデル データの抽出を読み取る

Document Intelligence Studio を使用して、フォームやドキュメントからテキストを抽出してみてください。 次の資産が必要になります。

  • Azure サブスクリプション — 無料で作成することができます

  • Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Screenshot of keys and endpoint location in the Azure portal.

Note

現在、Document Intelligence Studio では、Microsoft Word、Excel、PowerPoint、HTML のファイル形式はサポートされていません。

"Document Intelligence Studio で処理されたサンプル ドキュメント"

Screenshot of Read processing in Document Intelligence Studio.

  1. Document Intelligence Studio ホーム ページで、[読み取り] を選択します。

  2. サンプル ドキュメントを分析したり、独自のファイルをアップロードしたりできます。

  3. [分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

    Screenshot of Run analysis and Analyze options buttons in the Document Intelligence Studio.

サポートされている抽出された言語とロケール

サポートされている言語の完全なリストについては、言語サポート — ドキュメント分析モデルに関するページを参照してください。

Microsoft Office と HTML テキスト抽出

Microsft Office ファイルと HTML ファイルを分析する場合、モデル出力のページ単位は次のように計算されます。

ファイル形式 計算されるページ単位 [総ページ数]
Word 最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません 最大 3,000 文字ずつのページの合計数
Excel 各ワークシート = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません 合計ワークシート数
PowerPoint 各スライド = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません 合計スライド数
HTML 最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません 最大 3,000 文字ずつのページの合計数

段落の抽出

Document Intelligence の読み取り OCR モデルは、analyzeResults の最上位オブジェクトとして、paragraphs コレクション内の識別されたテキスト ブロックすべてを抽出します。 このコレクション内の各エントリはテキスト ブロックを表し、抽出されたテキスト (content) と境界 polygon 座標を含みます。 span情報は、ドキュメントのテキスト全体を含む最上位contentプロパティ内のテキスト フラグメントを指します。

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

モデル出力のページ単位は、次のように計算されます。

ファイル形式 計算されるページ単位 [総ページ数]
画像 各画像 = 1 ページ単位 画像の合計
PDF PDF の各ページ = 1 ページ単位 PDF のページの合計数
TIFF TIFF の各画像 = 1 ページ単位 PDF の画像の合計数
"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": [],
        "kind": "document"
    }
]

テキスト行と単語の抽出

読み取り OCR モデルでは、印刷と手書きのスタイルのテキストをlinesおよびwordsとして抽出します。 このモデルでは、抽出された単語の境界 polygon 座標と confidence を出力します。 styles コレクションには、行の手書きスタイル (関連するテキストを指すスパンと共に検出された場合) が含まれます。 この機能は、サポートされている手書き言語に適用されます。

Microsoft Word、Excel、PowerPoint、HTML のファイルのサポートのプレビューの場合、Read ではすべての埋め込みテキストをそのまま抽出します。 埋め込み画像の場合は、画像に対して OCR を実行してテキストを抽出し、各画像からのテキストを追加対象エントリとして pages コレクションに追加します。 これらの追加対象エントリには、抽出されたテキスト行と単語、境界ポリゴン、信頼度、関連するテキストを指すスパンが含まれます。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

テキスト抽出用のページを選択する

複数ページの大きい PDF ドキュメントの場合は、pages クエリ パラメーターを使用して、テキストを抽出する特定のページ番号またはページ範囲を示します。

Note

Microsoft Word、Excel、PowerPoint、HTML のファイルのサポートの場合、Read API では既定で pages パラメーターを無視し、すべてのページを抽出します。

テキスト行の手書きスタイル

応答では、各テキスト行が手書きスタイルであるかどうかと、信頼度スコアが分類されます。 詳細については、手書きの言語サポートに関するセクションを "参照" してください。 次の例は、JSON スニペットの例を示しています。

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

次のステップ

Document Intelligence のクイックスタートを完了します。

REST API を調べる: