Document Intelligence 読み取りモデル

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
  • 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
  • パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
  • 米国東部
  • 米国西部 2
  • "西ヨーロッパ"

このコンテンツの適用対象: checkmarkv4.0 (プレビュー) | 以前のバージョン: 青のチェックマークv3.1 (GA)青のチェックマークv3.0 (GA)

このコンテンツの適用対象:checkmarkv3.1 (GA) | 最新のバージョン:紫のチェックマークv4.0 (プレビュー) | 以前のバージョン:青のチェックマークv3.0

このコンテンツの対象:checkmarkv3.0 (GA) | 最新バージョン:紫のチェックマークv4.0 (プレビュー)紫のチェックマークv3.1

Note

ラベル、道路標識、ポスターなどの外部画像からテキストを抽出するには、パフォーマンスが向上した同期 API を使用して、一般的なドキュメント以外の画像用に最適化された Azure AI Image Analysis v4.0 読み取り機能を使用します。これにより、ユーザー エクスペリエンス シナリオに OCR を簡単に埋め込むことができます。

Document Intelligence の読み取り光学式文字認識 (OCR) モデルは、Azure AI Vision の読み取りよりも高解像度で動作し、PDF ドキュメントやスキャン画像から印刷テキストや手書きテキストを抽出します。 また、Microsoft Word、Excel、PowerPoint、HTML ドキュメントからテキストを抽出するためのサポートも含まれています。 段落、テキスト行、単語、場所、言語が検出されます。 この読み取りモデルは、カスタム モデルに加えて、レイアウト、一般ドキュメント、請求書、領収書、身分証明書 (ID)、医療保険カード、W2 など、他の Document Intelligence 事前構築済みモデルの基になる OCR エンジンです。

ドキュメントの OCR とは

ドキュメントの光学式文字認識 (OCR) は、複数のファイル形式とグローバル言語の大きなテキスト負荷の高いドキュメントに最適化されています。 これには、ドキュメント画像の高解像度スキャンによる小さな文字や密集した文字の優れた処理、段落検出、入力可能なフォーム管理などの機能が含まれています。 OCR 機能には、1 文字のボックスや、請求書、領収書、その他の事前構築済みのシナリオでよく見られるキー フィールドの正確な抽出などの高度なシナリオも含まれます。

開発オプション

Document Intelligence v4.0 (2024-02-29-preview、2023-10-31-preview) では、次のツール、アプリケーション、ライブラリがサポートされています。

機能 リソース モデル ID
OCR 読み取りモデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-read

Document Intelligence v3.1 では、次のツール、アプリケーション、ライブラリがサポートされています。

機能 リソース モデル ID
OCR 読み取りモデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-read

ドキュメント インテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています:

機能 リソース モデル ID
OCR 読み取りモデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-read

入力の要件

  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
    既読
    Layout ✔ (2024-02-29-preview、2023-10-31-preview)
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類 ✔ (2024-02-29-preview)
  • PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1GB で、最大 10,000 ページです。

Read モデルの概要

Document Intelligence Studio を使用して、フォームやドキュメントからテキストを抽出してみてください。 次の資産が必要になります。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Note

現在、Document Intelligence Studio では、Microsoft Word、Excel、PowerPoint、HTML のファイル形式はサポートされていません。

"Document Intelligence Studio で処理されたサンプル ドキュメント"

Document Intelligence Studio での読み取り処理のスクリーンショット。

  1. Document Intelligence Studio ホーム ページで、[読み取り] を選びます。

  2. サンプル ドキュメントを分析したり、独自のファイルをアップロードしたりできます。

  3. [分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

    Document Intelligence Studio の [分析の実行] と [分析オプション] ボタンのスクリーンショット。

サポートされている言語とロケール

サポートされている言語の完全なリストについては、言語サポート - ドキュメント解析モデルのページを参照してください。

データの抽出

Note

Microsoft Word および HTML ファイルは、v3.1 以降のバージョンでサポートされています。 PDF や画像と比較して、以下の機能はサポートされていません。

  • 各ページ オブジェクトには、角度、幅と高さ、単位はありません。
  • 検出される各オブジェクトには、多角形領域も境界領域もありません。
  • ページ範囲 (pages) はパラメーターとしてサポートされていません。
  • lines オブジェクトはありません。

ページ

ページ コレクションは、ドキュメント内のページの一覧です。 各ページはドキュメント内で順番に表示され、ページが回転しているかどうかを示す方向角度と、幅と高さ (ピクセル単位の寸法) が含まれます。 モデル出力のページ単位は、次のように計算されます。

ファイル形式 計算されるページ単位 [総ページ数]
画像 (JPEG/JPG、PNG、BMP、HEIF) 各画像 = 1 ページ単位 画像の合計
PDF PDF の各ページ = 1 ページ単位 PDF のページの合計数
TIFF TIFF の各画像 = 1 ページ単位 TIFF の画像の合計数
Word (DOCX) 最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません 最大 3,000 文字ずつのページの合計数
Excel (XLSX) 各ワークシート = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません 合計ワークシート数
PowerPoint (PPTX) 各スライド = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません 合計スライド数
HTML 最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません 最大 3,000 文字ずつのページの合計数
"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

テキスト抽出対象のページを選びます

複数ページの大きい PDF ドキュメントの場合は、pages クエリ パラメーターを使用して、テキストを抽出する特定のページ番号またはページ範囲を示します。

段落

Document Intelligence の読み取り OCR モデルは、analyzeResults の最上位オブジェクトとして、paragraphs コレクション内の識別されたテキスト ブロックすべてを抽出します。 このコレクション内の各エントリはテキスト ブロックを表し、抽出されたテキスト (content) と境界 polygon 座標を含みます。 span情報は、ドキュメントのテキスト全体を含む最上位contentプロパティ内のテキスト フラグメントを指します。

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

テキスト、行、単語

読み取り OCR モデルでは、印刷と手書きのスタイルのテキストをlinesおよびwordsとして抽出します。 このモデルでは、抽出された単語の境界 polygon 座標と confidence を出力します。 styles コレクションには、行の手書きスタイル (関連するテキストを指すスパンと共に検出された場合) が含まれます。 この機能は、サポートされている手書き言語に適用されます。

Microsoft Word、Excel、PowerPoint、HTML の場合、Document Intelligence Read モデル v3.1 以降のバージョンでは、すべての埋め込みテキストがそのまま抽出されます。 テキストは単語と段落として抽出されます。 埋め込み画像はサポートされません。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

テキスト行の手書きスタイル

応答では、各テキスト行が手書きスタイルであるかどうかと、信頼度スコアが分類されます。 詳細については、手書きの言語サポートに関するセクションを "参照" してください。 次の例は、JSON スニペットの例を示しています。

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

フォントとスタイルのアドオン機能を有効にすると、styles オブジェクトの一部としてフォントとスタイルの結果も取得されます。

次のステップ

Document Intelligence のクイックスタートを完了します。

REST API を調べる: