Document Intelligence 読み取りモデル

[アーティクル]
05/23/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。
機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
パブリックプレビューバージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
米国東部
米国西部 2
"西ヨーロッパ"

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA) v3.0 (GA)

このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー) | 以前のバージョン: v3.0

このコンテンツの適用対象: v3.0 (GA) | 最新バージョン: v4.0 (プレビュー) v3.1

Note

ラベル、道路標識、ポスターなどの外部画像からテキストを抽出するには、パフォーマンスが向上した同期 API を使用して、一般的なドキュメント以外の画像用に最適化された Azure AI Image Analysis v4.0 読み取り機能を使用します。これにより、ユーザーエクスペリエンスシナリオに OCR を簡単に埋め込むことができます。

Document Intelligence の読み取り光学式文字認識 (OCR) モデルは、Azure AI Vision の読み取りよりも高解像度で動作し、PDF ドキュメントやスキャン画像から印刷テキストや手書きテキストを抽出します。また、Microsoft Word、Excel、PowerPoint、HTML ドキュメントからテキストを抽出するためのサポートも含まれています。段落、テキスト行、単語、場所、言語が検出されます。この読み取りモデルは、カスタムモデルに加えて、レイアウト、一般ドキュメント、請求書、領収書、身分証明書 (ID)、医療保険カード、W2 など、他の Document Intelligence 事前構築済みモデルの基になる OCR エンジンです。

ドキュメントの OCR とは

ドキュメントの光学式文字認識 (OCR) は、複数のファイル形式とグローバル言語の大きなテキスト負荷の高いドキュメントに最適化されています。これには、ドキュメント画像の高解像度スキャンによる小さな文字や密集した文字の優れた処理、段落検出、入力可能なフォーム管理などの機能が含まれています。 OCR 機能には、1 文字のボックスや、請求書、領収書、その他の事前構築済みのシナリオでよく見られるキーフィールドの正確な抽出などの高度なシナリオも含まれます。

開発オプション

Document Intelligence v4.0 (2024-02-29-preview、2023-10-31-preview) では、次のツール、アプリケーション、ライブラリがサポートされています。

機能	リソース	モデル ID
OCR 読み取りモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

Document Intelligence v3.1 では、次のツール、アプリケーション、ライブラリがサポートされています。

機能	リソース	モデル ID
OCR 読み取りモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

ドキュメントインテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
OCR 読み取りモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

入力の要件

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office: Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-02-29-preview)

PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

Read モデルの概要

Document Intelligence Studio を使用して、フォームやドキュメントからテキストを抽出してみてください。次の資産が必要になります。

Azure サブスクリプション - 無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Note

現在、Document Intelligence Studio では、Microsoft Word、Excel、PowerPoint、HTML のファイル形式はサポートされていません。

"Document Intelligence Studio で処理されたサンプルドキュメント"

Document Intelligence Studio での読み取り処理のスクリーンショット。

Document Intelligence Studio ホームページで、[読み取り] を選びます。
サンプルドキュメントを分析したり、独自のファイルをアップロードしたりできます。
[分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

Document Intelligence Studio を試す。

サポートされている言語とロケール

サポートされている言語の完全なリストについては、言語サポート - ドキュメント解析モデルのページを参照してください。

データの抽出

Note

Microsoft Word および HTML ファイルは、v3.1 以降のバージョンでサポートされています。 PDF や画像と比較して、以下の機能はサポートされていません。

各ページオブジェクトには、角度、幅と高さ、単位はありません。
検出される各オブジェクトには、多角形領域も境界領域もありません。
ページ範囲 (pages) はパラメーターとしてサポートされていません。
lines オブジェクトはありません。

ページ

ページコレクションは、ドキュメント内のページの一覧です。各ページはドキュメント内で順番に表示され、ページが回転しているかどうかを示す方向角度と、幅と高さ (ピクセル単位の寸法) が含まれます。モデル出力のページ単位は、次のように計算されます。

ファイル形式	計算されるページ単位	[総ページ数]
画像 (JPEG/JPG、PNG、BMP、HEIF)	各画像 = 1 ページ単位	画像の合計
PDF	PDF の各ページ = 1 ページ単位	PDF のページの合計数
TIFF	TIFF の各画像 = 1 ページ単位	TIFF の画像の合計数
Word (DOCX)	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数
Excel (XLSX)	各ワークシート = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計ワークシート数
PowerPoint (PPTX)	各スライド = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計スライド数
HTML	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

サンプルコード
出力

# Analyze pages.
for page in result.pages:
    print(f"----Analyzing document from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

GitHub でサンプルを表示する。

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

サンプルコード
出力

# Analyze pages.
for page in result.pages:
    print(f"----Analyzing document from page #{page.page_number}----")
    print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

GitHub でサンプルを表示する。

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

テキスト抽出対象のページを選びます

複数ページの大きい PDF ドキュメントの場合は、pages クエリパラメーターを使用して、テキストを抽出する特定のページ番号またはページ範囲を示します。

段落

Document Intelligence の読み取り OCR モデルは、analyzeResults の最上位オブジェクトとして、paragraphs コレクション内の識別されたテキストブロックすべてを抽出します。このコレクション内の各エントリはテキストブロックを表し、抽出されたテキスト (content) と境界 polygon 座標を含みます。 span情報は、ドキュメントのテキスト全体を含む最上位contentプロパティ内のテキストフラグメントを指します。

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

テキスト、行、単語

読み取り OCR モデルでは、印刷と手書きのスタイルのテキストをlinesおよびwordsとして抽出します。このモデルでは、抽出された単語の境界 polygon 座標と confidence を出力します。 styles コレクションには、行の手書きスタイル (関連するテキストを指すスパンと共に検出された場合) が含まれます。この機能は、サポートされている手書き言語に適用されます。

Microsoft Word、Excel、PowerPoint、HTML の場合、Document Intelligence Read モデル v3.1 以降のバージョンでは、すべての埋め込みテキストがそのまま抽出されます。テキストは単語と段落として抽出されます。埋め込み画像はサポートされません。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

サンプルコード
出力

# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

GitHub でサンプルを表示する。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

サンプルコード
出力

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
        words = get_words(page, line)
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
        )

        # Analyze words.
        for word in words:
            print(f"......Word '{word.content}' has a confidence of {word.confidence}")

GitHub でサンプルを表示する。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

テキスト行の手書きスタイル

応答では、各テキスト行が手書きスタイルであるかどうかと、信頼度スコアが分類されます。詳細については、手書き言語サポートに関するページを "参照" してください。次の例は、JSON スニペットの例を示しています。

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

フォントとスタイルのアドオン機能を有効にすると、styles オブジェクトの一部としてフォントとスタイルの結果も取得されます。

次のステップ

Document Intelligence のクイックスタートを完了します。

REST API を調べる:

Document Intelligence API v4.0

その他のサンプルを GitHub でご覧ください。

読み取りモデル。

その他のサンプルを GitHub でご覧ください。

読み取りモデル。

次の方法で共有

Document Intelligence 読み取りモデル

ドキュメントの OCR とは

開発オプション

入力の要件

Read モデルの概要

サポートされている言語とロケール

データの抽出

ページ

テキスト抽出対象のページを選びます

段落

テキスト、行、単語

テキスト行の手書きスタイル

次のステップ

フィードバック

フィードバック

その他のリソース