ドキュメントインテリジェンスレイアウトモデル

[アーティクル]
11/19/2024

このコンテンツの適用対象: v4.0 (GA) | 以前のバージョン: v3.1 (GA) v3.0 (GA) v2.1 (GA)

ドキュメントインテリジェンスレイアウトモデルは、ドキュメントインテリジェンスクラウドで使用できる高度な機械学習ベースのドキュメント分析 API です。これを使用すると、さまざまな形式のドキュメントを受け取り、ドキュメントの構造化されたデータ表現を返すことができます。これは、Microsoft の強力な光学式文字認識 (OCR) 機能の強化バージョンと、ディープラーニングモデルを組み合わせ、テキスト、テーブル、選択マーク、ドキュメント構造を抽出します。

ドキュメントレイアウト分析 (v4)

ドキュメントの構造レイアウト分析は、関心領域とその相互関係を抽出するためにドキュメントを分析するプロセスです。目標は、より適切なセマンティック理解モデルを構築するために、ページからテキストと構造要素を抽出することです。ドキュメントレイアウトには 2 種類のロールがあります。

ジオメトリックロール: テキスト、テーブル、図形、選択マークは、ジオメトリックロールの例です。
論理ロール: タイトル、見出し、フッターはテキストの論理ロールの例です。

次の図は、サンプルページの画像内の一般的なコンポーネントを示しています。

ドキュメントレイアウトの例の図。

開発オプション (v4)

Document Intelligence v4.0: 2024-11-30 (GA) は、次のツール、アプリケーション、ライブラリをサポートします:

機能	リソース	モデル ID
レイアウトモデル	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みレイアウト

入力の要件 (v4)

サポートされているファイル形式:

モデル	PDF	画像: `JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office: Word (`DOCX`)、Excel (`XLSX`)、PowerPoint (`PPTX`)、HTML
読み込み	✔	✔	✔
Layout	✔	✔	✔
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 ピクセル　x 50 ピクセルから 10,000 ピクセル　x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1 GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニングデータの合計サイズは 2 GB で、最大 10,000 ページです。

レイアウトモデルの概要

ドキュメントインテリジェンスを使用して、テキスト、テーブル、テーブルヘッダー、選択マーク、構造情報などのデータをドキュメントから抽出する方法について説明します。以下のリソースが必要です。

Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Note

Document Intelligence Studio は、v3.0 API 以降のバージョンで使用できます。

"Document Intelligence Studio で処理されたサンプルドキュメント"

Document Intelligence Studio での新聞ページの [レイアウト] 処理のスクリーンショット。

Document Intelligence Studio ホームページで、[レイアウト] を選択します。
サンプルドキュメントを分析したり、独自のファイルをアップロードしたりできます。
[分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

Document Intelligence Studio を試す。

サポートされている言語

サポートされている言語の完全なリストについては、言語サポート — ドキュメント分析モデルに関するページを参照してください。

データの抽出 (v4)

レイアウトモデルは、ドキュメントから、テキスト、選択マーク、テーブル、段落、段落の種類 (roles) を抽出します。

Note

Document Intelligence v4.0 (2024-11-30 (GA)) 以降では、Microsoft Office (DOCX、XLSX、PPTX) および HTML ファイルがサポートされます。次の機能はサポートされていません。

各ページオブジェクトには、角度、幅/高さ、および単位はありません。
検出される各オブジェクトには、多角形領域も境界領域もありません。
ページ範囲 (pages) はパラメーターとしてサポートされていません。
lines オブジェクトはありません。

ページ

ページコレクションは、ドキュメント内のページの一覧です。各ページはドキュメント内で順番に表示され、ページが回転しているかどうかを示す方向角度と、幅と高さ (ピクセル単位の寸法) が含まれています。モデル出力のページ単位は、次のように計算されます。

ファイル形式	計算されるページ単位	[総ページ数]
画像 (JPEG/JPG、PNG、BMP、HEIF)	各画像 = 1 ページ単位	画像の合計
PDF	PDF の各ページ = 1 ページ単位	PDF のページの合計数
TIFF	TIFF の各画像 = 1 ページ単位	TIFF の画像の合計数
Word (DOCX)	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数
Excel (XLSX)	各ワークシート = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計ワークシート数
PowerPoint (PPTX)	各スライド = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計スライド数
HTML	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数

サンプルコード
出力

# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

GitHub でサンプルを表示する。

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

選択したページをドキュメントから抽出する

ページが複数にわたる大きなドキュメントの場合、pages クエリパラメーターを使用し、テキスト抽出対象として特定のページ番号またはページ範囲を示します。

段落

レイアウトモデルは、analyzeResults の最上位オブジェクトとして、paragraphs コレクション内の識別されたテキストブロックすべてを抽出します。このコレクション内の各エントリはテキストブロックを表し、抽出されたテキスト (content) と境界 polygon 座標が含まれています。 span 情報は、ドキュメントのテキスト全体を含む最上位 content プロパティ内のテキストフラグメントを指します。


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

段落の役割

新しい機械学習ベースのページオブジェクト検出では、タイトル、セクション見出し、ページヘッダー、ページフッターなどの論理ロールが抽出されます。ドキュメントインテリジェンスレイアウトモデルでは、paragraphs コレクション内の特定のテキストブロックに、モデルによって予測される特殊なロールまたは型が割り当てられます。抽出されたコンテンツのレイアウトを理解して、より高度なセマンティック分析を実現するために、非構造化ドキュメントで段落の役割を使用することをお勧めします。次の段落の役割がサポートされています。

予測される役割	説明	サポートされているファイルの種類
`title`	ページのメイン見出し	pdf、image、docx、pptx、xlsx、html
`sectionHeading`	ページの 1 つ以上の小見出し	pdf、image、docx、xlsx、html
`footnote`	ページの下部付近のテキスト	pdf、image
`pageHeader`	ページの上端付近のテキスト	pdf、image、docx
`pageFooter`	ページの下端付近のテキスト	pdf、image、docx、pptx、html
`pageNumber`	ページ番号	pdf、image

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

テキスト、行、および単語

ドキュメントレイアウトモデルでは、印刷および手書きのスタイルテキストが lines および words として抽出されます。 styles コレクションには、行の手書きスタイルが関連するテキストを指す span と共に含まれています (検出された場合)。この機能は、サポートされている手書き言語に適用されます。

Microsoft Word、Excel、PowerPoint、HTML の場合、Document Intelligence v4.0 2024-11-30 (GA) のレイアウトモデルでは、埋め込みテキストがすべてそのまま抽出されます。テキストは単語と段落として抽出されます。埋め込み画像はサポートされません。

サンプルコード
出力

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
    words = get_words(page, line)
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{line.polygon}'"
    )

    # Analyze words.
    for word in words:
        print(f"......Word '{word.content}' has a confidence of {word.confidence}")

GitHub でサンプルを表示する。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

テキスト行の手書きスタイル

応答には、各テキスト行が手書きスタイルであるかどうかの分類が、信頼度スコアと共に含まれています。詳細については、手書き言語のサポートに関するページを参照してください。次の例は、JSON スニペットの例を示しています。

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

フォント/スタイルのアドオン機能を有効にすると、styles オブジェクトの一部としてフォント/スタイルの結果も取得されます。

選択マーク

レイアウトモデルにより、ドキュメントから選択マークも抽出されます。抽出された選択マークは、各ページの pages コレクション内に示されます。これには、境界 polygon、confidence、および選択 state (selected/unselected) が含まれます。テキスト表現 (すなわち、:selected: と :unselected) も、開始インデックス (offset) として含まれます。length はドキュメントのテキスト全体を含む最上位の content プロパティを参照します。

サンプルコード
出力

# Analyze selection marks.
if page.selection_marks:
    for selection_mark in page.selection_marks:
        print(
            f"Selection mark is '{selection_mark.state}' within bounding polygon "
            f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
        )

GitHub でサンプルを表示する。

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tables

テーブルの抽出は、通常、テーブルとして書式設定された大量のデータを含むドキュメントを処理するための重要な要件です。レイアウトモデルでは、JSON 出力の pageResults セクションにテーブルが抽出されます。抽出されたテーブルの情報には、列と行の数、行の span、列の span が含まれています。境界ポリゴンのある各セルは、その領域が columnHeader として認識されているかどうかにかかわらず、情報と共に出力されます。このモデルでは、回転されるテーブルの抽出がサポートされています。各テーブルセルには、行と列のインデックスと境界ポリゴン座標が含まれています。セルテキストの場合、このモデルは開始インデックス (offset) を含む span 情報を出力します。また、このモデルは、ドキュメントのテキスト全体を含む最上位コンテンツ内の length も出力します。

Document Intelligence ベール抽出機能を使用する際の考慮事項は、次のとおりです。

抽出するデータはテーブルとして表されていますか? また、テーブル構造には意味がありますか?
データがテーブル形式でない場合、そのデータは 2 次元グリッドに収まりますか?
テーブルは複数のページにまたがっていますか? その場合は、すべてのページにラベルを付けなくても済むように、PDF を Document Intelligence に送信する前にページに分割します。分析の後に、そのページを 1 つのテーブルに後処理します。
カスタムモデルを作成する場合は、「表形式フィールド」を参照してください。動的テーブルには、列ごとに可変数の行があります。固定テーブルには、列ごとに一定数の行があります。

Note

入力ファイルが XLSX の場合、テーブル分析はサポートされません。
2024-11-30 (GA) の場合、図と表の境界領域はコアコンテンツのみをカバーし、関連するキャプションと脚注は除外されます。

サンプルコード
出力

if result.tables:
    for table_idx, table in enumerate(result.tables):
        print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
        if table.bounding_regions:
            for region in table.bounding_regions:
                print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
        # Analyze cells.
        for cell in table.cells:
            print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
            if cell.bounding_regions:
                for region in cell.bounding_regions:
                print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")

GitHub でサンプルを表示する。

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

マークダウン形式への出力

Layout API では、抽出されたテキストをマークダウン形式で出力できます。 outputContentFormat=markdown を使用して、マークダウンの出力形式を指定します。マークダウンコンテンツは、content セクションの一部として出力されます。

Note

v4.0 2024-11-30 (GA) の場合、結合されたセルや複数行ヘッダーなどをレンダリングできるように、テーブルの表現が HTML テーブルに変更されます。もう 1 つの関連する変更は、:selected: と :unselected: の代わりに、Unicode のチェックボックス文字である☒と☐を選択マークとして使用することです。これは、スパンが最上位レベルのスパンの Unicode 文字を参照している場合でも、選択マークフィールドの内容に :selected: が含まれることに注意してください。

サンプルコード
出力

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

GitHub でサンプルを表示する。

PageHeader="This is the header of the document." 

This is title
===
# 1\. Text
Latin refers to an ancient Italic language originating in the region of Latium in ancient Rome.
# 2\. Page Objects
## 2.1 Table
Here's a sample table below, designed to be simple for easy understand and quick reference.
| Name | Corp | Remark |
| - | - | - |
| Foo | | |
| Bar | Microsoft | Dummy |
Table 1: This is a dummy table
## 2.2. Figure
<figure>
<figcaption>

Figure 1: Here is a figure with text
</figcaption>

![](figures/0)
FigureContent="500 450 400 400 350 250 200 200 200- Feb" 
</figure>

# 3\. Others
Al Document Intelligence is an Al service that applies advanced machine learning to extract text, key-value pairs, tables, and structures from documents automatically and accurately:
    :selected:
clear
    :selected:
precise
    :unselected:
vague
    :selected:
coherent
    :unselected:
Incomprehensible
Turn documents into usable data and shift your focus to acting on information rather than compiling it. Start with prebuilt models or create custom models tailored to your documents both on premises and in the cloud with the Al Document Intelligence studio or SDK.
Learn how to accelerate your business processes by automating text extraction with Al Document Intelligence. This webinar features hands-on demos for key use cases such as document processing, knowledge mining, and industry-specific Al model customization.
PageFooter="This is the footer of the document." 
PageFooter="1 | Page"

図形

ドキュメント内の図形 (グラフ、イメージ) は、複雑な情報の解釈に役立つ視覚的表現を提供して、テキストコンテンツを補完し拡張する上で重要な役割を果たします。レイアウトモデルによって検出される図形オブジェクトには、boundingRegions (ページ番号や図形の境界を囲む多角形座標など、ドキュメントページ上の図形の空間位置)、spans (ドキュメントのテキスト内でのオフセットと長さを指定する、図形に関連するテキストスパンの詳細) などの主要なプロパティがあります。この接続は、図形を関連するテキストコンテキストに関連付けるのに役立ち、elements (図に関連する、または図を説明するドキュメント内のテキスト要素または段落の識別子)、caption (存在する場合) です。

output=figures が最初の分析操作中に指定されると、サービスは、/analyeResults/{resultId}/figures/{figureId} 経由でアクセスできるすべての検出済みの図形に対してトリミングされた画像を生成します。 figureIndex がページあたり 1 つにリセットされる {pageNumber}.{figureIndex} の文書化されていない規則に従って、FigureId が各図形オブジェクトに含まれます。

Note

v4.0 2024-11-30 (GA) の場合、図形と表の境界領域はコアコンテンツのみに対応し、関連するキャプションや脚注は除外します。

サンプルコード
出力

# Analyze figures.
if result.figures:
    for figures_idx,figures in enumerate(result.figures):
        print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
        for region in figures.bounding_regions:
            print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")

GitHub でサンプルを表示する。

{
    "figures": [
        {
        "id": "{figureId}",
        "boundingRegions": [],
        "spans": [],
        "elements": [
            "/paragraphs/15",
            ...
        ],
        "caption": {
            "content": "Here is a figure with some text",
            "boundingRegions": [],
            "spans": [],
            "elements": [
            "/paragraphs/15"
            ]
        }
        }
    ]
}

ドキュメントの図の例のスクリーンショット。

セクション

階層型ドキュメント構造分析は、幅広いドキュメントの整理、理解、処理において極めて重要です。このアプローチは、理解力を高め、ナビゲーションを容易にし、情報の取得を改善するために、長いドキュメントを意味的にセグメント化するために不可欠です。ドキュメント生成 AI で取得拡張生成 (RAG) が登場したことで、階層型ドキュメント構造分析の重要性が強調されています。レイアウトモデルでは、セクションと各セクション内のオブジェクトの関係を識別する、出力内のセクションとサブセクションがサポートされています。階層構造は、各セクションの elements で保持されます。出力を使用して、マークダウン形式のを使用して、マークダウンのセクションとサブセクションを簡単に取得できます。

サンプルコード
出力

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

GitHub でサンプルを表示する。

{
    "sections": [
        {
        "spans": [],
        "elements": [
            "/paragraphs/0",
            "/sections/1",
            "/sections/2",
            "/sections/5"
        ]
        },
...
}

ドキュメントのセクションの例のスクリーンショット。

このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (GA) | 以前のバージョン: v3.0 v2.1

このコンテンツの適用対象: v3.0 (GA) | 最新バージョン: v4.0 (GA) v3.1 | 以前のバージョン: v2.1

このコンテンツの適用対象: v2.1 | 最新バージョン: v4.0 (GA)

ドキュメントレイアウト分析

ジオメトリックロール: テキスト、テーブル、図形、選択マークは、ジオメトリックロールの例です。
論理ロール: タイトル、見出し、フッターはテキストの論理ロールの例です。

次の図は、サンプルページの画像内の一般的なコンポーネントを示しています。

ドキュメントレイアウトの例の図。

開発オプション

ドキュメントインテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
レイアウトモデル	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みレイアウト

ドキュメントインテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
レイアウトモデル	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みレイアウト

Document Intelligence v2.1 では、次のツール、アプリケーション、ライブラリがサポートされています。

機能	リソース
レイアウトモデル	• Document Intelligence ラベル付けツール • REST API • クライアントライブラリ SDK • Document Intelligence Docker コンテナー

入力の要件

サポートされているファイル形式:

モデル	PDF	画像: `JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office: Word (`DOCX`)、Excel (`XLSX`)、PowerPoint (`PPTX`)、HTML
読み込み	✔	✔	✔
Layout	✔	✔	✔
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 ピクセル　x 50 ピクセルから 10,000 ピクセル　x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1 GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニングデータの合計サイズは 2 GB で、最大 10,000 ページです。

サポートされているファイル形式: JPEG、PNG、PDF、TIFF。
サポートされているページ数: PDF と TIFF については、最大 2,000 ページまで処理されます。 Free レベルのサブスクライバーの場合は、最初の 2 ページだけが処理されます。
サポートされているファイルサイズ: ファイルサイズは 50 MB 未満でなければならず、寸法は 50 x 50 ピクセル以上 10,000 x 10,000 ピクセル以下です。

レイアウトモデルの概要

Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Note

Document Intelligence Studio は、v3.0 API 以降のバージョンで使用できます。

"Document Intelligence Studio で処理されたサンプルドキュメント"

Document Intelligence Studio での新聞ページの [レイアウト] 処理のスクリーンショット。

Document Intelligence Studio ホームページで、[レイアウト] を選択します。
サンプルドキュメントを分析したり、独自のファイルをアップロードしたりできます。
[分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

Document Intelligence Studio を試す。

ドキュメントインテリジェンスサンプルラベル付けツール

ドキュメントインテリジェンスサンプルツールに移動します。
サンプルツールのホームページで、[Use Layout to get text, tables and selection marks](レイアウトを使用してテキスト、テーブル、選択マークを取得する) を選択します。
[Document Intelligence サービスエンドポイント] フィールドに、Document Intelligence サブスクリプションで取得したエンドポイントを貼り付けます。
[キー] フィールドに、Document Intelligence リソースから取得したキーを貼り付けます。
"ソース" フィールドで、ドロップダウンメニューから [URL] を選択します。サンプルドキュメントを使用できます。
- サンプルドキュメント。
- [フェッチ] ボタンを選択します。
[Run Layout](レイアウトの実行) を選択します。 Document Intelligence サンプルラベル付けツールは、Analyze Layout API を呼び出してドキュメントを分析します。
結果を表示する - 抽出された強調表示テキスト、検出された選択マーク、検出されたテーブルを確認します。

サポートされている言語とロケール

サポートされている言語の完全なリストについては、言語サポート — ドキュメント分析モデルに関するページを "参照" してください。.

Document Intelligence v2.1 では、次のツール、アプリケーション、ライブラリがサポートされています。

機能	リソース
Layout API	• Document Intelligence ラベル付けツール • REST API • クライアントライブラリ SDK • Document Intelligence Docker コンテナー

データの抽出

レイアウトモデルは、ドキュメントから、テキスト、選択マーク、テーブル、段落、段落の種類 (roles) を抽出します。

Note

Document Intelligence v4.0 2024-11-30 (GA) は、Microsoft Office (DOCX、XLSX、PPTX) および HTML ファイルをサポートします。次の機能はサポートされていません。

各ページオブジェクトには、角度、幅/高さ、および単位はありません。
検出される各オブジェクトには、多角形領域も境界領域もありません。
ページ範囲 (pages) はパラメーターとしてサポートされていません。
lines オブジェクトはありません。

ページ

ファイル形式	計算されるページ単位	[総ページ数]
画像 (JPEG/JPG、PNG、BMP、HEIF)	各画像 = 1 ページ単位	画像の合計
PDF	PDF の各ページ = 1 ページ単位	PDF のページの合計数
TIFF	TIFF の各画像 = 1 ページ単位	TIFF の画像の合計数
Word (DOCX)	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数
Excel (XLSX)	各ワークシート = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計ワークシート数
PowerPoint (PPTX)	各スライド = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計スライド数
HTML	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

サンプルコード
出力

# Analyze pages.
for page in result.pages:
    print(f"----Analyzing layout from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

GitHub でサンプルを表示する。

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

選択したページをドキュメントから抽出する

段落


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

段落の役割

予測される役割	説明	サポートされているファイルの種類
`title`	ページのメイン見出し	pdf、image、docx、pptx、xlsx、html
`sectionHeading`	ページの 1 つ以上の小見出し	pdf、image、docx、xlsx、html
`footnote`	ページの下部付近のテキスト	pdf、image
`pageHeader`	ページの上端付近のテキスト	pdf、image、docx
`pageFooter`	ページの下端付近のテキスト	pdf、image、docx、pptx、html
`pageNumber`	ページ番号	pdf、image

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

テキスト、行、および単語

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

サンプルコード
出力

# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

GitHub でサンプルを表示する。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

テキスト行の手書きスタイル

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

フォント/スタイルのアドオン機能を有効にすると、styles オブジェクトの一部としてフォント/スタイルの結果も取得されます。

選択マーク

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

サンプルコード
出力

# Analyze selection marks.
for selection_mark in page.selection_marks:
    print(
        f"Selection mark is '{selection_mark.state}' within bounding polygon "
        f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
    )

GitHub でサンプルを表示する。

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tables

Document Intelligence ベール抽出機能を使用する際の考慮事項は、次のとおりです。

抽出するデータはテーブルとして表されていますか? また、テーブル構造には意味がありますか?
データがテーブル形式でない場合、そのデータは 2 次元グリッドに収まりますか?
テーブルは複数のページにまたがっていますか? その場合は、すべてのページにラベルを付けなくても済むように、PDF を Document Intelligence に送信する前にページに分割します。分析の後に、そのページを 1 つのテーブルに後処理します。
カスタムモデルを作成する場合は、「表形式フィールド」を参照してください。動的テーブルには、列ごとに可変数の行があります。固定テーブルには、列ごとに一定数の行があります。

Note

入力ファイルが XLSX の場合、テーブル分析はサポートされません。
Document Intelligence v4.0 2024-11-30 (GA) では、主要なコンテンツのみをカバーし、関連するキャプションと脚注を除外する図表番号とテーブルの境界領域がサポートされています。

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

サンプルコード
出力

# Analyze tables.
for table_idx, table in enumerate(result.tables):
    print(
        f"Table # {table_idx} has {table.row_count} rows and "
        f"{table.column_count} columns"
    )
    for region in table.bounding_regions:
        print(
            f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
        )
    for cell in table.cells:
        print(
            f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
        )
        for region in cell.bounding_regions:
            print(
                f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
            )

GitHub でサンプルを表示する。

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

注釈 (`2023-02-28-preview` API でのみ使用可能)

レイアウトモデルでは、チェックやクロスなどのドキュメント内の注釈を抽出します。応答には、注釈の種類が、信頼度スコアと境界 polygon と共に含まれています。

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

自然な読み取り順序の出力 (ラテンのみ)

readingOrder クエリパラメーターを使用し、テキスト行の出力順序を指定できます。次の例に示すように、natural を使用して、よりわかりやすい読み取り順序の出力を行います。この機能は、ラテン語系の言語でのみサポートされています。

テキスト抽出のページ番号または範囲の選択

ページが複数にわたる大きなドキュメントの場合、pages クエリパラメーターを使用し、テキスト抽出対象として特定のページ番号またはページ範囲を示します。次の例は、10 ページを含むドキュメントを示しています。ここには、すべてのページ (1 から 10) と選択したページ (3 から 6) の両方に対して抽出されたテキストがあります。

レイアウトモデルの選択したページ出力のスクリーンショット。

レイアウト分析結果取得操作

2 番目の手順では、レイアウト分析結果取得操作を呼び出します。この操作は、作成された Analyze Layout 操作の結果 ID を入力として受け取ります。これにより、次の設定可能な値を持つ status フィールドが含まれた JSON 応答が返されます。

フィールド	型	設定可能な値
status	string	`notStarted`: 分析操作が開始されていません。 `running`: 分析操作が進行中です。 `failed`: 分析操作に失敗しました。 `succeeded`: 分析操作に成功しました。

succeeded 値が返されるまで、この操作を繰り返し呼び出します。 1 秒あたりの要求数 (RPS) を超えないようにするために、間隔は 3 - 5 秒あけてください。

status フィールドの値が succeeded である場合、JSON 応答には、抽出されたレイアウト、テキスト、テーブル、選択マークが含まれています。抽出されたデータには、抽出されたテキスト行と単語、境界ボックス、テキストの外観 (手書きか否か)、テーブル、選択マーク (選択済みか未選択か) が含まれています。

テキスト行の手書き分類 (ラテンのみ)

応答には、各テキスト行が手書きスタイルであるかどうかの分類が、信頼度スコアと共に含まれています。この機能は、ラテン語系の言語でのみサポートされています。次の例は、画像内のテキストの手書き分類を示しています。

`レイアウト` モデルの手書き分類プロセスのスクリーンショット。

サンプル JSON 出力

"レイアウト分析結果取得" 操作への応答は、抽出されたすべての情報が含まれるドキュメントの構造化表現になります。サンプルのドキュメントファイルと、その構造化された出力であるサンプルのレイアウト出力を参照してください。

JSON 出力には次の 2 つの部分があります。

readResults ノードには、認識されたすべてのテキストと選択マークが格納されます。テキスト表現の階層は、ページ、行、個々の単語です。
pageResults ノードには、境界ボックスで抽出されたテーブルとセル、信頼度、および "readResults" フィールド内の行と単語への参照が格納されます。

出力例

テキスト

Layout API により、ドキュメントと画像から、複数のテキストの角度や色でテキストが抽出されます。この対象になるのは、ドキュメント、FAX、印刷および手書きのテキスト (英語のみ)、混合モードの写真です。テキストは、行、単語、境界ボックス、信頼度スコア、スタイル (手書きなど) に関して提供される情報と共に抽出されます。すべてのテキスト情報は、JSON 出力の readResults セクションに含まれています。

ヘッダーが含まれるテーブル

Layout API では、JSON 出力の pageResults セクションにテーブルが抽出されます。ドキュメントは、スキャンされたもの、写真、またはデジタル化されたもののいずれでもかまいません。テーブルは、セルまたは列が結合されている複雑なものや、罫線があるもの、またはないもの、不規則な角度のものも含まれます。抽出されたテーブルの情報には、列と行の数、行の span、列の span が含まれています。境界ポリゴンのある各セルは、その領域がヘッダーの一部として認識されているかどうかにかかわらず、情報と共に出力されます。モデル予測ヘッダーセルは複数の行にまたがることがあり、必ずしもテーブル内の最初の行ではありません。これらは、回転されたテーブルに対しても機能します。各テーブルセルには、フルテキストが、readResults セクションの個々の単語への参照と共に含まれています。

テーブルの例

選択マーク

Layout API により、ドキュメントから選択マークも抽出されます。抽出される選択マークには、境界ボックス、信頼度、状態 (選択または非選択) が含まれます。選択マークの情報は、JSON 出力の readResults セクションに抽出されます。

移行ガイド

Document Intelligence v3.1 移行ガイドに従って、アプリケーションとワークフローで v3.1 バージョンを使用する方法について説明します。

次のステップ

Document Intelligence Studio を使用して独自のフォームとドキュメントを処理する方法を学習します。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

その他のサンプルを GitHub でご覧ください。

その他のサンプルを GitHub でご覧ください。

Document Intelligence サンプルラベル付けツールを使用して独自のフォームとドキュメントを処理する方法について説明します。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

次の方法で共有

ドキュメント インテリジェンス レイアウト モデル

ドキュメント レイアウト分析 (v4)

開発オプション (v4)

入力の要件 (v4)

レイアウト モデルの概要

サポートされている言語

データの抽出 (v4)

ページ

選択したページをドキュメントから抽出する

段落

段落の役割

テキスト、行、および単語

テキスト行の手書きスタイル

選択マーク

Tables

マークダウン形式への出力

図形

セクション

ドキュメント レイアウト分析

開発オプション

入力の要件

レイアウト モデルの概要

ドキュメント インテリジェンス サンプル ラベル付けツール

サポートされている言語とロケール

データの抽出

ページ

選択したページをドキュメントから抽出する

段落

段落の役割

テキスト、行、および単語

テキスト行の手書きスタイル

選択マーク

Tables

注釈 (2023-02-28-preview API でのみ使用可能)

自然な読み取り順序の出力 (ラテンのみ)

テキスト抽出のページ番号または範囲の選択

レイアウト分析結果取得操作

テキスト行の手書き分類 (ラテンのみ)

サンプル JSON 出力

出力例

テキスト

ヘッダーが含まれるテーブル

選択マーク

移行ガイド

次のステップ

フィードバック

その他のリソース

ドキュメントインテリジェンスレイアウトモデル

ドキュメントレイアウト分析 (v4)

レイアウトモデルの概要

ドキュメントレイアウト分析

レイアウトモデルの概要

ドキュメントインテリジェンスサンプルラベル付けツール

注釈 (`2023-02-28-preview` API でのみ使用可能)