ドキュメント処理モデル

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
  • 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
  • パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
  • 米国東部
  • 米国西部 2
  • "西ヨーロッパ"

このコンテンツの適用対象:checkmarkv4.0 (プレビュー) | 以前のバージョン:青のチェックマークv3.1 (GA)青のチェックマークv3.0 (GA)青のチェックマークv2.1 (GA)

このコンテンツの対象:checkmarkv3.1 (GA) | 最新バージョン:紫のチェックマークv4.0 (プレビュー) | 以前のバージョン:青のチェックマークv3.0青のチェックマークv2.1

このコンテンツの対象:checkmarkv3.0 (GA) | 最新バージョン:紫のチェックマークv4.0 (プレビュー)紫のチェックマークv3.1 | 以前のバージョン:青のチェックマークv2.1

このコンテンツの適用対象:checkmarkv2.1 | 最新バージョン:青のチェックマークv4.0 (プレビュー)

Azure AI Document Intelligence は、アプリとフローにインテリジェントなドキュメント処理を追加できる、さまざまなモデルをサポートしています。 事前構築済みのドメイン固有のモデルを使うか、特定のビジネス ニーズとユース ケースに合わせてカスタム モデルをトレーニングできます。 Document Intelligence は、REST API または Python、C#、Java、JavaScript の各クライアント ライブラリで使用できます。

モデルの概要

次の表は、現行のプレビュー版と安定版の API ごとに使用可能なモデルを示しています。

モデルの種類 モデル 2024-02-29-preview
&bullet 2023-10-31-preview
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
ドキュメント分析モデル 読み取り ✔️ ✔️ ✔️ 該当なし
ドキュメント分析モデル レイアウト ✔️ ✔️ ✔️ ✔️
ドキュメント分析モデル 一般的なドキュメント レイアウトに移動** ✔️ ✔️ 該当なし
事前構築済みのモデル コントラクト ✔️ ✔️ 該当なし 該当なし
事前構築済みのモデル 医療保険カード ✔️ ✔️ ✔️ 該当なし
事前構築済みのモデル 身分証明書 ✔️ ✔️ ✔️ ✔️
事前構築済みのモデル 請求書 ✔️ ✔️ ✔️ ✔️
事前構築済みのモデル Receipt ✔️ ✔️ ✔️ ✔️
事前構築済みのモデル 米国 1040 税* ✔️ ✔️ 該当なし 該当なし
事前構築済みのモデル 米国 1098 税* ✔️ 該当なし なし 該当なし
事前構築済みのモデル 米国 1099 税* ✔️ 該当なし なし 該当なし
事前構築済みのモデル 米国 W2 税 ✔️ ✔️ ✔️ 該当なし
事前構築済みのモデル 米国住宅ローン 1003 URLA ✔️ 該当なし なし 該当なし
事前構築済みのモデル 米国住宅ローン 1008 概要 ✔️ 該当なし なし 該当なし
事前構築済みのモデル 米国住宅ローン決算開示 ✔️ 該当なし なし 該当なし
事前構築済みのモデル 結婚証明書 ✔️ 該当なし なし 該当なし
事前構築済みのモデル クレジット カード ✔️ 該当なし なし 該当なし
事前構築済みのモデル 名刺 deprecated ✔️ ✔️ ✔️
カスタム分類モデル カスタム分類子 ✔️ ✔️ 該当なし 該当なし
カスタム抽出モデル カスタム ニューラル ✔️ ✔️ ✔️ 該当なし
Customextraction モデル カスタム テンプレート ✔️ ✔️ ✔️ ✔️
カスタム抽出モデル カスタム構成済み ✔️ ✔️ ✔️ ✔️
すべてのモデル アドオン機能 ✔️ ✔️ 該当なし 該当なし

* - サブモデルが含まれています。 サポートされているバリエーションとサブタイプについては、モデル固有の情報を参照してください。

アドオン機能 アドオン/無料 2024-02-29-preview
&bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-2024-02-29-preview&preserve-view=true
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Font プロパティの抽出 アドオン ✔️ ✔️ 該当なし 該当なし
数式の抽出 アドオン ✔️ ✔️ 該当なし 該当なし
高解像度の抽出 アドオン ✔️ ✔️ 該当なし 該当なし
バーコード抽出 Free ✔️ ✔️ 該当なし 該当なし
言語検出 Free ✔️ ✔️ 該当なし 該当なし
キーと値のペア Free ✔️ 該当なし なし 該当なし
クエリ フィールド アドオン* ✔️ 該当なし なし 該当なし

モデル分析機能

モデル ID テキストの抽出 クエリ フィールド 段落 段落の役割 選択マーク テーブル キーと値のペア 言語 バーコード ドキュメント分析 数式* スタイルのフォント* 高解像度*
prebuilt-read O O O O O
事前構築済みレイアウト O O O O O
事前構築済みドキュメント O O O O O
事前構築された名刺
prebuilt-contract O O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099 (バリエーション) O O O O O
prebuilt-tax.us.1040(variations) O O O O O
{ customModelName } O O O O O

✓ - 有効
O - 省略可能
* - 追加コストが発生する Premium 機能

アドオン* - クエリ フィールドは、他のアドオン機能とは価格設定が異なります。 詳細については、価格のページを参照してください。

モデル 説明
ドキュメント分析モデル
OCR の読み取り 単語、場所、検出された言語を含む印刷されたテキストと手書きのテキストを抽出します。
レイアウト分析 テーブル、選択マーク、タイトル、セクション見出しなどのテキストおよびドキュメント レイアウト要素を抽出します。
事前構築済みのモデル
医療保険カード 米国の医療保険カードから保険業者、会員、処方箋、グループ番号、その他の重要な情報を抽出することで、医療プロセスを自動化します。
米国の税務書類モデル 米国税フォームを処理して、従業員、雇用主、賃金、その他の情報を抽出します。
米国住宅ローン ドキュメント モデル 米国住宅ローン フォームを処理して、借り手ローンと不動産情報を抽出します。
コントラクト |契約と当事者の詳細を抽出します。
請求書 請求書を自動化します。
Receipt 領収書から領収書データを抽出します。
身分証明書 (ID) 米国の運転免許証と国際パスポートから ID フィールドを抽出します。
名刺 名刺をスキャンして、キー フィールドとデータをアプリケーションに抽出します。
カスタム モデル
カスタム モデル (概要) ビジネスに固有のフォームとドキュメントからデータを抽出します。 カスタム モデルは、特定のデータとユース ケースに合わせてトレーニングされます。
カスタム抽出モデル カスタム テンプレート モデルは、レイアウト キューを使用してドキュメントから値を抽出するもので、定義されたビジュアル テンプレートを使用して高度に構造化されたドキュメントからフィールドを抽出するのに適しています。
カスタム ニューラル モデルは、構造化、半構造化、非構造化ドキュメントからフィールドを抽出するために、さまざまな種類のドキュメントを使用してトレーニングされています。
カスタム分類モデル カスタム分類モデルは、入力ファイル内の各ページを分類してその中のドキュメントを識別できます。また、入力ファイル内の複数のドキュメントまたは 1 つのドキュメントの複数のインスタンスを識別することもできます。
作成済みモデル 複数のカスタム モデルを 1 つのモデルに結合して、1 つの作成済みモデルで多様なドキュメントの種類の処理を自動化します。

名刺モデルを除くすべてのモデルについて、Document Intelligence では、より高度な分析を可能にするアドオン機能がサポートされるようになりました。 これらのオプション機能は、ドキュメント抽出のシナリオに応じて有効または無効にすることができます。 2023-07-31 (GA) 以降の API バージョンでは 7 つのアドオン機能を利用できます。

モデルの詳細

このセクションでは、各モデルで期待できる出力について説明します。 アドオン機能を使用して、ほとんどのモデルの出力を拡張できることに注意してください。

OCR の読み取り

Read API を使用すると、テキスト行、単語、その場所、検出された言語、および手書きのスタイル (検出された場合) を分析および抽出することができます。

Document Intelligence Studio を使用して処理されたサンプル ドキュメント:

Document Intelligence Studio の Read を使用して処理されたサンプル ドキュメントのスクリーンショット

レイアウト分析

レイアウト分析モデルは、テキスト、テーブル、選択マーク、およびタイトル、セクション見出し、ページ ヘッダー、ページ フッターなどのその他の構造要素を分析して抽出します。

Document Intelligence Studio を使用して処理されたサンプル ドキュメント:

Document Intelligence Studio を使用して処理された新聞のサンプル ページのスクリーンショット。

医療保険カード

医療保険カード モデルでは、強力な光学式文字認識 (OCR) 機能と、ディープ ラーニング モデルの組み合わせにより、米国の医療保険カードが分析されて、重要な情報が抽出されます。

Document Intelligence Studio を使用して処理された米国の医療保険カードのサンプル:

Document Intelligence Studio での米国の医療保険カード分析のサンプルのスクリーンショット。

米国税務書類

米国税務書類モデルでは、税務書類の選択グループから主要なフィールドと明細を分析して抽出します。 この API は、電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質の英語の米国税務書類の分析をサポートします。 現在サポートされているモデルは次のとおりです。

モデル 説明 ModelID
米国税 W-2 課税対象の報酬の詳細を抽出します。 prebuilt-tax.us.W-2
米国税 1040 住宅ローンの利息の詳細を抽出します。 prebuilt-tax.us.1040(variations)
米国税 1098 住宅ローンの利息の詳細を抽出します。 prebuilt-tax.us.1098(variations)
米国税 1099 雇用主以外のソースから受け取った所得を抽出します。 prebuilt-tax.us.1099 (バリエーション)

Document Intelligence Studio を使用して処理された W-2 ドキュメントのサンプル:

サンプルの W-2 のスクリーンショット。

米国の住宅ローン ドキュメント

米国の住宅ローン ドキュメント モデルでは、住宅ローン ドキュメントの選択されたグループから、借り手、ローン、不動産情報を含む主要なフィールドを分析して抽出します。 この API では、電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質の英語の米国住宅ローン ドキュメントの分析がサポートされます。 現在サポートされているモデルは次のとおりです。

モデル 説明 ModelID
1003 使用許諾契約書 (EULA) ローン、借り手、不動産の詳細を抽出します。 prebuilt-mortgage.us.1003
1008 概要ドキュメント 借り手、売り手、不動産、住宅ローン、引受の詳細を抽出します。 prebuilt-mortgage.us.1008
決算開示 決算、取引コスト、ローンの詳細を抽出します。 prebuilt-mortgage.us.closingDisclosure
結婚証明書 共同ローン申請者の結婚情報の詳細を抽出します。 prebuilt-marriageCertificate
米国税 W-2 所得確認のために課税対象の報酬の詳細を抽出します。 prebuilt-tax.us.W-2

"Document Intelligence Studio を使用して処理された決済開示ドキュメントのサンプル":

決済開示サンプルのスクリーンショット。

コントラクト

契約モデルは、当事者、管轄区域、契約 ID、役職を含む契約の主要なフィールドと品目を分析して抽出します。 このモデルでは現在、英語の契約文書がサポートされています。

Document Intelligence Studio を使用して処理された契約書のサンプル:

Document Intelligence Studio を使用した契約書モデル抽出のスクリーンショット。

請求書

請求書モデルでは、請求書の処理が自動化され、顧客名、請求先住所、期限、金額、明細、およびその他のキー データが抽出されます。 現在、このモデルは、英語、スペイン語、ドイツ語、フランス語、イタリア語、ポルトガル語、オランダ語の請求書をサポートしています。

Document Intelligence Studio を使用して処理された請求書のサンプル:

サンプルの請求書のスクリーンショット。

Receipt

レシート モデルを使用して、印刷されたレシートや手書きのレシートから、マーチャント名、日付、明細、数量の売上領収書をスキャンすることができます。 バージョン v3.0 は、1 ページのホテル領収書の処理もサポートしています。

Document Intelligence Studio を使用して処理された領収書のサンプル:

領収書のサンプルのスクリーンショット。

身分証明書 (ID)

身分証明書 (ID) モデルを使用すると、米国の運転免許証 (全 50 州およびコロンビア特別区) および国際パスポートの個人情報ページ (ビザや他の渡航文書を除く) を処理し、キー フィールドを抽出することができます。

Document Intelligence Studio を使用して処理された米国の運転免許証のサンプル:

ID カードのサンプルのスクリーンショット。

結婚証明書

結婚証明書モデルを使用して、米国の結婚証明書を処理し、個人、日付、場所などの主要なフィールドを抽出します。

"Document Intelligence Studio を使用して処理された米国の結婚証明書のサンプル":

結婚証明書のサンプルのスクリーンショット。

クレジット カード

クレジット カード モデルを使用して、クレジット カードとデビット カードを処理し、主要なフィールドを抽出します。

"Document Intelligence Studio を使用して処理されたクレジット カードのサンプル":

クレジット カードのサンプルのスクリーンショット。

カスタム モデル

カスタム モデルは、大きく 2 種類に分類できます。 つまり、"ドキュメントの種類" の分類をサポートするカスタム分類モデルと、特定のドキュメントの種類から定義されたスキーマを抽出できるカスタム抽出モデルです。

カスタム モデルの種類と関連するモデル ビルド モードの図。

カスタム ドキュメント モデルでは、ビジネスに固有のフォームやドキュメントからデータを分析し、抽出することができます。 これらは、特定のコンテンツ内のフォーム フィールドを認識し、キーと値のペアおよびテーブル データを抽出するようにトレーニングされています。 作業を開始するために必要なフォームの種類の例は 1 つだけです。

バージョン v3.0 のカスタム モデルでは、カスタム テンプレート (フォーム) 内の署名検出と、テンプレートとニューラルの両モデル内のページをまたぐ表がサポートされています。

Document Intelligence Studio を使用して処理されたカスタム テンプレートのサンプル:

Document Intelligence ツールの [analyze-a-custom-form]\(カスタム フォームの分析\) ウィンドウのスクリーンショット。

カスタム抽出

カスタム抽出モデルは、カスタム テンプレートまたはカスタム ニューラルの 2 種類のいずれかにできます。 カスタム抽出モデルを作成するには、抽出する値を持つドキュメントのデータセットにラベルを付け、ラベル付けされたデータセットに対してモデルをトレーニングします。 始めるために必要な同じフォームまたはドキュメントの種類の例は 5 つのみです。

Document Intelligence Studio を使用して処理されたカスタム抽出のサンプル:

Document Intelligence Studio でのカスタム抽出モデル分析のスクリーンショット。

カスタム分類子

カスタム分類モデルを使用すると、抽出モデルを呼び出す前にドキュメントの種類を識別できます。 分類モデルは、2023-07-31 (GA) API 以降で使用できます。 カスタム分類モデルをトレーニングするには、少なくとも 2 つの個別のクラスと、クラスごとに少なくとも 5 つのサンプルが必要です。

作成済みモデル

作成済みモデルは、カスタム モデルのコレクションを取得し、目的のフォームの種類から構築された 1 つのモデルに割り当てることで作成します。 1 つのモデル ID で呼び出される作成済みモデルに複数のカスタム モデルを割り当てることができます。 200 個までのトレーニングされたカスタム モデルを 1 つの作成済みモデルに割り当てることができます。

Document Intelligence Studio の作成済みモデル ダイアログ ウィンドウ:

Document Intelligence Studio のカスタム モデル作成ダイアログ ウィンドウのスクリーンショット。

入力の要件

  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
    既読
    Layout ✔ (2024-02-29-preview、2023-10-31-preview)
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類 ✔ (2024-02-29-preview)
  • PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1GB で、最大 10,000 ページです。

Note

サンプル ラベル付けツールでは、BMP ファイル形式はサポートされていません。 これは、Document Intelligence サービスではなくツールの制限です。

バージョンの移行

アプリケーションで Document Intelligence v3.0 を使用する方法については、Document Intelligence v3.1 移行ガイドに関する記事を参照してください

Model 説明
ドキュメント分析
レイアウト ドキュメントからテキストとレイアウトの情報を抽出します。
事前構築済み
請求書 英語およびスペイン語の請求書から主要な情報を抽出します。
Receipt 英語の領収書から主要な情報を抽出します。
身分証明書 米国の運転免許証と国際パスポートから主要な情報を抽出します。
名刺 英語の名刺から主要な情報を抽出します。
Custom
Custom ビジネスに固有のフォームとドキュメントからデータを抽出します。 カスタム モデルは、特定のデータとユース ケースに合わせてトレーニングされます。
構成 カスタム モデルのコレクションを作成し、フォームの種類から構築された 1 つのモデルに割り当てます。

Layout

Layout API を使って、ドキュメントを分析し、テキスト、テーブルとヘッダー、選択マーク、構造情報を抽出することができます。

"サンプル ラベル付けツールを使用して処理されたサンプルのドキュメント":

サンプル ラベル付けツールを使用する

請求書

請求書モデルは、販売請求書から主要な情報が分析されて抽出されます。 API によって、さまざまな書式の請求書が分析され、顧客名、請求先住所、期限、請求額などの主要な情報が抽出されます。

"サンプル ラベル付けツールを使用して処理されたサンプルの請求書":

サンプル ラベル付けツールを使用するサンプルの請求書分析のスクリーンショット。

Receipt

  • 領収書モデルでは、印刷された領収書と手書きのレシートから重要な情報を分析して抽出します。

"サンプル ラベル付けツールを使用して処理されたサンプルのレシート":

領収書のサンプルのスクリーンショット。

身分証明書

身分証明書モデルでは、次のドキュメントから重要な情報を分析して抽出します。

  • 米国の運転免許証 (50 州のすべてとコロンビア特別区)

  • 国際パスポートの個人情報ページ (査証やその他の旅行ドキュメントを除く)。 API では、身分証明書を分析して抽出します。

"サンプル ラベル付けツールを使用して処理された米国の運転免許証のサンプル":

ID カードのサンプルのスクリーンショット。

名刺

名刺モデルでは、名刺の画像から主要な情報が分析されて抽出されます。

"サンプル ラベル付けツールを使用して処理されたサンプルの名刺":

サンプルの名刺のスクリーンショット。

Custom

  • カスタム モデルを使って、ビジネスに固有のフォームやドキュメントからデータを分析し、抽出することができます。 この API は、特定のコンテンツ内のフォーム フィールドを認識し、キーと値のペアおよびテーブル データを抽出するようにトレーニングされた、機械学習プログラムです。 始めるために必要なのは同じフォームの種類の 5 つの例だけであり、カスタム モデルのトレーニングは、ラベル付けされたデータセットがあってもなくても実行できます。

"サンプル ラベル付けツールを使用して処理されたサンプルのカスタム モデル":

Document Intelligence ツールの [analyze-a-custom-form]\(カスタム フォームの分析\) ウィンドウのスクリーンショット。

作成済みカスタム モデル

作成済みモデルは、カスタム モデルのコレクションを取得し、目的のフォームの種類から構築された 1 つのモデルに割り当てることで作成します。 1 つのモデル ID で呼び出される作成済みモデルに複数のカスタム モデルを割り当てることができます。 100 個までのトレーニングされたカスタム モデルを 1 つの構成済みモデルに割り当てることができます。

"サンプル ラベル付けツールが使用されている作成済みモデル ダイアログ ウィンドウ":

Document Intelligence Studio のカスタム モデル作成ダイアログ ウィンドウのスクリーンショット。

モデル データの抽出

Model テキストの抽出 言語検出 選択マーク テーブル 段落 段落の役割 キーと値のペア Fields
レイアウト
請求書
Receipt
身分証明書
名刺
カスタム フォーム

入力の要件

  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
    既読
    Layout ✔ (2024-02-29-preview、2023-10-31-preview)
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類 ✔ (2024-02-29-preview)
  • PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1GB で、最大 10,000 ページです。

Note

サンプル ラベル付けツールでは、BMP ファイル形式はサポートされていません。 これは、Document Intelligence サービスではなくツールの制限です。

バージョンの移行

アプリケーションで Document Intelligence v3.0 を使用する方法については、Document Intelligence v3.1 移行ガイドに関する記事を参照してください

次のステップ