ドキュメントインテリジェンスアドオン機能

[アーティクル]
02/01/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。
機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
パブリックプレビューバージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
米国東部
米国西部 2
"西ヨーロッパ"

このコンテンツの対象:v4.0 (プレビュー) | 以前のバージョン:v3.1 (GA)

このコンテンツの対象:v3.1 (GA) | 最新バージョン:v4.0 (プレビュー)

Note

アドオン機能は、名刺モデルを除くすべてのモデル内で使用できます。

ドキュメントインテリジェンスでは、より高度でモジュール形式の解析機能がサポートされています。アドオン機能を使用して結果を拡張し、ドキュメントから抽出されたより多くのフィーチャーを含めます。一部のアドオンフィーチャーでは、追加コストが発生します。これらのオプション機能は、ドキュメント抽出のシナリオに応じて有効または無効にすることができます。機能を有効にするには、関連付けられている機能名を features クエリ文字列プロパティに追加します。機能のコンマ区切りの一覧を指定することで、要求で複数のアドオン機能を有効にすることができます。次のアドオン機能は、2023-07-31 (GA) 以降のリリースで使用できます。

ocrHighResolution
formulas
styleFont
barcodes
languages

Note

すべてのアドオン機能がすべてのモデルでサポートされているわけではありません。詳細については、「モデルデータの抽出」を ''参照'' してください。

次のアドオン機能は、2024-02-29-preview、2024-02-29-preview、およびそれ以降のリリースで使用できます。

keyValuePairs
queryFields

Note

2023-10-30-プレビュー API でのクエリフィールドの実装は、前回のプレビューリリースとは異なります。新しい実装はコストが低く、構造化されたドキュメントで適切に動作します。

アドオン機能	アドオン/無料	2024-02-29-preview	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Font プロパティの抽出	アドオン	✔️	✔️	該当なし	該当なし
数式の抽出	アドオン	✔️	✔️	該当なし	該当なし
高解像度の抽出	アドオン	✔️	✔️	該当なし	該当なし
バーコード抽出	Free	✔️	✔️	該当なし	該当なし
言語検出	Free	✔️	✔️	該当なし	該当なし
キーと値のペア	Free	✔️	該当なし	なし	該当なし
クエリフィールド	アドオン*	✔️	該当なし	なし	該当なし

アドオン* - クエリフィールドは、他のアドオン機能とは価格設定が異なります。詳細については、価格のページを参照してください。

高解像度の抽出

エンジニアリング図面のように、大きなサイズのドキュメントから小さなテキストを認識する作業は困難です。多くの場合、テキストは他のグラフィック要素と混在しており、それには、さまざまなフォント、サイズ、向きがあります。さらに、テキストを別のパーツに分割したり、他のシンボルと接続したりできます。ドキュメントインテリジェンスでは、これらの種類のドキュメントからコンテンツを抽出する ocr.highResolution 機能がサポートされるようになりました。このアドオン機能を有効にすると、A1/A2/A3 ドキュメントからのコンテンツ抽出の品質が向上します。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

数式の抽出

この ocr.formula 機能は、formulas コレクション内のすべての識別された数式 (数式など) を、content の最上位オブジェクトとして抽出します。 content 内では、検出された数式は :formula: として表されます。このコレクションの各エントリは、数式の種類を inline または display として、LaTeX 表現を value として、その polygon 座標を含む数式を表します。最初は、各ページの最後に数式が表示されます。

Note

confidence スコアはハードコーディングされています。

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Font プロパティの抽出

ocr.font 機能は、styles コレクションで抽出されたテキストのすべてのフォントプロパティを、content の下の最上位オブジェクトとして抽出します。各スタイルオブジェクトは、1 つのフォントプロパティ、適用対象のテキストスパン、および対応する信頼度スコアを指定します。既存のスタイルプロパティは、テキストのフォントの similarFontFamily、斜体や標準などのスタイルの fontStyle、太字または標準の fontWeight、テキストの色の color など、より多くのフォントプロパティで拡張されています。 backgroundColor はテキスト境界ボックスの色です。

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont

  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

バーコードプロパティの抽出

ocr.barcode 機能では、content の最上位オブジェクトとして、barcodes コレクション内の識別されたバーコードすべてを抽出します。 content 内では、検出されたバーコードは :barcode: として表されます。このコレクションの各エントリはバーコードを表し、バーコードの種類 kind、埋め込まれたバーコードの内容 value とその座標 polygon が含まれます。最初は、各ページの最後にバーコードが表示されます。 confidence は 1 としてハードコーディングされています。

サポートされているバーコードの種類

バーコードの種類	例
`QR Code`
`Code 39`
`Code 93`
`Code 128`
`UPC (UPC-A & UPC-E)`
`PDF417`
`EAN-8`
`EAN-13`
`Codabar`
`Databar`
`Databar` 展開済み
`ITF`
`Data Matrix`

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

言語検出

analyzeResult 要求に languages 機能を追加すると、analyzeResult の languages コレクション内の confidence と共に、各テキスト行で検出される主要言語が予測されます。

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

キーと値のペア

以前のバージョンの API では、事前構築済みのドキュメントモデルによって、フォームとドキュメントからキーと値のペアが抽出されました。事前構築済みのレイアウトに keyValuePairs 機能が追加されたので、レイアウトモデルで同じ結果が生成されるようになりました。

キーと値のペアは、ラベルまたはキーとそれに関連付けられている応答または値を識別する、ドキュメント内の特定の範囲です。構造化されたフォームでは、これらのペアは、ラベルと、ユーザーがそのフィールドに入力した値である可能性があります。非構造化ドキュメントでは、段落内のテキストに基づいて契約が実行された日付である可能性があります。さまざまなドキュメントの種類、形式、構造に基づいて、識別可能なキーと値を抽出するために、AI モデルがトレーニングされています。

モデルによってキーの存在が検出されても、関連する値がない場合や、省略可能なフィールドの処理では、キーが単独で存在する可能性もあります。たとえば、一部のインスタンスでは、フォームのミドルネームフィールドを空白のままにすることができます。キーと値のペアは、常に、ドキュメントに含まれるテキストの範囲です。 "顧客" と "ユーザー" など、同じ値が異なる方法で記述されるドキュメントの場合、関連付けられているキーは、(コンテキストに基づき) 顧客またはユーザーのいずれかです。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

クエリフィールド

クエリフィールドは、事前構築済みモデルから抽出されたスキーマを拡張したり、キー名が変数の場合に特定のキー名を定義したりするアドオン機能です。クエリフィールドを使用するには、機能を queryFields に設定し、 queryFields プロパティにフィールド名のコンマ区切りのリストを指定します。

ドキュメントインテリジェンスでクエリフィールドの抽出がサポートされるようになりました。クエリフィールド抽出を使用すると、トレーニングを追加しなくても、クエリ要求を使用して抽出プロセスにフィールドを追加できます。
事前構築済みまたはカスタムモデルのスキーマを拡張する必要がある場合、またはレイアウトの出力を含むいくつかのフィールドを抽出する必要がある場合は、クエリフィールドを使用します。
クエリフィールドはプレミアムアドオン機能です。最適な結果を得るには、複数単語のフィールド名にキャメルケースまたはパスカルケースフィールド名を使用して抽出するフィールドを定義します。
クエリフィールドは、要求ごとに最大 20 個のフィールドをサポートします。ドキュメントにフィールドの値が含まれている場合は、フィールドと値が返されます。
このリリースには、以前の実装よりも価格が低く、検証する必要があるクエリフィールド機能の新しい実装があります。

Note

Document Intelligence Studio のクエリフィールド抽出は、現在、US tax モデル (W2、1098s、1099s モデル) を除く、2024-02-29-preview2023-10-31-preview API とそれ以降のリリースのレイアウトモデルと事前構築済みモデルで使用できます。

クエリフィールドの抽出

クエリフィールド抽出の場合は、抽出するフィールドを指定すると、Document Intelligence により、それに応じてドキュメントが分析されます。次に例を示します。

Document Intelligence Studio でコントラクトを処理する場合は、2024-02-29-preview または 2023-10-31-preview バージョンを使用してください。
analyze document 要求の一部として、Party1、Party2、TermsOfUse、PaymentTerms、PaymentDate、TermEndDate などのフィールドラベルのリストを渡すことができます。
Document Intelligenceでは、フィールドデータを分析して抽出し、構造化された JSON 出力で値を返します。
クエリフィールドに加えて、応答にはテキスト、テーブル、選択マーク、およびその他の関連データが含まれます。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

次のステップ

詳細情報: 読み取りモデルレイアウトモデル

SDK サンプル: python

ドキュメント インテリジェンス アドオン機能

高解像度の抽出

REST API

数式の抽出

REST API

Font プロパティの抽出

REST API

バーコード プロパティの抽出

サポートされているバーコードの種類

REST API

言語検出

REST API

キーと値のペア

REST API

クエリ フィールド

クエリ フィールドの抽出

REST API

次のステップ

その他のリソース

ドキュメントインテリジェンスアドオン機能

バーコードプロパティの抽出

クエリフィールド

クエリフィールドの抽出