ドキュメント インテリジェンス アドオン機能

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
  • 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
  • パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
  • 米国東部
  • 米国西部 2
  • "西ヨーロッパ"

このコンテンツの対象:checkmarkv4.0 (プレビュー) | 以前のバージョン:青のチェックマークv3.1 (GA)

このコンテンツの対象:checkmarkv3.1 (GA) | 最新バージョン:紫のチェックマークv4.0 (プレビュー)

Note

アドオン機能は、名刺モデルを除くすべてのモデル内で使用できます。

ドキュメント インテリジェンスでは、より高度でモジュール形式の解析機能がサポートされています。 アドオン機能を使用して結果を拡張し、ドキュメントから抽出されたより多くのフィーチャーを含めます。 一部のアドオンフィーチャーでは、追加コストが発生します。 これらのオプション機能は、ドキュメント抽出のシナリオに応じて有効または無効にすることができます。 機能を有効にするには、関連付けられている機能名を features クエリ文字列プロパティに追加します。 機能のコンマ区切りの一覧を指定することで、要求で複数のアドオン機能を有効にすることができます。 次のアドオン機能は、2023-07-31 (GA) 以降のリリースで使用できます。

Note

すべてのアドオン機能がすべてのモデルでサポートされているわけではありません。 詳細については、「モデル データの抽出」を ''参照'' してください。

次のアドオン機能は、2024-02-29-preview2024-02-29-preview、およびそれ以降のリリースで使用できます。

Note

2023-10-30-プレビュー API でのクエリ フィールドの実装は、前回のプレビュー リリースとは異なります。 新しい実装はコストが低く、構造化されたドキュメントで適切に動作します。

アドオン機能 アドオン/無料 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Font プロパティの抽出 アドオン ✔️ ✔️ 該当なし 該当なし
数式の抽出 アドオン ✔️ ✔️ 該当なし 該当なし
高解像度の抽出 アドオン ✔️ ✔️ 該当なし 該当なし
バーコード抽出 Free ✔️ ✔️ 該当なし 該当なし
言語検出 Free ✔️ ✔️ 該当なし 該当なし
キーと値のペア Free ✔️ 該当なし なし 該当なし
クエリ フィールド アドオン* ✔️ 該当なし なし 該当なし

アドオン* - クエリ フィールドは、他のアドオン機能とは価格設定が異なります。 詳細については、価格のページを参照してください。

高解像度の抽出

エンジニアリング図面のように、大きなサイズのドキュメントから小さなテキストを認識する作業は困難です。 多くの場合、テキストは他のグラフィック要素と混在しており、それには、さまざまなフォント、サイズ、向きがあります。 さらに、テキストを別のパーツに分割したり、他のシンボルと接続したりできます。 ドキュメント インテリジェンスでは、これらの種類のドキュメントからコンテンツを抽出する ocr.highResolution 機能がサポートされるようになりました。 このアドオン機能を有効にすると、A1/A2/A3 ドキュメントからのコンテンツ抽出の品質が向上します。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

数式の抽出

この ocr.formula 機能は、formulas コレクション内のすべての識別された数式 (数式など) を、content の最上位オブジェクトとして抽出します。 content 内では、検出された数式は :formula: として表されます。 このコレクションの各エントリは、数式の種類を inline または display として、LaTeX 表現を value として、その polygon 座標を含む数式を表します。 最初は、各ページの最後に数式が表示されます。

Note

confidence スコアはハードコーディングされています。

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Font プロパティの抽出

ocr.font 機能は、styles コレクションで抽出されたテキストのすべてのフォント プロパティを、content の下の最上位オブジェクトとして抽出します。 各スタイル オブジェクトは、1 つのフォント プロパティ、適用対象のテキスト スパン、および対応する信頼度スコアを指定します。 既存のスタイル プロパティは、テキストのフォントの similarFontFamily、斜体や標準などのスタイルの fontStyle、太字または標準の fontWeight、テキストの色の color など、より多くのフォント プロパティで拡張されています。 backgroundColor はテキスト境界ボックスの色です。

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

バーコード プロパティの抽出

ocr.barcode 機能では、content の最上位オブジェクトとして、barcodes コレクション内の識別されたバーコードすべてを抽出します。 content 内では、検出されたバーコードは :barcode: として表されます。 このコレクションの各エントリはバーコードを表し、バーコードの種類 kind、埋め込まれたバーコードの内容 value とその座標 polygon が含まれます。 最初は、各ページの最後にバーコードが表示されます。 confidence は 1 としてハードコーディングされています。

サポートされているバーコードの種類

バーコードの種類
QR Code QR コードのスクリーンショット。
Code 39 コード 39 のスクリーンショット。
Code 93 コード 93 のスクリーンショット。
Code 128 コード 128 のスクリーンショット。
UPC (UPC-A & UPC-E) UPC のスクリーンショット。
PDF417 PDF417 のスクリーンショット。
EAN-8 European-article-number バーコード ean-8 のスクリーンショット。
EAN-13 European-article-number バーコード ean-13 のスクリーンショット。
Codabar Codabar のスクリーンショット。
Databar データ バーのスクリーンショット。
Databar 展開済み 展開されたデータ バーのスクリーンショット。
ITF interleaved-two-of-five バーコード (ITF) のスクリーンショット。
Data Matrix データ マトリックスのスクリーンショット。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

言語検出

analyzeResult 要求に languages 機能を追加すると、analyzeResultlanguages コレクション内の confidence と共に、各テキスト行で検出される主要言語が予測されます。

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

キーと値のペア

以前のバージョンの API では、事前構築済みのドキュメント モデルによって、フォームとドキュメントからキーと値のペアが抽出されました。 事前構築済みのレイアウトに keyValuePairs 機能が追加されたので、レイアウト モデルで同じ結果が生成されるようになりました。

キーと値のペアは、ラベルまたはキーとそれに関連付けられている応答または値を識別する、ドキュメント内の特定の範囲です。 構造化されたフォームでは、これらのペアは、ラベルと、ユーザーがそのフィールドに入力した値である可能性があります。 非構造化ドキュメントでは、段落内のテキストに基づいて契約が実行された日付である可能性があります。 さまざまなドキュメントの種類、形式、構造に基づいて、識別可能なキーと値を抽出するために、AI モデルがトレーニングされています。

モデルによってキーの存在が検出されても、関連する値がない場合や、省略可能なフィールドの処理では、キーが単独で存在する可能性もあります。 たとえば、一部のインスタンスでは、フォームのミドル ネーム フィールドを空白のままにすることができます。 キーと値のペアは、常に、ドキュメントに含まれるテキストの範囲です。 "顧客" と "ユーザー" など、同じ値が異なる方法で記述されるドキュメントの場合、関連付けられているキーは、(コンテキストに基づき) 顧客またはユーザーのいずれかです。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

クエリ フィールド

クエリ フィールドは、事前構築済みモデルから抽出されたスキーマを拡張したり、キー名が変数の場合に特定のキー名を定義したりするアドオン機能です。 クエリ フィールドを使用するには、機能を queryFields に設定し、 queryFields プロパティにフィールド名のコンマ区切りのリストを指定します。

  • ドキュメント インテリジェンスでクエリ フィールドの抽出がサポートされるようになりました。 クエリ フィールド抽出を使用すると、トレーニングを追加しなくても、クエリ要求を使用して抽出プロセスにフィールドを追加できます。

  • 事前構築済みまたはカスタム モデルのスキーマを拡張する必要がある場合、またはレイアウトの出力を含むいくつかのフィールドを抽出する必要がある場合は、クエリ フィールドを使用します。

  • クエリ フィールドはプレミアム アドオン機能です。 最適な結果を得るには、複数単語のフィールド名にキャメル ケースまたはパスカル ケース フィールド名を使用して抽出するフィールドを定義します。

  • クエリ フィールドは、要求ごとに最大 20 個のフィールドをサポートします。 ドキュメントにフィールドの値が含まれている場合は、フィールドと値が返されます。

  • このリリースには、以前の実装よりも価格が低く、検証する必要があるクエリ フィールド機能の新しい実装があります。

Note

Document Intelligence Studio のクエリ フィールド抽出は、現在、US tax モデル (W2、1098s、1099s モデル) を除く、2024-02-29-preview2023-10-31-preview API とそれ以降のリリースのレイアウト モデルと事前構築済みモデルで使用できます。

クエリ フィールドの抽出

クエリ フィールド抽出の場合は、抽出するフィールドを指定すると、Document Intelligence により、それに応じてドキュメントが分析されます。 次に例を示します。

  • Document Intelligence Studio でコントラクトを処理する場合は、2024-02-29-preview または 2023-10-31-preview バージョンを使用してください。

    Document Intelligence Studio のクエリ フィールド ボタンのスクリーンショット。

  • analyze document 要求の一部として、Party1Party2TermsOfUsePaymentTermsPaymentDateTermEndDate などのフィールド ラベルのリストを渡すことができます。

    Document Intelligence Studio のクエリ フィールド選択ウィンドウのスクリーンショット。

  • Document Intelligenceでは、フィールド データを分析して抽出し、構造化された JSON 出力で値を返します。

  • クエリ フィールドに加えて、応答にはテキスト、テーブル、選択マーク、およびその他の関連データが含まれます。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

次のステップ

SDK サンプル: python