ドキュメント インテリジェンス アドオン機能
重要
- Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
- 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
- Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
- パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
このコンテンツの対象:v4.0 (プレビュー) | 以前のバージョン:v3.1 (GA)
このコンテンツの対象:v3.1 (GA) | 最新バージョン:v4.0 (プレビュー)
Note
アドオン機能は、名刺モデルを除くすべてのモデル内で使用できます。
機能
ドキュメント インテリジェンスでは、より高度でモジュール形式の解析機能がサポートされています。 アドオン機能を使用して結果を拡張し、ドキュメントから抽出されたより多くのフィーチャーを含めます。 一部のアドオンフィーチャーでは、追加コストが発生します。 これらのオプション機能は、ドキュメント抽出のシナリオに応じて有効または無効にすることができます。 機能を有効にするには、関連付けられている機能名を features
クエリ文字列プロパティに追加します。 機能のコンマ区切りの一覧を指定することで、要求で複数のアドオン機能を有効にすることができます。 次のアドオン機能は、2023-07-31 (GA)
以降のリリースで使用できます。
Note
すべてのアドオン機能がすべてのモデルでサポートされているわけではありません。 詳細については、「モデル データの抽出」を ''参照'' してください。
次のアドオン機能は、2024-02-29-preview
、2024-02-29-preview
、およびそれ以降のリリースで使用できます。
Note
2023-10-30-プレビュー API でのクエリ フィールドの実装は、前回のプレビュー リリースとは異なります。 新しい実装はコストが低く、構造化されたドキュメントで適切に動作します。
バージョンの可用性
アドオン機能 | アドオン/無料 | 2024-02-29-preview | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Font プロパティの抽出 | アドオン | ✔️ | ✔️ | 該当なし | 該当なし |
数式の抽出 | アドオン | ✔️ | ✔️ | 該当なし | 該当なし |
高解像度の抽出 | アドオン | ✔️ | ✔️ | 該当なし | 該当なし |
バーコード抽出 | Free | ✔️ | ✔️ | 該当なし | 該当なし |
言語検出 | Free | ✔️ | ✔️ | 該当なし | 該当なし |
キーと値のペア | Free | ✔️ | 該当なし | なし | 該当なし |
クエリ フィールド | アドオン* | ✔️ | 該当なし | なし | 該当なし |
✱ アドオン - クエリ フィールドは、他のアドオン機能とは価格設定が異なります。 詳細については、価格のページを参照してください。
"サポートされているファイル形式"
PDF
画像:
JPEG
/JPG
,PNG
,BMP
,TIFF
,HEIF
✱ 現在、Microsoft Office ファイルはサポートされません。
高解像度の抽出
エンジニアリング図面のように、大きなサイズのドキュメントから小さなテキストを認識する作業は困難です。 多くの場合、テキストは他のグラフィック要素と混在しており、それには、さまざまなフォント、サイズ、向きがあります。 さらに、テキストを別のパーツに分割したり、他のシンボルと接続したりできます。 ドキュメント インテリジェンスでは、これらの種類のドキュメントからコンテンツを抽出する ocr.highResolution
機能がサポートされるようになりました。 このアドオン機能を有効にすると、A1/A2/A3 ドキュメントからのコンテンツ抽出の品質が向上します。
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
数式の抽出
この ocr.formula
機能は、formulas
コレクション内のすべての識別された数式 (数式など) を、content
の最上位オブジェクトとして抽出します。 content
内では、検出された数式は :formula:
として表されます。 このコレクションの各エントリは、数式の種類を inline
または display
として、LaTeX 表現を value
として、その polygon
座標を含む数式を表します。 最初は、各ページの最後に数式が表示されます。
Note
confidence
スコアはハードコーディングされています。
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Font プロパティの抽出
ocr.font
機能は、styles
コレクションで抽出されたテキストのすべてのフォント プロパティを、content
の下の最上位オブジェクトとして抽出します。 各スタイル オブジェクトは、1 つのフォント プロパティ、適用対象のテキスト スパン、および対応する信頼度スコアを指定します。 既存のスタイル プロパティは、テキストのフォントの similarFontFamily
、斜体や標準などのスタイルの fontStyle
、太字または標準の fontWeight
、テキストの色の color
など、より多くのフォント プロパティで拡張されています。 backgroundColor
はテキスト境界ボックスの色です。
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
バーコード プロパティの抽出
ocr.barcode
機能では、content
の最上位オブジェクトとして、barcodes
コレクション内の識別されたバーコードすべてを抽出します。 content
内では、検出されたバーコードは :barcode:
として表されます。 このコレクションの各エントリはバーコードを表し、バーコードの種類 kind
、埋め込まれたバーコードの内容 value
とその座標 polygon
が含まれます。 最初は、各ページの最後にバーコードが表示されます。 confidence
は 1 としてハードコーディングされています。
サポートされているバーコードの種類
バーコードの種類 | 例 |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar 展開済み |
|
ITF |
|
Data Matrix |
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
言語検出
analyzeResult
要求に languages
機能を追加すると、analyzeResult
の languages
コレクション内の confidence
と共に、各テキスト行で検出される主要言語が予測されます。
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
キーと値のペア
以前のバージョンの API では、事前構築済みのドキュメント モデルによって、フォームとドキュメントからキーと値のペアが抽出されました。 事前構築済みのレイアウトに keyValuePairs
機能が追加されたので、レイアウト モデルで同じ結果が生成されるようになりました。
キーと値のペアは、ラベルまたはキーとそれに関連付けられている応答または値を識別する、ドキュメント内の特定の範囲です。 構造化されたフォームでは、これらのペアは、ラベルと、ユーザーがそのフィールドに入力した値である可能性があります。 非構造化ドキュメントでは、段落内のテキストに基づいて契約が実行された日付である可能性があります。 さまざまなドキュメントの種類、形式、構造に基づいて、識別可能なキーと値を抽出するために、AI モデルがトレーニングされています。
モデルによってキーの存在が検出されても、関連する値がない場合や、省略可能なフィールドの処理では、キーが単独で存在する可能性もあります。 たとえば、一部のインスタンスでは、フォームのミドル ネーム フィールドを空白のままにすることができます。 キーと値のペアは、常に、ドキュメントに含まれるテキストの範囲です。 "顧客" と "ユーザー" など、同じ値が異なる方法で記述されるドキュメントの場合、関連付けられているキーは、(コンテキストに基づき) 顧客またはユーザーのいずれかです。
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
クエリ フィールド
クエリ フィールドは、事前構築済みモデルから抽出されたスキーマを拡張したり、キー名が変数の場合に特定のキー名を定義したりするアドオン機能です。 クエリ フィールドを使用するには、機能を queryFields
に設定し、 queryFields
プロパティにフィールド名のコンマ区切りのリストを指定します。
ドキュメント インテリジェンスでクエリ フィールドの抽出がサポートされるようになりました。 クエリ フィールド抽出を使用すると、トレーニングを追加しなくても、クエリ要求を使用して抽出プロセスにフィールドを追加できます。
事前構築済みまたはカスタム モデルのスキーマを拡張する必要がある場合、またはレイアウトの出力を含むいくつかのフィールドを抽出する必要がある場合は、クエリ フィールドを使用します。
クエリ フィールドはプレミアム アドオン機能です。 最適な結果を得るには、複数単語のフィールド名にキャメル ケースまたはパスカル ケース フィールド名を使用して抽出するフィールドを定義します。
クエリ フィールドは、要求ごとに最大 20 個のフィールドをサポートします。 ドキュメントにフィールドの値が含まれている場合は、フィールドと値が返されます。
このリリースには、以前の実装よりも価格が低く、検証する必要があるクエリ フィールド機能の新しい実装があります。
Note
Document Intelligence Studio のクエリ フィールド抽出は、現在、US tax
モデル (W2、1098s、1099s モデル) を除く、2024-02-29-preview
2023-10-31-preview
API とそれ以降のリリースのレイアウト モデルと事前構築済みモデルで使用できます。
クエリ フィールドの抽出
クエリ フィールド抽出の場合は、抽出するフィールドを指定すると、Document Intelligence により、それに応じてドキュメントが分析されます。 次に例を示します。
Document Intelligence Studio でコントラクトを処理する場合は、
2024-02-29-preview
または2023-10-31-preview
バージョンを使用してください。analyze document
要求の一部として、Party1
、Party2
、TermsOfUse
、PaymentTerms
、PaymentDate
、TermEndDate
などのフィールド ラベルのリストを渡すことができます。Document Intelligenceでは、フィールド データを分析して抽出し、構造化された JSON 出力で値を返します。
クエリ フィールドに加えて、応答にはテキスト、テーブル、選択マーク、およびその他の関連データが含まれます。
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
次のステップ
SDK サンプル: python