Document Intelligence Studio

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
  • 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
  • パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
  • 米国東部
  • 米国西部 2
  • "西ヨーロッパ"

このコンテンツの適用対象: checkmarkv4.0 (プレビュー) | 以前のバージョン: 青のチェックマークv3.1 (GA)青のチェックマークv3.0 (GA)

このコンテンツの適用対象:checkmarkv3.1 (GA) | 最新のバージョン:紫のチェックマークv4.0 (プレビュー) | 以前のバージョン:青のチェックマークv3.0

このコンテンツの対象:checkmarkv3.0 (GA) | 最新バージョン:紫のチェックマークv4.0 (プレビュー)紫のチェックマークv3.1

Document Intelligence Studio は、Document Intelligence サービスの機能を視覚的に確認、理解し、アプリケーションへと統合するためのオンライン ツールです。 Document Intelligence Studio を使用して、以下を行います。

  • ドキュメント インテリジェンスのさまざまな機能について詳しく学びます。
  • Document Intelligence リソースを使用して、サンプル ドキュメントでモデルをテストするか、独自のドキュメントをアップロードします。
  • さまざまなアドオン機能とプレビュー機能を試して、ニーズに合わせて出力を調整します。
  • ドキュメントを分類するためにカスタム分類モデルをトレーニングします。
  • ドキュメントからフィールドを抽出するためにカスタム抽出モデルをトレーニングします。
  • アプリケーションに統合するために言語固有の SDK のサンプル コードを取得します。

ドキュメント分析または事前構築済みモデルを使用したドキュメントの分析を始めるには、Document Intelligence Studio クイックスタートを使用してください。 言語固有の SDK や他のクイックスタートのいずれかを使用して、カスタム フォーム モデルを構築し、アプリケーションでモデルを参照します。

次の画像は、Document Intelligence Studio のランディング ページを示しています。

Document Intelligence Studio ホームページ

作業の開始

Studio に初めてアクセスする場合は、ファースト ステップ ガイドに従って、Studio を使用するように設定します。

分析オプション

  • Document Intelligence では、高度な分析機能がサポートされています。 Studio では、アドオン機能を簡単に構成するためのエントリ ポイント (分析オプション ボタン) を 1 つ使用できます。

  • ドキュメント抽出シナリオに応じて、分析範囲、ドキュメント ページ範囲、オプションの検出、プレミアム検出機能を構成します。

    [分析オプション] ダイアログ ウィンドウのスクリーンショット。

    Note

    Document Intelligence Studio では、フォントの抽出は視覚化されません。 ただし、フォントの検出結果については JSON 出力のスタイル セクションで確認できます。

✔️ 事前構築済みモデルまたは独自のモデルのいずれかを使用してドキュメントに自動ラベル付けする

  • カスタム抽出モデル ラベル付けページでは、Document Intelligence Service の事前構築済みモデルまたは自前のトレーニング済みモデルのいずれかを使用して、ドキュメントの自動ラベル付けが行えるようになりました。

    Studio での自動ラベル付けを示すスクリーンショット。

  • 一部のドキュメントでは、自動ラベル付けを実行した後に重複ラベルが存在する場合があります。 後でラベル付けページでラベルが重複しないように、ラベルを変更してください。

    自動ラベル付け後の重複ラベル警告を示すスクリーンショット。

✔️ 自動ラベル付けテーブル

  • カスタム抽出モデルのラベル付けページで、手動でテーブルにラベル付けしなくても、ドキュメント内のテーブルに自動ラベル付けできるようになりました。

    Studio のテーブルでの自動ラベル付けを示すスクリーンショット。

✔️ テスト ファイルをトレーニング データセットに直接追加する

  • カスタム抽出モデルをトレーニングしたら、テスト ページを使用して、必要に応じてテスト ドキュメントをトレーニング データセットにアップロードすることで、モデルの品質を改善します。

  • 一部のラベルに対して低い信頼度スコアが返される場合は、それらが正しくラベル付けされていることを確認します。 正しくない場合は、モデルの品質を改善するために、それらをトレーニング データセットに追加し再ラベル付けを行います。

トレーニング データセットにテスト ファイルを追加する方法を示すアニメーション付きスクリーンショット。

✔️ カスタム プロジェクトでドキュメント リスト オプションとフィルターを使用する

  • カスタム抽出モデルのラベル付けページでは、検索、フィルター処理、および機能による並べ替えを使用して、トレーニング ドキュメント内を簡単に移動できるようになりました。

  • グリッド ビューを使用してドキュメントをプレビューするか、リスト ビューを使用してドキュメント内をより簡単にスクロールできます。

    ドキュメント リスト ビューのオプションとフィルターのスクリーンショット。

✔️ プロジェクト共有

Document Intelligence モデル サポート

  • 読み取り: テキスト行、単語、検出された言語、および手書きのスタイル (検出された場合) を抽出するための Document Intelligence の読み取り機能を試してみてください。 まずは、Studio の読み取り機能に関するページから開始します。 サンプル ドキュメントと独自のドキュメントを使用して探索します。 対話型の視覚化と JSON 出力を使用して、機能のしくみを理解します。 詳細については、読み取りの概要に関する記事を参照し、レイアウトに関する Python SDK クイックスタートで始めてください。

  • レイアウト: テキスト、テーブル、選択マーク、および構造情報を抽出するための Document Intelligence のレイアウト機能を試してみてください。 まずは、Studio のレイアウト機能に関するページから開始します。 サンプル ドキュメントと独自のドキュメントを使用して探索します。 対話型の視覚化と JSON 出力を使用して、機能のしくみを理解します。 詳細についてはレイアウトの概要に関する記事を参照し、レイアウトに関する Python SDK クイックスタートで始めてください。

  • 事前構築済みモデル: Document Intelligence の事前構築済みモデルを使用すると、独自のモデルをトレーニングして構築しなくても、インテリジェントなドキュメント処理をアプリやフローに追加できます。 例として、Studio 請求書機能に関するページから開始します。 サンプル ドキュメントと独自のドキュメントを使用して探索します。 対話型の視覚化、抽出されたフィールドの一覧、JSON 出力を使用して、機能のしくみを理解します。 詳細についてはモデルの概要に関する記事を参照し、事前構築済みの請求書に関する Python SDK クイックスタートで始めてください。

  • カスタム抽出モデル: Document Intelligence のカスタム モデルを使用すると、自分のフォームやドキュメントに合わせて、自分のデータを使用してトレーニングされたモデルからフィールドと値を抽出できます。 スタンドアロン カスタム モデルを作成するか、2 つ以上のカスタム モデルを結合して、複数のフォームの種類からデータを抽出する作成済みモデルを作成します。 Studio のカスタム モデル機能から始めてください。 ヘルプ ウィザード、ラベル付けインターフェイス、トレーニング ステップ、視覚化を使用して、機能がどのように動作するかを理解してください。 サンプル ドキュメントを使用してカスタム モデルをテストし、反復処理してモデルを改善します。 詳細については、「カスタム モデルの概要」を参照してください。

  • カスタム分類モデル: ドキュメント分類は Document Intelligence によってサポートされる新しいシナリオです。 ドキュメント分類子 API では、分類と分割のシナリオがサポートされています。 分類モデルをトレーニングして、アプリケーションでサポートされているさまざまな種類のドキュメントを識別します。 分類モデルの入力ファイルには、複数のドキュメントを含め、関連付けられているページ範囲内の各ドキュメントを分類できます。 詳細については、「カスタム分類モデル」を参照してください。

  • アドオン機能: Document Intelligence では、より高度な分析機能がサポートされるようになりました。 これらのオプション機能は、各モデル ページの Analze Options ボタンを使用して、Studio 内で有効または無効にすることができます。 使用可能なアドオン機能は、highResolution、数式、フォント、バーコード抽出機能の 4 つです。 詳細については、「アドオン機能」を参照してください。

次のステップ