ドキュメント インテリジェンス スタジオを使用する
Azure Document Intelligence Studio は、ドキュメント インテリジェンス サービスの機能を視覚的に調査、理解、統合するためのオンライン ツールです。 Studio を使用すると、ビジュアル インターフェイスを使用して、フォーム レイアウトの分析、事前構築済みモデルからのデータの抽出、カスタム モデルのトレーニングを行うことができます。
documentintelligence.ai.azure.com で Studio にアクセスできます。
Studio の機能
Document Intelligence Studio では、次の種類のプロジェクトがサポートされています。
ドキュメント分析モデル: 独自のドキュメントに対して読み取りモデルとレイアウト モデルをテストし、抽出されたテキスト、テーブル、構造を確認します。
事前構築済みモデル: 請求書、領収書、ID ドキュメント、税フォームなど、使用可能な事前構築済みモデルを使用してドキュメントを分析します。
カスタム モデル: カスタム抽出モデルとカスタム分類子を構築、ラベル付け、トレーニング、テストします。
事前構築済みモデルを使用してドキュメントを分析する
Studio で事前構築済みモデルを使用してドキュメントからデータを抽出するには:
- Azure Portal で Azure ドキュメント インテリジェンスまたは Foundry Tools リソースを作成します。
- Document Intelligence Studio を開き、事前構築済みのモデル (請求書、領収書、ID ドキュメントなど) を選択します。
- リソース エンドポイントとキーを指定します。
- 分析するドキュメントの URL をアップロードまたは指定します。
- 抽出されたフィールドとその信頼度スコアを確認します。
カスタム モデル プロジェクトをビルドする
Studio を使用すると、JSON ファイルを手動で作成することなく、カスタム モデルのラベル付け、トレーニング、テストのプロセス全体を処理できます。 Studio によって、必要な ocr.json、 labels.json、および fields.json ファイルが自動的に生成されます。
高レベルのワークフローは次のとおりです。
- Azure ドキュメント インテリジェンスまたは Foundry リソースを作成します。
- 少なくとも 5 ~ 6 個のサンプル フォームを Azure Blob Storage コンテナーにアップロードします。
- Studio がストレージ コンテナーにアクセスできるように、クロスオリジン リソース共有 (CORS) を構成します。
- Studio でカスタム モデル プロジェクトを作成し、ストレージ コンテナーとドキュメント インテリジェンス リソースをリンクします。
- Studio のビジュアル インターフェイスを使用して、サンプル ドキュメントのフィールドにラベルを付けます。
- モデルをトレーニングし、精度メトリックを確認します。
- トレーニング中に使用されなかった新しいドキュメントに対してモデルをテストします。
カスタム モデルの種類と代替 REST API/SDK トレーニング ワークフローの詳細については、「 トレーニングとカスタム モデルの使用 」ユニットを参照してください。
アドオン機能
ドキュメント インテリジェンスでは、抽出シナリオに応じて有効にできるオプションの機能がサポートされています。
| 能力 | 説明 |
|---|---|
| 高解像度抽出 | 高い精度で高解像度ドキュメントからテキストを抽出します。 |
| 数式の抽出 | ドキュメントから数式を検出して抽出します。 |
| Font プロパティの抽出 | スタイル、太さ、色などのフォント情報を抽出します。 |
| バーコード抽出 | ドキュメント内のバーコードを検出して読み取ります。 |
| 検索可能な PDF | スキャンしたドキュメントを検索可能な PDF ファイルに変換します。 |
| クエリ フィールド | 自然言語クエリを使用して、ドキュメントから特定のフィールドを抽出します。 |
| キー値ペア | レイアウト モデルを使用して、ドキュメントからキーと値のペアのリレーションシップを抽出します。 |
注
一部のアドオン機能は、追加コストが発生するプレミアム機能です。 詳細については、 価格ページ を確認してください。