ドキュメント インテリジェンス の名刺モデル

重要

ドキュメント インテリジェンス v4.0 以降、今後、名刺モデル (事前構築済みの businessCard) は非推奨になりました。 名刺形式からデータを抽出するには、次のコマンドを使用します。

機能 バージョン モデル ID
名刺モデル • v3.1:2023-07-31 (GA)
• v3.0:2022-08-31 (GA)
• v2.1 (GA)
prebuilt-businessCard

このコンテンツは適用対象:チェックマークv3.1 (GA) | 以前のバージョン:blue-checkmarkv3.0blue-checkmarkv2.1

このコンテンツは適用対象:red-checkmarkv3.0 (廃止) | 最新バージョン:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | 以前のバージョン:blue-checkmarkv2.1 (廃止)

[!INCLUDE [applies to v2.1]../(includes/applies-to-v21.md)]

ドキュメント インテリジェンス ビジネス カード モデルは、強力な光学式文字認識 (OCR) 機能とディープ ラーニング モデルを組み合わせて、名刺画像からデータを分析および抽出します。 API は、印刷された名刺を分析します。名、姓、会社名、電子メール アドレス、電話番号などの重要な情報を抽出します。構造化された JSON データ表現を返します。

名刺データの抽出

名刺は、ビジネスやプロフェッショナルを表す優れた方法です。 名刺に含まれる会社のロゴ、フォント、および背景画像は、会社のブランド化を促進し、他のブランドと区別するのに役立ちます。 OCR と機械学習ベースの手法を適用して名刺のスキャンを自動化することは、一般的な画像処理シナリオです。 通常、営業チームとマーケティング チームが使用するエンタープライズ システムには、ユーザーの利益のために名刺データ抽出機能が統合されています。

Document Intelligence Studio で処理されたサンプル 名刺

Document Intelligence Studio で分析されたサンプル 名刺のスクリーンショット。

ドキュメント インテリジェンスサンプルラベル付けツールを使用して処理されたサンプルビジネス

ドキュメント インテリジェンス サンプル ラベル付けツールを使用して分析されたサンプル 名刺のスクリーンショット。

開発オプション

ドキュメント インテリジェンス v3.1:2023-07-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされています。

機能 リソース モデル ID
名刺モデル ドキュメント インテリジェンス スタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-businessCard

ドキュメント インテリジェンス v3.0:2022-08-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされています。

機能 リソース モデル ID
名刺モデル ドキュメント インテリジェンス スタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-businessCard

ドキュメント インテリジェンス v2.1 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされています。

機能 リソース
名刺モデル ドキュメント インテリジェンスラベル付けツール
REST API
クライアント ライブラリ SDK
ドキュメントインテリジェンスDockerコンテナ

名刺データの抽出を試す

名前、役職、住所、電子メール、会社名などのデータを名刺から抽出する方法を確認します。 次のリソースが必要です。

  • Azure サブスクリプション— 無料で作成できます

  • Azure ポータルの Document Intelligence インスタンス。 無料価格レベル (F0) を使用して、サービスを試すことができます。 リソースがデプロイされたら、[ リソースに移動 ] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

ドキュメント インテリジェンス スタジオ

メモ

ドキュメント インテリジェンス スタジオは、v3.1 および v3.0 API で使用できます。

  1. ドキュメント インテリジェンス スタジオのホーム ページで、[名刺] を選択します。

  2. サンプル名刺を分析したり、独自のファイルをアップロードしたりできます。

  3. [ 分析の実行 ] ボタンを選択し、必要に応じて [分析] オプション を構成します。

    ドキュメント インテリジェンス スタジオの [分析の実行] ボタンと [分析] オプション ボタンのスクリーンショット。

ドキュメント インテリジェンスのサンプル ラベル付けツール

  1. ドキュメント インテリジェンス サンプル ツールに移動します。

  2. サンプル ツールのホーム ページで、[ 事前構築済みモデルを使用してデータを取得する ] タイルを選択します。

    レイアウト モデルの分析結果操作のスクリーンショット。

  3. ドロップダウン メニューから分析する フォームの種類 を選択します。

  4. 分析するファイルの URL を次のオプションから選択します。

  5. [ ソース ] フィールドで、ドロップダウン メニューから [URL ] を選択し、選択した URL を貼り付けて、[ フェッチ ] ボタンを選択します。

    ソースの場所のドロップダウン メニューのスクリーンショット。

  6. [ ドキュメント インテリジェンス サービス エンドポイント ] フィールドに、ドキュメント インテリジェンス サブスクリプションで取得したエンドポイントを貼り付けます。

  7. キー フィールドに、ドキュメント インテリジェンス リソースから取得したキーを貼り付けます。

    [フォームの種類の選択] ドロップダウン メニューのスクリーンショット。

  8. [ 分析の実行] を選択します。 ドキュメント インテリジェンス サンプル ラベル付けツールは、事前構築済みの分析 API を呼び出してドキュメントを分析します。

  9. 結果を表示する - 抽出されたキーと値のペア、行項目、抽出された強調表示されたテキスト、検出されたテーブルを確認します。

    名刺モデル分析結果操作のスクリーンショット。

メモ

サンプル ラベル付けツールでは、BMP ファイル形式はサポートされていません。 これは、ドキュメント インテリジェンス サービスではなくツールの制限です。

入力要件

次のファイル形式がサポートされています。

モデル PDF 画像:
JPEG/JPG、PNG、BMP、TIFF、HEIF
Office:
Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
読む
レイアウト
一般ドキュメント
プリビルド
カスタム抽出
カスタム分類
  • 写真とスキャン: 最良の結果を得るには、ドキュメントごとに 1 つの明確な写真または高品質のスキャンを提供します。
  • PDF とTIFF: PDF とTIFF の場合、最大 2,000 ページを処理できます。 (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
  • ファイル サイズ: ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、Free (F0) レベルでは 4 MB です。
  • 画像の寸法: 寸法は、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
  • パスワード ロック: PDF がパスワードロックされている場合は、提出前にロックを解除する必要があります。
  • テキストの高さ: 抽出するテキストの最小高さは、1024 x 768 ピクセルの画像で 12 ピクセルです。 このディメンションは、1 インチあたり 150 ドットの約 8 ポイントのテキストに対応します。
  • カスタム モデル トレーニング: トレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500 ページ、カスタム ニューラル モデルの場合は 50,000 ページです。
  • カスタム抽出モデルトレーニング: トレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。
  • カスタム分類モデル トレーニング: トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。
  • Office ファイルの種類 (DOCX、XLSX、PPTX): 文字列の最大長の制限は 800 万文字です。
  • サポートされているファイル形式: JPEG、PNG、PDF、TIFF
  • PDF と TIFF では、最大 2,000 ページが処理されます。 Free レベルのサブスクライバーの場合、最初の 2 ページのみが処理されます。
  • ファイル サイズは 50 MB 未満で、50 x 50 ピクセル以上、最大 10,000 x 10,000 ピクセルのサイズにする必要があります。

サポートされている言語とロケール

サポートされている言語の完全な一覧については、事前構築済みのモデル言語のサポート ページを参照してください

フィールド抽出

サポートされているドキュメント抽出フィールドについては、see GitHub サンプル リポジトリの business card model schema ページを参照してください。

抽出されたフィールド

名前 タイプ 説明 テキスト
連絡先名 オブジェクトの配列 名刺から抽出された連絡先名 [{ "FirstName": "John", "LastName": "Doe" }]
FirstName 文字列 連絡先の名 "John"
苗字 文字列 連絡先の姓 (ファミリ) "Doe"
企業名 文字列の配列 名刺から抽出された会社名 ["Contoso"]
部門 文字列の配列 連絡先の部署または組織 R&D(研究開発)
職位 文字列の配列 連絡先の役職の一覧 ["ソフトウェア エンジニア"]
メール 文字列の配列 名刺から抽出された連絡先メール ["johndoe@contoso.com"]
ウェブサイト 文字列の配列 名刺から抽出された Web サイト ["https://www.contoso.com"]
アドレス 文字列の配列 名刺から抽出されたアドレス ["123 Main Street, Redmond, Washington 98052"]
モバイルフォン (MobilePhones) 電話番号の配列 名刺から抽出された携帯電話番号 ["+19876543210"]
ファックス 電話番号の配列 名刺から抽出された FAX 電話番号 ["+19876543211"]
ワークフォンズ 電話番号の配列 名刺から抽出された勤務先の電話番号 ["+19876543231"]
その他の電話 電話番号の配列 名刺から抽出されたその他の電話番号 ["+19876543233"]

サポートされているロケール

事前構築済みの名刺 v2.1 では、次のロケールがサポートされています。

  • en-us
  • en-au
  • en-ca
  • en-gb
  • en-in

移行ガイドと REST API v3.1

次の手順