Document Intelligence 名刺モデル

重要

ドキュメント インテリジェンス v4.0 (プレビュー)以降、ビジネス カード モデル (事前構築済み businessCard) は非推奨になりました。 名刺形式からデータを抽出するには、次のコマンドを使用します:

機能 version モデル ID
名刺モデル • v3.1:2023-07-31 (GA)
>v3.0:2022-08-31 (GA)
>v2.1 (GA)
prebuilt-businessCard

このコンテンツの対象:checkmarkv3.1 (GA) | 以前のバージョン:青のチェックマークv3.0青のチェックマークv2.1

このコンテンツの対象:checkmarkv3.0 (GA) | 最新バージョン:紫のチェックマークv4.0 (プレビュー)紫のチェックマークv3.1 | 以前のバージョン:青のチェックマークv2.1

このコンテンツの適用対象:checkmarkv2.1 | 最新バージョン:青のチェックマークv4.0 (プレビュー)

Document Intelligence の名刺モデルでは、強力な光学式文字認識 (OCR) 機能と、ディープ ラーニング モデルの組み合わせにより、名刺の画像が分析されて、データが抽出されます。 API により、印刷された名刺が分析され、名、姓、会社名、メール アドレス、電話番号などの主要な情報が抽出されて、構造化された JSON データ表現が返されます。

名刺のデータ抽出

名刺は、ビジネスやプロフェッショナルを表現するのに最適な手段です。 名刺に含まれる会社のロゴ、フォント、背景画像は、会社のブランディングの推進や、他との差別化に役立ちます。 OCR と機械学習ベースの手法を用いて名刺のスキャンを自動化することは、一般的な画像処理シナリオです。 営業やマーケティングのチームが使用する企業向けシステムには、通常、ユーザーの利便性のために、名刺データの抽出機能が組み込まれています。

"Document Intelligence Studio で処理された名刺サンプル"

Document Intelligence Studio で分析された名刺サンプルのスクリーンショット。

"Document Intelligence サンプル ラベル付けツールで処理された名刺サンプル"

Document Intelligence サンプル ラベル付けツールで分析された名刺サンプルのスクリーンショット。

開発オプション

ドキュメント インテリジェンス v3.1:2023-07-31 (GA) では、次のツール、アプリケーション、ライブラリがサポートされます:

機能 リソース モデル ID
名刺モデル ドキュメント インテリジェンス Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
事前構築された名刺

ドキュメント インテリジェンス v3.0:2022-08-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされます:

機能 リソース モデル ID
名刺モデル ドキュメント インテリジェンス Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
事前構築された名刺

ドキュメント インテリジェンス v2.1 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされます:

機能 リソース
名刺モデル ドキュメント インテリジェンスラベル付けツール
REST API
クライアント ライブラリ SDK
ドキュメント インテリジェンス Docker コンテナー

名刺のデータ抽出を試す

名刺から名前、役職、住所、電子メール、会社名などのデータを抽出する方法について説明します。 以下のリソースが必要です。

  • Azure サブスクリプション — 無料で作成することができます

  • Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

Note

Document Intelligence Studio は、v3.1 と v3.0 の API で使用できます。

  1. Document Intelligence Studio のホーム ページで、[名刺] を選択します。

  2. サンプル ドキュメントの名刺を分析したり、独自のファイルをアップロードしたりできます。

  3. [分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

    Document Intelligence Studio の [分析の実行] と [分析オプション] ボタンのスクリーンショット。

ドキュメント インテリジェンス サンプル ラベル付けツール

  1. Document Intelligence サンプル ツールに移動します。

  2. サンプル ツールのホーム ページで、[事前構築済みモデルを使用してデータを取得する] タイルを選択します。

    レイアウト モデルの分析結果操作のスクリーンショット。

  3. ドロップダウン メニューから、分析する [フォームの種類] を選択します。

  4. 次のオプションを使用して、分析するファイルの URL を選択します。

  5. [ソース] フィールドで、ドロップダウン メニューから [URL] を選択し、選択した URL を貼り付けて、[フェッチ] ボタンを選択します。

    ソースの場所ドロップダウン メニューのスクリーンショット。

  6. [Document Intelligence サービス エンドポイント] フィールドに、Document Intelligence サブスクリプションで取得したエンドポイントを貼り付けます。

  7. [キー] フィールドに、Document Intelligence リソースから取得したキーを貼り付けます。

    フォームの種類の選択のドロップダウン メニューのスクリーンショット。

  8. [Run analysis](解析の実行) を選択します。 Document Intelligence サンプル ラベル付けツールは、Analyze Prebuilt API を呼び出してドキュメントを分析します。

  9. 結果を表示する - 抽出されたキーと値のペア、行項目、抽出された強調表示テキスト、および検出されたテーブルを確認します。

    名刺モデルの分析結果操作のスクリーンショット。

Note

サンプル ラベル付けツールでは、BMP ファイル形式はサポートされていません。 これは、Document Intelligence サービスではなくツールの制限です。

入力の要件

  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
    既読
    Layout ✔ (2024-02-29-preview、2023-10-31-preview)
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類 ✔ (2024-02-29-preview)
  • PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1GB で、最大 10,000 ページです。

  • サポートされているファイル形式: JPEG、PNG、PDF、TIFF
  • PDF と TIFF については、最大 2,000 ページまで処理されます。 Free レベルのサブスクライバーの場合は、最初の 2 ページだけが処理されます。
  • ファイル サイズは 50 MB 未満でなければならず、寸法は 50 x 50 ピクセル以上 10,000 x 10,000 ピクセル以下です。

サポートされている言語とロケール

以下を参照して、サポートされている言語の完全なリストについては、 言語サポートの ページ をご覧ください。

フィールドの抽出

名前 種類 説明 標準化された出力
ContactNames オブジェクトの配列 連絡先の名前
FirstName String 連絡先の名
LastName String 連絡先の姓
CompanyNames 文字列の配列 会社名
Departments 文字列の配列 連絡先の部署または組織
JobTitles 文字列の配列 リストされている連絡先の役職
メール 文字列の配列 連絡先のメール アドレス
Websites 文字列の配列 会社の Web サイト
アドレス 文字列の配列 名刺から抽出された住所
MobilePhones 電話番号の配列 名刺の携帯電話番号 +1 xxx xxx xxxx
Fax 電話番号の配列 名刺の FAX 電話番号 +1 xxx xxx xxxx
WorkPhones 電話番号の配列 名刺の勤務先電話番号 +1 xxx xxx xxxx
OtherPhones 電話番号の配列 名刺のその他の電話番号 +1 xxx xxx xxxx

抽出されるフィールド

名前 種類 説明 Text
ContactNames オブジェクトの配列 名刺から抽出された連絡先の名前 [{ "FirstName": "John", "LastName": "Doe" }]
FirstName string 連絡先の名 "John"
LastName string 連絡先の姓 "Doe"
CompanyNames 文字列の配列 名刺から抽出された会社名 ["Contoso"]
Departments 文字列の配列 連絡先の部署または組織 ["R&D"]
JobTitles 文字列の配列 リストされている連絡先の役職 ["Software Engineer"]
メール 文字列の配列 名刺から抽出された連絡先のメールアドレス ["johndoe@contoso.com"]
Websites 文字列の配列 名刺から抽出された Web サイト ["https://www.contoso.com"]
アドレス 文字列の配列 名刺から抽出された住所 ["123 Main Street, Redmond, WA 98052"]
MobilePhones 電話番号の配列 名刺から抽出された携帯電話番号 ["+19876543210"]
Fax 電話番号の配列 名刺から抽出された Fax 電話番号 ["+19876543211"]
WorkPhones 電話番号の配列 名刺から抽出された勤務先電話番号 ["+19876543231"]
OtherPhones 電話番号の配列 名刺から抽出されたその他の電話番号 ["+19876543233"]

サポート対象のロケール

あらかじめ構築された名刺 v2.1 は、次のロケールをサポートしています。

  • ja-JP
  • en-au
  • en-ca
  • en-gb
  • en-in

移行ガイドと REST API v3.1

次のステップ