次の方法で共有


Document Intelligence 名刺モデル

重要

ドキュメント インテリジェンス v4.0 (プレビュー)以降、ビジネス カード モデル (事前構築済み businessCard) は非推奨になりました。 名刺形式からデータを抽出するには、次のコマンドを使用します:

機能 version モデル ID
名刺モデル • v3.1:2023-07-31 (GA)
>v3.0:2022-08-31 (GA)
>v2.1 (GA)
prebuilt-businessCard

このコンテンツの適用対象: checkmark v3.1 (GA) | 以前のバージョン: 青のチェックマーク v3.0 青のチェックマーク v2.1

このコンテンツの適用対象: checkmark v3.0 (GA) | 最新バージョン: 紫のチェックマーク v4.0 (プレビュー) 紫のチェックマーク v3.1 | 以前のバージョン: 青のチェックマーク v2.1

[!INCLUDE [applies to v2.1]../(includes/applies-to-v21.md)]

Document Intelligence の名刺モデルでは、強力な光学式文字認識 (OCR) 機能と、ディープ ラーニング モデルの組み合わせにより、名刺の画像が分析されて、データが抽出されます。 API により、印刷された名刺が分析され、名、姓、会社名、メール アドレス、電話番号などの主要な情報が抽出されて、構造化された JSON データ表現が返されます。

名刺のデータ抽出

名刺は、ビジネスやプロフェッショナルを表現するのに最適な手段です。 名刺に含まれる会社のロゴ、フォント、背景画像は、会社のブランディングの推進や、他との差別化に役立ちます。 OCR と機械学習ベースの手法を用いて名刺のスキャンを自動化することは、一般的な画像処理シナリオです。 営業やマーケティングのチームが使用する企業向けシステムには、通常、ユーザーの利便性のために、名刺データの抽出機能が組み込まれています。

"Document Intelligence Studio で処理された名刺サンプル"

Document Intelligence Studio で分析された名刺サンプルのスクリーンショット。

"Document Intelligence サンプル ラベル付けツールで処理された名刺サンプル"

Document Intelligence サンプル ラベル付けツールで分析された名刺サンプルのスクリーンショット。

開発オプション

ドキュメント インテリジェンス v3.1:2023-07-31 (GA) では、次のツール、アプリケーション、ライブラリがサポートされます:

機能 リソース モデル ID
名刺モデル ドキュメント インテリジェンス Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
事前構築された名刺

ドキュメント インテリジェンス v3.0:2022-08-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされます:

機能 リソース モデル ID
名刺モデル ドキュメント インテリジェンス Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
事前構築された名刺

ドキュメント インテリジェンス v2.1 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされます:

機能 リソース
名刺モデル ドキュメント インテリジェンスラベル付けツール
REST API
クライアント ライブラリ SDK
ドキュメント インテリジェンス Docker コンテナー

名刺のデータ抽出を試す

名刺から名前、役職、住所、電子メール、会社名などのデータを抽出する方法について説明します。 以下のリソースが必要です。

  • Azure サブスクリプション — 無料で作成することができます

  • Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

Note

Document Intelligence Studio は、v3.1 と v3.0 の API で使用できます。

  1. Document Intelligence Studio のホーム ページで、[名刺] を選択します。

  2. サンプル ドキュメントの名刺を分析したり、独自のファイルをアップロードしたりできます。

  3. [分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

    Document Intelligence Studio の [分析の実行] と [分析オプション] ボタンのスクリーンショット。

ドキュメント インテリジェンス サンプル ラベル付けツール

  1. Document Intelligence サンプル ツールに移動します。

  2. サンプル ツールのホーム ページで、[事前構築済みモデルを使用してデータを取得する] タイルを選択します。

    レイアウト モデルの分析結果操作のスクリーンショット。

  3. ドロップダウン メニューから、分析する [フォームの種類] を選択します。

  4. 次のオプションを使用して、分析するファイルの URL を選択します。

  5. [ソース] フィールドで、ドロップダウン メニューから [URL] を選択し、選択した URL を貼り付けて、[フェッチ] ボタンを選択します。

    ソースの場所ドロップダウン メニューのスクリーンショット。

  6. [Document Intelligence サービス エンドポイント] フィールドに、Document Intelligence サブスクリプションで取得したエンドポイントを貼り付けます。

  7. [キー] フィールドに、Document Intelligence リソースから取得したキーを貼り付けます。

    フォームの種類の選択のドロップダウン メニューのスクリーンショット。

  8. [Run analysis](解析の実行) を選択します。 Document Intelligence サンプル ラベル付けツールは、Analyze Prebuilt API を呼び出してドキュメントを分析します。

  9. 結果を表示する - 抽出されたキーと値のペア、行項目、抽出された強調表示テキスト、および検出されたテーブルを確認します。

    名刺モデルの分析結果操作のスクリーンショット。

Note

サンプル ラベル付けツールでは、BMP ファイル形式はサポートされていません。 これは、Document Intelligence サービスではなくツールの制限です。

入力の要件

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPGPNGBMPTIFFHEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    読み込み
    Layout ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類 ✔ (2024-07-31-preview、2024-02-29-preview)
  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-07-31-preview 以降の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。

  • サポートされているファイル形式: JPEG、PNG、PDF、TIFF
  • PDF と TIFF は、最大 2,000 ページまで処理されます。 Free レベルのサブスクライバーの場合は、最初の 2 ページだけが処理されます。
  • ファイル サイズは 50 MB 未満でなければならず、寸法は 50 x 50 ピクセル以上 10,000 x 10,000 ピクセル以下です。

サポートされている言語とロケール

サポートされている言語の完全な一覧については、事前構築済みモデルの言語サポートに関するページを "参照" してください。

フィールドの抽出

サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリの名詞モデル スキーマに関するページを参照してください。

抽出されるフィールド

名前 種類 説明 Text
ContactNames オブジェクトの配列 名刺から抽出された連絡先の名前 [{ "FirstName": "John", "LastName": "Doe" }]
FirstName string 連絡先の名 "John"
LastName string 連絡先の姓 "Doe"
CompanyNames 文字列の配列 名刺から抽出された会社名 ["Contoso"]
Departments 文字列の配列 連絡先の部署または組織 ["R&D"]
JobTitles 文字列の配列 リストされている連絡先の役職 ["Software Engineer"]
メール 文字列の配列 名刺から抽出された連絡先のメールアドレス ["johndoe@contoso.com"]
Websites 文字列の配列 名刺から抽出された Web サイト ["https://www.contoso.com"]
アドレス 文字列の配列 名刺から抽出された住所 ["123 Main Street, Redmond, Washington 98052"]
MobilePhones 電話番号の配列 名刺から抽出された携帯電話番号 ["+19876543210"]
Fax 電話番号の配列 名刺から抽出された Fax 電話番号 ["+19876543211"]
WorkPhones 電話番号の配列 名刺から抽出された勤務先電話番号 ["+19876543231"]
OtherPhones 電話番号の配列 名刺から抽出されたその他の電話番号 ["+19876543233"]

サポート対象のロケール

あらかじめ構築された名刺 v2.1 は、次のロケールをサポートしています。

  • ja-JP
  • en-au
  • en-ca
  • en-gb
  • en-in

移行ガイドと REST API v3.1

次のステップ