重要
ドキュメント インテリジェンス v4.0 以降、今後、名刺モデル (事前構築済みの businessCard) は非推奨になりました。 名刺形式からデータを抽出するには、次のコマンドを使用します。
| 機能 | バージョン | モデル ID |
|---|---|---|
| 名刺モデル | • v3.1:2023-07-31 (GA) • v3.0:2022-08-31 (GA) • v2.1 (GA) |
prebuilt-businessCard |
[!INCLUDE [applies to v2.1]../(includes/applies-to-v21.md)]
ドキュメント インテリジェンス ビジネス カード モデルは、強力な光学式文字認識 (OCR) 機能とディープ ラーニング モデルを組み合わせて、名刺画像からデータを分析および抽出します。 API は、印刷された名刺を分析します。名、姓、会社名、電子メール アドレス、電話番号などの重要な情報を抽出します。構造化された JSON データ表現を返します。
名刺データの抽出
名刺は、ビジネスやプロフェッショナルを表す優れた方法です。 名刺に含まれる会社のロゴ、フォント、および背景画像は、会社のブランド化を促進し、他のブランドと区別するのに役立ちます。 OCR と機械学習ベースの手法を適用して名刺のスキャンを自動化することは、一般的な画像処理シナリオです。 通常、営業チームとマーケティング チームが使用するエンタープライズ システムには、ユーザーの利益のために名刺データ抽出機能が統合されています。
Document Intelligence Studio で処理されたサンプル 名刺
ドキュメント インテリジェンスサンプルラベル付けツールを使用して処理されたサンプルビジネス
開発オプション
ドキュメント インテリジェンス v3.1:2023-07-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされています。
| 機能 | リソース | モデル ID |
|---|---|---|
| 名刺モデル | • ドキュメント インテリジェンス スタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-businessCard |
ドキュメント インテリジェンス v3.0:2022-08-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされています。
| 機能 | リソース | モデル ID |
|---|---|---|
| 名刺モデル | • ドキュメント インテリジェンス スタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-businessCard |
ドキュメント インテリジェンス v2.1 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされています。
| 機能 | リソース |
|---|---|
| 名刺モデル | • ドキュメント インテリジェンスラベル付けツール • REST API • クライアント ライブラリ SDK ドキュメントインテリジェンスDockerコンテナ |
名刺データの抽出を試す
名前、役職、住所、電子メール、会社名などのデータを名刺から抽出する方法を確認します。 次のリソースが必要です。
Azure サブスクリプション— 無料で作成できます
Azure ポータルの Document Intelligence インスタンス。 無料価格レベル (
F0) を使用して、サービスを試すことができます。 リソースがデプロイされたら、[ リソースに移動 ] を選択してキーとエンドポイントを取得します。
ドキュメント インテリジェンス スタジオ
メモ
ドキュメント インテリジェンス スタジオは、v3.1 および v3.0 API で使用できます。
ドキュメント インテリジェンス スタジオのホーム ページで、[名刺] を選択します。
サンプル名刺を分析したり、独自のファイルをアップロードしたりできます。
[ 分析の実行 ] ボタンを選択し、必要に応じて [分析] オプション を構成します。
ドキュメント インテリジェンスのサンプル ラベル付けツール
ドキュメント インテリジェンス サンプル ツールに移動します。
サンプル ツールのホーム ページで、[ 事前構築済みモデルを使用してデータを取得する ] タイルを選択します。
ドロップダウン メニューから分析する フォームの種類 を選択します。
分析するファイルの URL を次のオプションから選択します。
[ ソース ] フィールドで、ドロップダウン メニューから [URL ] を選択し、選択した URL を貼り付けて、[ フェッチ ] ボタンを選択します。
[ ドキュメント インテリジェンス サービス エンドポイント ] フィールドに、ドキュメント インテリジェンス サブスクリプションで取得したエンドポイントを貼り付けます。
キー フィールドに、ドキュメント インテリジェンス リソースから取得したキーを貼り付けます。
[ 分析の実行] を選択します。 ドキュメント インテリジェンス サンプル ラベル付けツールは、事前構築済みの分析 API を呼び出してドキュメントを分析します。
結果を表示する - 抽出されたキーと値のペア、行項目、抽出された強調表示されたテキスト、検出されたテーブルを確認します。
メモ
サンプル ラベル付けツールでは、BMP ファイル形式はサポートされていません。 これは、ドキュメント インテリジェンス サービスではなくツールの制限です。
入力要件
次のファイル形式がサポートされています。
| モデル | 画像: JPEG/JPG、PNG、BMP、TIFF、HEIF |
Office: Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML |
|
|---|---|---|---|
| 読む | ✔ | ✔ | ✔ |
| レイアウト | ✔ | ✔ | ✔ |
| 一般ドキュメント | ✔ | ✔ | |
| プリビルド | ✔ | ✔ | |
| カスタム抽出 | ✔ | ✔ | |
| カスタム分類 | ✔ | ✔ | ✔ |
- 写真とスキャン: 最良の結果を得るには、ドキュメントごとに 1 つの明確な写真または高品質のスキャンを提供します。
- PDF とTIFF: PDF とTIFF の場合、最大 2,000 ページを処理できます。 (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
- ファイル サイズ: ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、Free (F0) レベルでは 4 MB です。
- 画像の寸法: 寸法は、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
- パスワード ロック: PDF がパスワードロックされている場合は、提出前にロックを解除する必要があります。
- テキストの高さ: 抽出するテキストの最小高さは、1024 x 768 ピクセルの画像で 12 ピクセルです。 このディメンションは、1 インチあたり 150 ドットの約 8 ポイントのテキストに対応します。
- カスタム モデル トレーニング: トレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500 ページ、カスタム ニューラル モデルの場合は 50,000 ページです。
- カスタム抽出モデルトレーニング: トレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。
- カスタム分類モデル トレーニング: トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。
- Office ファイルの種類 (DOCX、XLSX、PPTX): 文字列の最大長の制限は 800 万文字です。
- サポートされているファイル形式: JPEG、PNG、PDF、TIFF
- PDF と TIFF では、最大 2,000 ページが処理されます。 Free レベルのサブスクライバーの場合、最初の 2 ページのみが処理されます。
- ファイル サイズは 50 MB 未満で、50 x 50 ピクセル以上、最大 10,000 x 10,000 ピクセルのサイズにする必要があります。
サポートされている言語とロケール
サポートされている言語の完全な一覧については、事前構築済みのモデル言語のサポート ページを参照してください。
フィールド抽出
サポートされているドキュメント抽出フィールドについては、see GitHub サンプル リポジトリの business card model schema ページを参照してください。
抽出されたフィールド
| 名前 | タイプ | 説明 | テキスト |
|---|---|---|---|
| 連絡先名 | オブジェクトの配列 | 名刺から抽出された連絡先名 | [{ "FirstName": "John", "LastName": "Doe" }] |
| FirstName | 文字列 | 連絡先の名 | "John" |
| 苗字 | 文字列 | 連絡先の姓 (ファミリ) | "Doe" |
| 企業名 | 文字列の配列 | 名刺から抽出された会社名 | ["Contoso"] |
| 部門 | 文字列の配列 | 連絡先の部署または組織 | R&D(研究開発) |
| 職位 | 文字列の配列 | 連絡先の役職の一覧 | ["ソフトウェア エンジニア"] |
| メール | 文字列の配列 | 名刺から抽出された連絡先メール | ["johndoe@contoso.com"] |
| ウェブサイト | 文字列の配列 | 名刺から抽出された Web サイト | ["https://www.contoso.com"] |
| アドレス | 文字列の配列 | 名刺から抽出されたアドレス | ["123 Main Street, Redmond, Washington 98052"] |
| モバイルフォン (MobilePhones) | 電話番号の配列 | 名刺から抽出された携帯電話番号 | ["+19876543210"] |
| ファックス | 電話番号の配列 | 名刺から抽出された FAX 電話番号 | ["+19876543211"] |
| ワークフォンズ | 電話番号の配列 | 名刺から抽出された勤務先の電話番号 | ["+19876543231"] |
| その他の電話 | 電話番号の配列 | 名刺から抽出されたその他の電話番号 | ["+19876543233"] |
サポートされているロケール
事前構築済みの名刺 v2.1 では、次のロケールがサポートされています。
- en-us
- en-au
- en-ca
- en-gb
- en-in
移行ガイドと REST API v3.1
- ドキュメント インテリジェンス v3.1 移行ガイドに従って、アプリケーションとワークフローで v3.0 バージョンを使用する方法について説明します。
次の手順
Document Intelligence Studio で独自のフォームとドキュメントを処理してみてください
ドキュメント インテリジェンスのクイック スタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。
ドキュメント インテリジェンスサンプルラベル付けツールを使用して、独自のフォームとドキュメントを処理してみてください
ドキュメント インテリジェンスのクイック スタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。