Foundry Tools の Azure Language による個人情報 (PII) 検出は、Azure Languageが提供する機能です。 PII 検出サービスは、機械学習と AI アルゴリズムを利用して、高度な自然言語理解を備えたインテリジェントなアプリケーションの開発に役立つクラウドベースの API です。 Azure 言語 PII 検出では、名前付きエンティティ認識 (NER) を使用して、入力データから機密情報を 識別して編集 します。 このサービスは、機密の個人データを定義済みのカテゴリに分類します。 これらのカテゴリには、電話番号、電子メール アドレス、識別ドキュメントが含まれます。 この分類は、このような情報を効率的に検出して排除するのに役立ちます。
ヒント
Microsoft Foundry ポータルで PII 検出を試す。 そこでは、現在既存の Language Studio リソースを利用することも、新しい Foundry リソースを作成することもできます。
ビデオ デモ
このビデオでは、PII 検出サービスを紹介し、テキスト、ドキュメント、会話のトランスクリプト全体で機密データを検出して編集する方法について説明します。 以下について説明します。
- Azure Foundry ポータルのプレイグラウンドでサービスを試す方法
- エンティティ型、マスク スタイル、除外の主要なカスタマイズ オプション
- PII 保護が重要であり、データ侵害のビジネスへの影響が重要である理由
このビデオでは、クローズド キャプションを利用できます。
能力
現在、PII のサポートは次の機能で利用できます。
- 定義済みの複数のカテゴリにわたる非構造化テキストで機密情報 (PII) と正常性情報 (PHI) を処理するための一般的なテキスト PII 検出。
- 会話 PII 検出は、音声の文字起こしと、会議や通話のトランスクリプトで見つかった非公式の会話のトーンを処理するように設計された特殊なモデルです。
- 構造化ドキュメント ファイルを処理するためのネイティブ ドキュメント PII 検出。
Language は、自然言語処理 (NLP) 機能を適用して、テキスト ベースのデータ内の個人情報 (PII) のカテゴリを検出するクラウドベースのサービスです。 このドキュメントには、次の種類が含まれています。
一般的なワークフロー
この機能を使用するには、分析のためのデータを送信し、アプリケーションで API 出力を処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対して追加のカスタマイズは行われません。
Foundry Tools リソースで Azure 言語を作成し、言語によって提供される機能へのアクセスを許可します。 API 要求の認証に使用するパスワード (キーと呼ばれる) とエンドポイント URL が生成されます。
REST API か、C#、Java、JavaScript、Python のクライアント ライブラリを使用して、要求を作成します。 バッチ要求で非同期呼び出しを送信して、複数の機能の API 要求を 1 回の呼び出しに統合することもできます。
テキスト データを含む要求を送信します。 キーとエンドポイントを使用して認証が行われます。
応答をローカルでストリームまたは保存します。
テキスト PII の主な機能
言語では、テキスト内の情報を識別して分類するための名前付きエンティティ認識が提供されます。 この機能は、名前、組織、住所、電話番号、財務口座番号またはコード、政府 ID 番号などの PII カテゴリを検出します。 この PII のサブセットは、保護された健康情報 (PHI) です。 要求で domain=phi を指定すると、PHI エンティティのみが返されます。
PII 検出の概要
PII 検出を使うには、分析対象のテキストを送信し、API の出力をアプリケーションで処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対してカスタマイズは行われません。 PII 検出を使用するには、次の 2 つの方法があります。
| 開発オプション | 説明 |
|---|---|
| Microsoft Foundry (新規) ポータル | Foundry (新規) はクラウドベースの AI プラットフォームであり、Foundry プロジェクトを通じて Foundry モデル、エージェント、ツールに効率的にアクセスできます。 |
| Foundry (クラシック) ポータル | Foundry (クラシック) は、ハブベースのプロジェクトやその他のリソースの種類をサポートするクラウドベースのプラットフォームです。 サインアップ時に、独自のデータを使用して、テキスト例内の個人を識別する情報を検出できます。 |
| REST API またはクライアント ライブラリ (Azure SDK) | さまざまな言語で使用できる REST API ライブラリ、またはクライアント ライブラリを使用して、PII 検出をお使いのアプリケーションに統合します。 |
リファレンス ドキュメントとコード サンプル
アプリケーションでこの機能を使用する場合は、Foundry Tools の Azure 言語の次のリファレンス ドキュメントとサンプルを参照してください。
| 開発オプション/言語 | リファレンス ドキュメント | サンプル |
|---|---|---|
| REST API | REST API ドキュメント | |
| C# | C# のドキュメント | C# のサンプル |
| Java | Java のドキュメント | Java のサンプル |
| JavaScript | JavaScript のドキュメント | JavaScript のサンプル |
| Python | Python のドキュメント | Python のサンプル |
入力要件とサービスの制限
- テキスト PII は、分析のためにテキストを受け取ります。 詳細については、攻略ガイドのデータとサービスの制限に関する記事を参照してください。
- PII は、さまざまな記述言語で動作します。 詳細については、「言語サポート」を参照してください。 ソース テキストを書き込む サポートされている言語 を指定できます。 言語を指定しない場合、抽出は既定で英語になります。 さまざまな多言語と絵文字のエンコードをサポートするため、API からの応答でオフセットが返される場合があります。
責任ある AI
AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、デプロイ環境も含まれます。 システムでの責任ある AI の使用と展開については、PII の透過性のためのメモの記事を参照してください。 詳細については、次の記事を参照してください。
シナリオ例
- 秘密度ラベルの適用 - たとえば、PII サービスからの結果に基づいて、PII エンティティが検出されないドキュメントにパブリック秘密度ラベルが適用される場合があります。 米国の住所と電話番号が認識されるドキュメントでは、機密ラベルが適用される場合があります。 銀行支店コードが認識されるドキュメントには、極秘のラベルが使用される場合があります。
- 広く読まれるドキュメントから個人情報のいくつかのカテゴリを編集する - たとえば、顧客の連絡先レコードに最前線のサポート担当者がアクセスできる場合、その会社では顧客のプライバシーを保護するために、顧客履歴のバージョンから名前を除く顧客の個人情報を編集したいと考えることがあります。
- 無意識の偏りを減らすために個人情報を編集 する - たとえば、会社の履歴書のレビュー プロセス中に、名前、住所、電話番号をブロックして、無意識の性別やその他の偏りを減らすことができます。
- 機械学習のソース データ内の個人情報を置き換えて不公平を減らす – たとえば、機械学習モデルのトレーニング時に性別を明らかにする可能性のある名前を削除したい場合は、このサービスを使ってそれらを識別し、モデル トレーニング用の汎用プレースホルダーに置き換えることができます。
- コール センターの文字起こしから個人情報を削除する – たとえば、コール センターのシナリオで、担当者と顧客の間で発生する名前やその他の PII データを削除したい場合などです。 このサービスを使ってそれらを識別し、削除できます。
- データ サイエンス用のデータ クリーニング - PII を使ってデータの準備を整え、データ サイエンティストやエンジニアがこれらのデータを使って各自の機械学習モデルをトレーニングできるようにすることができます。 データを編集して、顧客データが公開されないようにします。
次のステップ
エンティティ リンク設定機能を使い始めるには、2 つの方法があります。
- Foundry は、コードを記述しなくてもいくつかの言語機能を使用できる Web ベースのプラットフォームです。
- クイックスタート記事。REST API とクライアント ライブラリ SDK を使用してサービス要求を行う方法が記載されています。