Azure AI 言語の個人を特定できる情報 (PII) 検出は、 Azure AI 言語によって提供される機能です。 PII 検出サービスは、機械学習と AI アルゴリズムを利用して、高度な自然言語理解を備えたインテリジェントなアプリケーションの開発に役立つクラウドベースの API です。 Azure AI 言語 PII 検出では、名前付きエンティティ認識 (NER) を使用して、入力データから機密情報を 識別して編集 します。 このサービスは、機密の個人データを定義済みのカテゴリに分類します。 これらのカテゴリには、電話番号、電子メール アドレス、識別ドキュメントが含まれます。 この分類は、このような情報を効率的に検出して排除するのに役立ちます。
ヒント
Azure AI Foundry ポータルで PII 検出を試します。 そこでは、 現在既存の Language Studio リソースを利用することも、新しい Azure AI Foundry リソースを作成することもできます。
新機能
Text PII と Conversational PII 検出プレビュー API (バージョン 2024-11-15-preview
) では、検出された機密エンティティを、単なる編集文字以外のラベルでマスクするオプションがサポートされるようになりました。 ユーザーは、名前や電話番号などの個人データ コンテンツ ( "John Doe received a call from 424-878-9192"
) を編集文字 (つまり、 "******** received a call from ************"
) でマスクするか、エンティティ ラベル ( "[PERSON_1] received a call from [PHONENUMBER_1]"
) でマスクするかを指定できます。 出力の編集ポリシー スタイルを指定する方法の詳細については、 ハウツー ガイドを参照してください。
Conversational PII 検出モデル (バージョン 2024-11-01-preview
と GA
の両方) が更新され、AI の品質と精度が向上します。 数値識別子エンティティの種類には、運転免許証とメディケア受益者識別子も含まれるようになりました。
2024 年 6 月の時点で、Conversational PII サービスの一般提供サポートが提供されるようになります (英語のみ)。 お客様は、複数の話者や単語の明確化を目的として um
、ah
を使った、会話形式で記述されたトランスクリプト、チャット、その他のテキストをより自信をもって編集できるようになりました。これは、AIの品質向上、Azure SLA
のサポートと生産環境のサポート、およびエンタープライズ級のセキュリティを考慮したものです。
能力
現在、PII のサポートは次の機能で利用できます。
- 定義済みの複数のカテゴリにわたる非構造化テキストで機密情報 (PII) と正常性情報 (PHI) を処理するための一般的なテキスト PII 検出。
- 会話 PII 検出は、音声の文字起こしと、会議や通話のトランスクリプトで見つかった非公式の会話のトーンを処理するように設計された特殊なモデルです。
- 構造化ドキュメント ファイルを処理するためのネイティブ ドキュメント PII 検出。
Azure AI Language は、自然言語処理 (NLP) 機能を適用して、テキスト ベースのデータ内の個人情報 (PII) のカテゴリを検出するクラウドベースのサービスです。 このドキュメントには、次の種類が含まれています。
一般的なワークフロー
この機能を使用するには、分析のためのデータを送信し、アプリケーションで API 出力を処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対して追加のカスタマイズは行われません。
Azure AI Language リソースを作成します。これにより、Azure AI Language によって提供される機能にアクセスできるようになります。 API 要求の認証に使用するパスワード (キーと呼ばれる) とエンドポイント URL が生成されます。
REST API か、C#、Java、JavaScript、Python のクライアント ライブラリを使用して、要求を作成します。 バッチ要求で非同期呼び出しを送信して、複数の機能の API 要求を 1 回の呼び出しに統合することもできます。
テキスト データを含む要求を送信します。 キーとエンドポイントを使用して認証が行われます。
応答をローカルでストリームまたは保存します。
テキスト PII の主な機能
Azure AI Language では、テキスト内の情報を識別して分類するための名前付きエンティティ認識が提供されます。 この機能は、名前、組織、住所、電話番号、財務口座番号またはコード、政府 ID 番号などの PII カテゴリを検出します。 この PII のサブセットは、保護された健康情報 (PHI) です。 要求で domain=phi を指定すると、PHI エンティティのみが返されます。
PII 検出の概要
PII 検出を使うには、分析対象のテキストを送信し、API の出力をアプリケーションで処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対してカスタマイズは行われません。 PII 検出を使用するには、次の 2 つの方法があります。
開発オプション | 説明 |
---|---|
Azure AI Foundry | Azure AI Foundry は Web ベースのプラットフォームであり、サインアップしたら独自のデータを含むテキストの例で、個人を特定できる情報の検出を使用することができます。 詳細については、Azure AI Foundry の Web サイトまたは Azure AI Foundry のドキュメントを参照してください。 |
REST API またはクライアント ライブラリ (Azure SDK) | さまざまな言語で使用できる REST API ライブラリ、またはクライアント ライブラリを使用して、PII 検出をお使いのアプリケーションに統合します。 詳細については、PII 検出のクイックスタートを参照してください。 |
リファレンス ドキュメントとコード サンプル
アプリケーションでこの機能を使用する場合は、次の Azure AI Language のリファレンス ドキュメントとサンプルをご覧ください。
開発オプション/言語 | リファレンス ドキュメント | サンプル |
---|---|---|
REST API | REST API ドキュメント | |
C# | C# のドキュメント | C# のサンプル |
ジャワ | Java のドキュメント | Java のサンプル |
JavaScript | JavaScript のドキュメント | JavaScript のサンプル |
Python(プログラミング言語) | Python のドキュメント | Python のサンプル |
入力要件とサービスの制限
- テキスト PII は、分析のためにテキストを受け取ります。 詳細については、攻略ガイドのデータとサービスの制限に関する記事を参照してください。
- PII は、さまざまな記述言語で動作します。 詳細については、「言語サポート」を参照してください。 ソース テキストを書き込む サポートされている言語 を指定できます。 言語を指定しない場合、抽出は既定で英語になります。 さまざまな多言語と絵文字のエンコードをサポートするため、API からの応答でオフセットが返される場合があります。
責任ある AI
AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、デプロイ環境も含まれます。 システムでの責任ある AI の使用と展開については、PII の透過性のためのメモの記事を参照してください。 詳細については、次の記事を参照してください。
シナリオ例
- 秘密度ラベルの適用 - たとえば、PII サービスからの結果に基づいて、PII エンティティが検出されないドキュメントにパブリック秘密度ラベルが適用される場合があります。 米国の住所と電話番号が認識されるドキュメントでは、機密ラベルが適用される場合があります。 銀行支店コードが認識されるドキュメントには、極秘のラベルが使用される場合があります。
- 広く読まれるドキュメントから個人情報のいくつかのカテゴリを編集する - たとえば、顧客の連絡先レコードに最前線のサポート担当者がアクセスできる場合、その会社では顧客のプライバシーを保護するために、顧客履歴のバージョンから名前を除く顧客の個人情報を編集したいと考えることがあります。
- 無意識の偏りを減らすために個人情報を編集 する - たとえば、会社の履歴書のレビュー プロセス中に、名前、住所、電話番号をブロックして、無意識の性別やその他の偏りを減らすことができます。
- 機械学習のソース データ内の個人情報を置き換えて不公平を減らす – たとえば、機械学習モデルのトレーニング時に性別を明らかにする可能性のある名前を削除したい場合は、このサービスを使ってそれらを識別し、モデル トレーニング用の汎用プレースホルダーに置き換えることができます。
- コール センターの文字起こしから個人情報を削除する – たとえば、コール センターのシナリオで、担当者と顧客の間で発生する名前やその他の PII データを削除したい場合などです。 このサービスを使ってそれらを識別し、削除できます。
- データ サイエンス用のデータ クリーニング - PII を使ってデータの準備を整え、データ サイエンティストやエンジニアがこれらのデータを使って各自の機械学習モデルをトレーニングできるようにすることができます。 データを編集して、顧客データが公開されないようにします。
次のステップ
エンティティ リンク設定機能を使い始めるには、2 つの方法があります。
- Azure AI Foundry はコードを記述することなく Language サービスのいくつかの機能を使用することができる Web ベースのプラットフォームです。
- クイックスタート記事。REST API とクライアント ライブラリ SDK を使用してサービス要求を行う方法が記載されています。