Azure AI Language の個人を特定できる情報 (PII) の検出とは

PII 検出は、Azure AI Language に用意されている機能の 1 つであり、書き表された言語が関係するインテリジェントなアプリケーションを開発するためのクラウド内の機械学習と AI アルゴリズムのコレクションです。 PII 検出機能を使用すると、非構造化テキストに含まれる機密情報を特定、分類、編集することができます。 たとえば、電話番号、メール アドレス、身分証明書のフォームなどです。 会話に含まれる PII を利用する方法は、他のユース ケースとは異なります。また、その用途についての記事も別に用意されています。

  • クイックスタートは、サービスへの要求の実行方法を説明する概要手順です。
  • 攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。
  • 概念に関する記事では、サービスの機能と特長が詳しく説明されています。

PII は、次の 2 つの形になります。

  • PII - 非構造化テキストに対して機能します。
  • 会話 PII (プレビュー) - 会話の文字起こしに対して機能するよう調整されたモデル。

一般的なワークフロー

この機能を使用するには、分析のためのデータを送信し、アプリケーションで API 出力を処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対して追加のカスタマイズは行われません。

  1. Azure AI Language リソースを作成します。これにより、Azure AI Language によって提供される機能にアクセスできるようになります。 API 要求の認証に使用するパスワード (キーと呼ばれる) とエンドポイント URL が生成されます。

  2. REST API か、C#、Java、JavaScript、Python のクライアント ライブラリを使用して、要求を作成します。 バッチ要求で非同期呼び出しを送信して、複数の機能の API 要求を 1 回の呼び出しに統合することもできます。

  3. テキスト データを含む要求を送信します。 キーとエンドポイントを使用して認証が行われます。

  4. 応答をローカルでストリームまたは保存します。

ネイティブ ドキュメントのサポート

ネイティブ ドキュメントとは、Microsoft Word (docx) やポータブル ドキュメント ファイル (pdf) などの元のドキュメントを作成するために使われるファイル形式のことです。 ネイティブ ドキュメントのサポートにより、Azure AI Language リソースの機能を使う前に、テキストの前処理を行う必要がなくなります。 現在、ネイティブ ドキュメントのサポートは、PiiEntityRecognition 機能で利用できます。

現在、PII では、次のネイティブ ドキュメント形式がサポートされています。

ファイルの種類 [ファイル拡張子] 説明
テキスト .txt 書式設定のないテキスト ドキュメント。
Adobe PDF .pdf 移植可能なドキュメント ファイル形式のドキュメント。
Microsoft Word .docx Microsoft Word 文書ファイル。

詳細については、「言語処理にネイティブ ドキュメントを使用する」を参照してください

PII 検出の概要

PII 検出を使うには、分析対象のテキストを送信し、API の出力をアプリケーションで処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対してカスタマイズは行われません。 PII 検出を使用するには、次の 2 つの方法があります。

開発オプション 説明
Language Studio Language Studio は Web ベースのプラットフォームであり、Azure アカウントがなければテキストの例で、サインアップしたら独自のデータで、エンティティ リンクを試すことができます。 詳しくは、Language Studio の Web サイトまたは Language Studio のクイックスタートに関する記事をご覧ください。
REST API またはクライアント ライブラリ (Azure SDK) さまざまな言語で使用できる REST API ライブラリ、またはクライアント ライブラリを使用して、PII 検出をお使いのアプリケーションに統合します。 詳細については、PII 検出のクイックスタートを参照してください。

リファレンス ドキュメントとコード サンプル

アプリケーションでこの機能を使用する場合は、次の Azure AI Language のリファレンス ドキュメントとサンプルをご覧ください。

開発オプション/言語 リファレンス ドキュメント サンプル
REST API REST API のドキュメント
C# C# 関連のドキュメント C# のサンプル
Java Java のドキュメント Java のサンプル
JavaScript JavaScript のドキュメント JavaScript のサンプル
Python Python のドキュメント Python のサンプル

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、デプロイ環境も含まれます。 システムでの責任ある AI の使用と展開については、PII の透過性のためのメモの記事を参照してください。 詳細については、次の記事をご覧ください。

シナリオの例

  • 秘密度ラベルの適用 - たとえば、PII サービスからの結果に基づいて、PII エンティティが検出されないドキュメントにパブリック秘密度ラベルが適用される場合があります。 米国の住所と電話番号が認識されるドキュメントでは、機密ラベルが適用される場合があります。 銀行支店コードが認識されるドキュメントには、極秘のラベルが使用される場合があります。
  • 広く読まれるドキュメントから個人情報のいくつかのカテゴリを編集する - たとえば、顧客の連絡先レコードに最前線のサポート担当者がアクセスできる場合、その会社では顧客のプライバシーを保護するために、顧客履歴のバージョンから名前を除く顧客の個人情報を編集したいと考えることがあります。
  • 無意識のバイアスを減らすために個人情報を編集する - たとえば、会社で履歴書を確認するプロセスにおいて、性別やその他の無意識のバイアスを減らすために、名前、住所、電話番号をブロックしたい場合があります。
  • 機械学習のソース データ内の個人情報を置き換えて不公平を減らす – たとえば、機械学習モデルのトレーニング時に性別を明らかにする可能性のある名前を削除したい場合は、このサービスを使ってそれらを識別し、モデル トレーニング用の汎用プレースホルダーに置き換えることができます。
  • コール センターの文字起こしから個人情報を削除する – たとえば、コール センターのシナリオで、担当者と顧客の間で発生する名前やその他の PII データを削除したい場合などです。 このサービスを使ってそれらを識別し、削除できます。
  • データ サイエンス用のデータ クリーニング - PII を使ってデータの準備を整え、データ サイエンティストやエンジニアがこれらのデータを使って各自の機械学習モデルをトレーニングできるようにすることができます。 データを編集して、顧客データが公開されないようにします。

次のステップ

エンティティ リンク設定機能を使い始めるには、2 つの方法があります。

  • Language Studio。コードを記述することなく Language サービスの複数の機能を試すことができる Web ベースのプラットフォームです。
  • クイックスタート記事。REST API とクライアント ライブラリ SDK を使用してサービス要求を行う方法が記載されています。