Azure AI 言語の個人を特定できる情報 (PII) の検出とは

2025-06-06

Azure AI 言語の個人を特定できる情報 (PII) 検出は、 Azure AI 言語によって提供される機能です。 PII 検出サービスは、機械学習と AI アルゴリズムを利用して、高度な自然言語理解を備えたインテリジェントなアプリケーションの開発に役立つクラウドベースの API です。 Azure AI 言語 PII 検出では、名前付きエンティティ認識 (NER) を使用して、入力データから機密情報を 識別して編集 します。このサービスは、機密の個人データを定義済みのカテゴリに分類します。これらのカテゴリには、電話番号、電子メールアドレス、識別ドキュメントが含まれます。この分類は、このような情報を効率的に検出して排除するのに役立ちます。

ヒント

Azure AI Foundry ポータルで PII 検出を試します。そこでは、現在既存の Language Studio リソースを利用することも、新しい Azure AI Foundry リソースを作成することもできます。

新機能

Text PII と Conversational PII 検出プレビュー API (バージョン 2024-11-15-preview) では、検出された機密エンティティを、単なる編集文字以外のラベルでマスクするオプションがサポートされるようになりました。ユーザーは、名前や電話番号などの個人データコンテンツ ( "John Doe received a call from 424-878-9192") を編集文字 (つまり、 "******** received a call from ************") でマスクするか、エンティティラベル ( "[PERSON_1] received a call from [PHONENUMBER_1]") でマスクするかを指定できます。出力の編集ポリシースタイルを指定する方法の詳細については、ハウツーガイドを参照してください。

Conversational PII 検出モデル (バージョン 2024-11-01-preview と GA の両方) が更新され、AI の品質と精度が向上します。数値識別子エンティティの種類には、運転免許証とメディケア受益者識別子も含まれるようになりました。

2024 年 6 月の時点で、Conversational PII サービスの一般提供サポートが提供されるようになります (英語のみ)。お客様は、複数の話者や単語の明確化を目的として um、ah を使った、会話形式で記述されたトランスクリプト、チャット、その他のテキストをより自信をもって編集できるようになりました。これは、AIの品質向上、Azure SLA のサポートと生産環境のサポート、およびエンタープライズ級のセキュリティを考慮したものです。

能力

現在、PII のサポートは次の機能で利用できます。

定義済みの複数のカテゴリにわたる非構造化テキストで機密情報 (PII) と正常性情報 (PHI) を処理するための一般的なテキスト PII 検出。
会話 PII 検出は、音声の文字起こしと、会議や通話のトランスクリプトで見つかった非公式の会話のトーンを処理するように設計された特殊なモデルです。
構造化ドキュメントファイルを処理するためのネイティブドキュメント PII 検出。

Azure AI Language は、自然言語処理 (NLP) 機能を適用して、テキストベースのデータ内の個人情報 (PII) のカテゴリを検出するクラウドベースのサービスです。このドキュメントには、次の種類が含まれています。

クイックスタートは、サービスへの要求の実行方法を説明する概要手順です。
攻略ガイドには、より具体的なまたはカスタマイズした方法でサービスを使用するための手順が記載されています。

一般的なワークフロー

この機能を使用するには、分析のためのデータを送信し、アプリケーションで API 出力を処理します。分析はそのままの状態で行われ、データに使用されるモデルに対して追加のカスタマイズは行われません。

Azure AI Language リソースを作成します。これにより、Azure AI Language によって提供される機能にアクセスできるようになります。 API 要求の認証に使用するパスワード (キーと呼ばれる) とエンドポイント URL が生成されます。
REST API か、C#、Java、JavaScript、Python のクライアントライブラリを使用して、要求を作成します。バッチ要求で非同期呼び出しを送信して、複数の機能の API 要求を 1 回の呼び出しに統合することもできます。
テキストデータを含む要求を送信します。キーとエンドポイントを使用して認証が行われます。
応答をローカルでストリームまたは保存します。

テキスト PII の主な機能

Azure AI Language では、テキスト内の情報を識別して分類するための名前付きエンティティ認識が提供されます。この機能は、名前、組織、住所、電話番号、財務口座番号またはコード、政府 ID 番号などの PII カテゴリを検出します。この PII のサブセットは、保護された健康情報 (PHI) です。要求で domain=phi を指定すると、PHI エンティティのみが返されます。

PII 検出の概要

PII 検出を使うには、分析対象のテキストを送信し、API の出力をアプリケーションで処理します。分析はそのままの状態で行われ、データに使用されるモデルに対してカスタマイズは行われません。 PII 検出を使用するには、次の 2 つの方法があります。

開発オプション	説明
Azure AI Foundry	Azure AI Foundry は Web ベースのプラットフォームであり、サインアップしたら独自のデータを含むテキストの例で、個人を特定できる情報の検出を使用することができます。詳細については、Azure AI Foundry の Web サイトまたは Azure AI Foundry のドキュメントを参照してください。
REST API またはクライアントライブラリ (Azure SDK)	さまざまな言語で使用できる REST API ライブラリ、またはクライアントライブラリを使用して、PII 検出をお使いのアプリケーションに統合します。詳細については、PII 検出のクイックスタートを参照してください。

リファレンスドキュメントとコードサンプル

アプリケーションでこの機能を使用する場合は、次の Azure AI Language のリファレンスドキュメントとサンプルをご覧ください。

開発オプション/言語	リファレンスドキュメント	サンプル
REST API	REST API ドキュメント
C#	C# のドキュメント	C# のサンプル
ジャワ	Java のドキュメント	Java のサンプル
JavaScript	JavaScript のドキュメント	JavaScript のサンプル
Python（プログラミング言語）	Python のドキュメント	Python のサンプル

入力要件とサービスの制限

テキスト PII は、分析のためにテキストを受け取ります。詳細については、攻略ガイドのデータとサービスの制限に関する記事を参照してください。
PII は、さまざまな記述言語で動作します。詳細については、「言語サポート」を参照してください。ソーステキストを書き込むサポートされている言語を指定できます。言語を指定しない場合、抽出は既定で英語になります。さまざまな多言語と絵文字のエンコードをサポートするため、API からの応答でオフセットが返される場合があります。

ネイティブドキュメント PII は、分析のためにテキストを受け取ります。詳細については、攻略ガイドのデータとサービスの制限に関する記事を参照してください。
ネイティブドキュメント PII は、さまざまな記述言語で動作します。詳細については、「言語サポート」を参照してください。

ネイティブドキュメントとは、Microsoft Word (docx) やポータブルドキュメントファイル (pdf) などの元のドキュメントを作成するために使われるファイル形式のことです。ネイティブドキュメントのサポートにより、Azure AI Language リソースの機能を使用する前に、テキストの前処理を行う必要がなくなります。現在、ネイティブドキュメントのサポートは、PiiEntityRecognition 機能で利用できます。

現在、PII では、次のネイティブドキュメント形式がサポートされています。

ファイルの種類	ファイル拡張子	説明
テキスト	`.txt`	書式設定のないテキストドキュメント。
Adobe PDF	`.pdf`	移植可能なドキュメントファイル形式のドキュメント。
マイクロソフトワード	`.docx`	Microsoft Word 文書ファイル。

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、デプロイ環境も含まれます。システムでの責任ある AI の使用と展開については、PII の透過性のためのメモの記事を参照してください。詳細については、次の記事を参照してください。

シナリオ例

秘密度ラベルの適用 - たとえば、PII サービスからの結果に基づいて、PII エンティティが検出されないドキュメントにパブリック秘密度ラベルが適用される場合があります。米国の住所と電話番号が認識されるドキュメントでは、機密ラベルが適用される場合があります。銀行支店コードが認識されるドキュメントには、極秘のラベルが使用される場合があります。
広く読まれるドキュメントから個人情報のいくつかのカテゴリを編集する - たとえば、顧客の連絡先レコードに最前線のサポート担当者がアクセスできる場合、その会社では顧客のプライバシーを保護するために、顧客履歴のバージョンから名前を除く顧客の個人情報を編集したいと考えることがあります。
無意識の偏りを減らすために個人情報を編集 する - たとえば、会社の履歴書のレビュープロセス中に、名前、住所、電話番号をブロックして、無意識の性別やその他の偏りを減らすことができます。
機械学習のソースデータ内の個人情報を置き換えて不公平を減らす – たとえば、機械学習モデルのトレーニング時に性別を明らかにする可能性のある名前を削除したい場合は、このサービスを使ってそれらを識別し、モデルトレーニング用の汎用プレースホルダーに置き換えることができます。
コールセンターの文字起こしから個人情報を削除する – たとえば、コールセンターのシナリオで、担当者と顧客の間で発生する名前やその他の PII データを削除したい場合などです。このサービスを使ってそれらを識別し、削除できます。
データサイエンス用のデータクリーニング - PII を使ってデータの準備を整え、データサイエンティストやエンジニアがこれらのデータを使って各自の機械学習モデルをトレーニングできるようにすることができます。データを編集して、顧客データが公開されないようにします。

次のステップ

エンティティリンク設定機能を使い始めるには、2 つの方法があります。

Azure AI Foundry はコードを記述することなく Language サービスのいくつかの機能を使用することができる Web ベースのプラットフォームです。
クイックスタート記事。REST API とクライアントライブラリ SDK を使用してサービス要求を行う方法が記載されています。

次の方法で共有

一般的なワークフロー

テキスト PII の主な機能

会話 PII の主な機能

ネイティブドキュメント PII の主な機能

次の方法で共有

Azure AI 言語の個人を特定できる情報 (PII) の検出とは

新機能

能力

一般的なワークフロー

テキスト PII の主な機能

PII 検出の概要

リファレンス ドキュメントとコード サンプル

入力要件とサービスの制限

責任ある AI

シナリオ例

次のステップ

フィードバック

その他のリソース

リファレンスドキュメントとコードサンプル