会話から個人を特定できる情報 (PII) を検出して編集する方法
会話の PII 機能を使用すると、会話を評価して、事前に定義された複数のカテゴリを対象に、コンテンツ内の機密情報 (PII) を抽出し、それらを編集できます。 この API は、文字起こしされたテキスト (トランスクリプトと呼ばれます) とチャットの両方に対して動作します。 トランスクリプトの場合、この API ではオーディオ セグメントの編集も可能です。その場合は、それらのオーディオ セグメントのオーディオ タイミング情報を提供することで、PII 情報が含められます。
データの処理方法を決定する (省略可能)
PII 検出モデルを指定する
既定では、入力に対して利用できる最新の AI モデルがこの機能に使用されます。 特定のバージョンのモデルを使うように API 要求を構成することもできます。
言語のサポート
詳細については、PII 言語サポートのページを参照してください。 現在、会話 PII GA モデルでサポートされているのは英語のみです。 プレビュー モデルと API では、他の言語サービスと同じ言語がサポートされます。
リージョンのサポート
会話 PII API では、言語サービスでサポートされているすべての Azure リージョンがサポートされています。
データの送信
Note
Language Studio を使用して送信する会話テキストの書式設定については、Language Studio に関する記事をご覧ください。
入力は、会話項目のリストとして API に送信できます。 要求が受信されると分析が実行されます。 API は非同期なので、API 要求を送信してから、結果を受信するまでに、遅延が発生する可能性があります。 1 分間および 1 秒間に送信できる要求のサイズと数については、以下のデータ制限をご覧ください。
非同期機能を使用している場合、API の結果は要求の取り込み時刻から 24 時間利用でき、応答内で示されます。 この時間が経過すると、結果は消去され、取得できなくなります。
会話 PII にデータを送信する際には、要求ごとに 1 つの会話 (チャットまたは音声) を送信できます。
API は、指定された会話入力について、すべての定義されたエンティティのカテゴリを検出しようと試みます。 検出されて返されるエンティティを指定する場合は、オプションの piiCategories
パラメーターを適切なエンティティ カテゴリと共に使用します。
音声トランスクリプトの場合、検出されたエンティティは指定された redactionSource
パラメーターの値で返されます。 現在、redactionSource
に対してサポートされている値は、text
、lexical
、itn
、および maskedItn
です (これらはそれぞれ、Speech to Text REST API の display
\displayText
、lexical
、itn
、および maskedItn
の形式にマップされます)。 さらに、音声トランスクリプト入力の場合、この API ではオーディオの編集を強化するために、オーディオのタイミング情報も提供されます。 audioRedaction 機能を使用する場合は、省略可能な includeAudioRedaction
フラグに true
の値を使用します。 オーディオの編集は、字句入力形式に基づいて実行されます。
Note
会話 PII でドキュメント サイズとして 40,000 文字がサポートされるようになりました。
PII の結果の取得
PII 検出から結果を取得するときは、結果をアプリケーションにストリーミングしたり、ローカル システム上のファイルに出力を保存したりできます。 API の応答には、認識されたエンティティと、そのカテゴリ、サブカテゴリ、信頼度スコアなどが含まれます。 PII エンティティが編集されたテキスト文字列も返されます。
例
Azure portal でリソースの概要ページに移動します
左側のメニューで [キーとエンドポイント] を選びます。 API 要求を認証するには、いずれかのキーとエンドポイントが必要です。
選択した言語のクライアント ライブラリ パッケージをダウンロードしてインストールします。
言語 パッケージ バージョン .NET 1.0.0 Python 1.0.0 クライアントと戻りオブジェクトの詳細については、次のリファレンス ドキュメントを参照してください。
サービスとデータの制限
分単位および秒単位で送信できる要求のサイズと数については、サービスの制限に関する記事を参照してください。