会話から個人を特定できる情報 (PII) を検出して編集する方法

[アーティクル]
12/19/2023

会話の PII 機能を使用すると、会話を評価して、事前に定義された複数のカテゴリを対象に、コンテンツ内の機密情報 (PII) を抽出し、それらを編集できます。この API は、文字起こしされたテキスト (トランスクリプトと呼ばれます) とチャットの両方に対して動作します。トランスクリプトの場合、この API ではオーディオセグメントの編集も可能です。その場合は、それらのオーディオセグメントのオーディオタイミング情報を提供することで、PII 情報が含められます。

データの処理方法を決定する (省略可能)

PII 検出モデルを指定する

既定では、入力に対して利用できる最新の AI モデルがこの機能に使用されます。特定のバージョンのモデルを使うように API 要求を構成することもできます。

言語のサポート

現在、会話 PII プレビュー API では英語のみがサポートされています。

リージョンのサポート

現在、会話 PII プレビュー API では、言語サービスでサポートされているすべての Azure リージョンがサポートされています。

データの送信

Note

Language Studio を使用して送信する会話テキストの書式設定については、Language Studio に関する記事をご覧ください。

入力は、会話項目のリストとして API に送信できます。要求が受信されると分析が実行されます。 API は非同期なので、API 要求を送信してから、結果を受信するまでに、遅延が発生する可能性があります。 1 分間および 1 秒間に送信できる要求のサイズと数については、以下のデータ制限をご覧ください。

非同期機能を使用している場合、API の結果は要求の取り込み時刻から 24 時間利用でき、応答内で示されます。この時間が経過すると、結果は消去され、取得できなくなります。

会話 PII にデータを送信する際には、要求ごとに 1 つの会話 (チャットまたは音声) を送信できます。

API は、指定された会話入力について、すべての定義されたエンティティのカテゴリを検出しようと試みます。検出されて返されるエンティティを指定する場合は、オプションの piiCategories パラメーターを適切なエンティティカテゴリと共に使用します。

音声トランスクリプトの場合、検出されたエンティティは指定された redactionSource パラメーターの値で返されます。現在、redactionSource に対してサポートされている値は、text、lexical、itn、および maskedItn です (これらはそれぞれ、Speech to Text REST API の display\displayText、lexical、itn、および maskedItn の形式にマップされます)。さらに、音声トランスクリプト入力の場合、この API ではオーディオの編集を強化するために、オーディオのタイミング情報も提供されます。 audioRedaction 機能を使用する場合は、省略可能な includeAudioRedaction フラグに true の値を使用します。オーディオの編集は、字句入力形式に基づいて実行されます。

Note

会話 PII でドキュメントサイズとして 40,000 文字がサポートされるようになりました。

PII の結果の取得

PII 検出から結果を取得するときは、結果をアプリケーションにストリーミングしたり、ローカルシステム上のファイルに出力を保存したりできます。 API の応答には、認識されたエンティティと、そのカテゴリ、サブカテゴリ、信頼度スコアなどが含まれます。 PII エンティティが編集されたテキスト文字列も返されます。

Azure portal でリソースの概要ページに移動します
左側のメニューで [キーとエンドポイント] を選びます。 API 要求を認証するには、いずれかのキーとエンドポイントが必要です。
選択した言語のクライアントライブラリパッケージをダウンロードしてインストールします。

言語パッケージバージョン

.NET 1.0.0

Python 1.0.0
クライアントと戻りオブジェクトの詳細については、次のリファレンスドキュメントを参照してください。
- C#
- Python

言語	パッケージバージョン
.NET	1.0.0
Python	1.0.0

音声テキスト変換を使用してトランスクリプトを送信する

Speech サービスの音声テキスト変換機能を使用して会話を文字起こしする場合は、次の例を使用してください。

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

テキストチャットを送信する

テキストで発信された会話がある場合は、次の例を使用してください。たとえば、テキストベースのチャットクライアントを介した会話などです。

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview"
            }
        }
    ]
}
`

結果を取得する

operation-location を応答ヘッダーから取得します。この値は次の URL のようになります。

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

要求の結果を取得するには、次の cURL コマンドを使用します。 my-job-id を、前の operation-location 応答ヘッダーから受け取った数値 ID 値に必ず置き換えてください。

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

サービスとデータの制限

分単位および秒単位で送信できる要求のサイズと数については、サービスの制限に関する記事を参照してください。