Erkennen und Redigieren personenbezogener Informationen (PII) in Unterhaltungen

Artikel
12/19/2023

Das Gesprächs-PII-Feature kann Unterhaltungen auswerten, um vertrauliche Informationen (PII) aus den Inhalten in mehrere vordefinierte Kategorien zu extrahieren und sie zu redigieren. Diese API funktioniert sowohl für transkribierten Text, auf den in Form von Transkripten verwiesen wird, als auch für Chats. Für Transkripte ermöglicht die API auch das Redigieren von Audiosegmenten, die PII enthalten, indem sie die Informationen zur Dauer dieser Audiosegmente bereitstellen.

Festlegen der Art der Datenverarbeitung (optional)

Angeben des PII-Erkennungsmodells

Standardmäßig wendet dieses Feature das aktuellste verfügbare KI-Modell auf Ihre Eingabe an. Sie können Ihre API-Anforderungen auch für die Verwendung einer bestimmten Modellversion konfigurieren.

Sprachunterstützung

Derzeit unterstützt die Unterhaltungs-PII-API in der Vorschau nur Englisch.

Unterstützung für Regionen

Aktuell unterstützt die Unterhaltungs-PII API (Vorschau) alle Azure-Regionen, die vom Sprachdienst unterstützt werden.

Übermitteln der Daten

Hinweis

Informationen zum Formatieren von Konversationstext, der mit Language Studio übermittelt werden soll, finden Sie im Artikel zu Language Studio.

Sie können die Eingabe als Liste von Unterhaltungselementen an die API übermitteln. Die Analyse erfolgt, wenn die Anforderung eingeht. Da es sich um eine asynchrone API handelt, kann es zu einer Verzögerung zwischen dem Senden einer API-Anforderung und dem Erhalt der Ergebnisse kommen. Informationen zur Größe und Anzahl von Anforderungen, die Sie pro Minute und Sekunde senden können, finden Sie in den nachstehend aufgeführten Datengrenzwerten.

Wenn Sie das asynchrone Feature verwenden, sind die API-Ergebnisse ab Erfassen der Anforderung wie in der Antwort angegeben 24 Stunden lang verfügbar. Nach diesem Zeitraum werden die Ergebnisse endgültig gelöscht und stehen nicht mehr zum Abruf zur Verfügung.

Wenn Sie Daten an die Unterhaltungs-PII übermitteln, kann eine Unterhaltung (Chat oder gesprochen) pro Anforderung gesendet werden.

Die API versucht, alle definierten Entitätskategorien für eine bestimmte Unterhaltungseingabe zu erkennen. Wenn Sie angeben möchten, welche Entitäten erkannt und zurückgegeben werden sollen, verwenden Sie den optionalen Parameter piiCategories mit den entsprechenden Entitätskategorien.

Bei gesprochenen Transkripten werden die erkannten Entitäten auf dem angegebenen redactionSource-Parameterwert zurückgegeben. Derzeit lauten die für redactionSource unterstützten Werte text, lexical, itn und maskedItn (die den Formaten display\displayText, lexical, itn und maskedItn der Spracherkennungs-REST-API entsprechen). Darüber hinaus stellt diese API für die gesprochene Transkripteingabe auch Informationen zur Audiodauer bereit, um das Redigieren von Audios zu ermöglichen. Verwenden Sie das optionale includeAudioRedaction-Flag mit dem Wert true, um das Feature „audioRedaction“ zu nutzen. Das Redigieren des Audios wird auf der Basis des lexikalischen Eingabeformats durchgeführt.

Hinweis

Unterhaltung mit personenbezogenen Informationen unterstützt jetzt 40.000 Zeichen als Dokumentgröße.

Abrufen von PII-Ergebnissen

Wenn Sie Ergebnisse von der PII-Erkennung erhalten, können Sie diese an eine App streamen oder die Ausgabe in einer Datei im lokalen System speichern. Die API-Antwort enthält erkannte Entitäten, einschließlich ihrer Kategorien und Unterkategorien sowie Konfidenzscores. Die Textzeichenfolge mit den redigierten PII-Entitäten wird ebenfalls zurückgegeben.

Navigieren Sie im Azure-Portal zur Übersichtsseite Ihrer Ressource.
Wählen Sie im Menü auf der linken Seite Schlüssel und Endpunkt aus. Sie benötigen einen der Schlüssel und den Endpunkt, um Ihre API-Anforderungen zu authentifizieren.
Laden Sie das Clientbibliothekspaket für die Sprache Ihrer Wahl herunter, und installieren Sie es:

Sprache Paketversion

.NET 1.0.0

Python 1.0.0
Weitere Informationen zum Client und zum Rückgabeobjekt finden Sie in der folgenden Referenzdokumentation:
- C#
- Python

Sprache	Paketversion
.NET	1.0.0
Python	1.0.0

Übermitteln von Transkripten mithilfe von Spracherkennung

Verwenden Sie das folgende Beispiel, wenn Sie Unterhaltungen mit dem Spracherkennungs-Feature von Speech transkribiert haben:

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Senden von Textchats

Verwenden Sie das folgende Beispiel, wenn Sie über Unterhaltungen verfügen, die aus Text stammen. Dabei kann es sich beispielsweise um Unterhaltungen über einen textbasierten Chatclient handeln.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview"
            }
        }
    ]
}
`

Abrufen des Ergebnisses

Rufen Sie operation-location aus dem Antwortheader ab. Der Wert sieht etwa wie die folgende URL aus:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Verwenden Sie den folgenden cURL-Befehl, um die Ergebnisse der Anforderung abzurufen. Ersetzen Sie my-job-id durch den numerischen ID-Wert, den Sie aus dem vorherigen operation-location-Antwortheader erhalten haben:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Grenzwerte für Dienste und Daten

Informationen zur Größe und Anzahl der Anforderungen, die Sie pro Minute und pro Sekunde senden können, finden Sie im Artikel Diensteinschränkungen.