Persoonlijke identificatiegegevens (PII) detecteren en redacteren in gesprekken

Artikel
10/16/2024

Met de functie Conversational PII kunnen gesprekken worden geëvalueerd om gevoelige informatie (PII) op te halen in de inhoud in verschillende vooraf gedefinieerde categorieën en deze op te slaan. Deze API werkt op zowel getranscribeerde tekst (waarnaar wordt verwezen als transcripties) als chats. Voor transcripties maakt de API ook redaction van audiosegmenten mogelijk, die de PII-informatie bevat door de audiotijdinformatie voor die audiosegmenten op te geven.

Bepalen hoe de gegevens moeten worden verwerkt (optioneel)

Het PII-detectiemodel opgeven

Deze functie gebruikt standaard het nieuwste beschikbare AI-model voor uw invoer. U kunt uw API-aanvragen ook configureren voor het gebruik van een specifieke modelversie.

Taalondersteuning

Zie de pagina taalondersteuning voor PII voor meer informatie. Momenteel ondersteunt het model van de conversationele PII GA alleen de Engelse taal. Het preview-model en de API ondersteunen dezelfde lijsttalen als de andere taalservices.

Ondersteuning voor regio

De conversationele PII-API ondersteunt alle Azure-regio's die worden ondersteund door de Taalservice.

Gegevens verzenden

Notitie

Zie het Language Studio-artikel voor informatie over het opmaken van gesprekstekst die u wilt verzenden met Behulp van Language Studio.

U kunt de invoer verzenden naar de API als lijst met gespreksitems. Analyse wordt uitgevoerd na ontvangst van de aanvraag. Omdat de API asynchroon is, kan er een vertraging optreden tussen het verzenden van een API-aanvraag en het ontvangen van de resultaten. Zie de onderstaande gegevenslimieten voor informatie over de grootte en het aantal aanvragen dat u per minuut en seconde kunt verzenden.

Wanneer u de asynchrone functie gebruikt, zijn de API-resultaten gedurende 24 uur beschikbaar vanaf het moment dat de aanvraag is opgenomen en wordt aangegeven in het antwoord. Na deze periode worden de resultaten opgeschoond en zijn ze niet meer beschikbaar voor het ophalen.

Wanneer u gegevens verzendt naar conversationele PII, kunt u één gesprek (chat of gesproken) per aanvraag verzenden.

De API probeert alle gedefinieerde entiteitscategorieën voor een bepaalde gespreksinvoer te detecteren. Als u wilt opgeven welke entiteiten worden gedetecteerd en geretourneerd, gebruikt u de optionele piiCategories parameter met de juiste entiteitscategorieën.

Voor gesproken transcripties worden de gedetecteerde entiteiten geretourneerd op de redactionSource opgegeven parameterwaarde. Op dit moment zijn de ondersteunde waarden voorredactionSource, en maskedItn lexicalitn(die respectievelijk worden toegewezen aan spraak-naar-tekst-REST API's itn display\displayTextlexicalen maskedItn indeling).text Daarnaast biedt deze API voor de gesproken transcriptieinvoer ook informatie over de timing van audio om audio redaction mogelijk te maken. Gebruik de optionele includeAudioRedaction vlag met true waarde voor het gebruik van de functie audioRedaction. De audio redaction wordt uitgevoerd op basis van de lexicale invoerindeling.

Notitie

Gespreks-PII ondersteunt nu 40.000 tekens als documentgrootte.

PII-resultaten ophalen

Wanneer u resultaten van PII-detectie krijgt, kunt u de resultaten streamen naar een toepassing of de uitvoer opslaan in een bestand op het lokale systeem. Het API-antwoord bevat herkende entiteiten, inclusief hun categorieën en subcategorieën en betrouwbaarheidsscores. De tekenreeks met de ge redacteerde PII-entiteiten wordt ook geretourneerd.

Ga naar de overzichtspagina van uw resource in Azure Portal
Selecteer sleutels en eindpunt in het menu aan de linkerkant. U hebt een van de sleutels en het eindpunt nodig om uw API-aanvragen te verifiëren.
Download en installeer het clientbibliotheekpakket voor uw gewenste taal:

Taal Versie van het pakket

.NET 1.0.0

Python 1.0.0
Zie de volgende referentiedocumentatie voor meer informatie over de client en het retourobject:
- C#
- Python

Taal	Versie van het pakket
.NET	1.0.0
Python	1.0.0

Transcripties verzenden met spraak naar tekst

Gebruik het volgende voorbeeld als u gesprekken hebt getranscribeerd met behulp van de spraak-naar-tekstfunctie van de Speech-service:

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Tekstchats verzenden

Gebruik het volgende voorbeeld als u gesprekken hebt die afkomstig zijn uit tekst. Bijvoorbeeld gesprekken via een chatclient op basis van tekst.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview"
            }
        }
    ]
}
`

Het resultaat ophalen

Haal de operation-location antwoordheader op. De waarde ziet er ongeveer als volgt uit:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Gebruik de volgende cURL-opdracht om de resultaten van de aanvraag op te halen. Zorg ervoor dat u vervangt door my-job-id de numerieke id-waarde die u hebt ontvangen van de vorige operation-location antwoordheader:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Service- en gegevenslimieten

Zie het artikel over servicelimieten voor informatie over de grootte en het aantal aanvragen dat u per minuut en seconde kunt verzenden.

Delen via