Persoonlijke identificatiegegevens in tekst detecteren en bewerken

2025-05-20

Azure AI Language is een cloudservice die NLP-functies (Natural Language Processing) toepast op gegevens op basis van tekst. De PII-functie kan ongestructureerde tekst evalueren, gevoelige informatie extraheren en redacteren (PII) en gezondheidsinformatie (PHI) in tekst in verschillende vooraf gedefinieerde categorieën.

Ontwikkelingsopties

Als u PII-detectie wilt gebruiken, verzendt u tekst voor analyse en verwerkt u de API-uitvoer in uw toepassing. Analyse wordt uitgevoerd als zodanig, zonder aanpassingen aan het model dat op uw gegevens wordt gebruikt. Er zijn twee manieren om PII-detectie te gebruiken:

Ontwikkelingsoptie	Beschrijving
Azure AI Foundry	Azure AI Foundry is een webplatform waarmee u gegevensdetectie persoonlijk kunt identificeren met tekstvoorbeelden met uw eigen gegevens wanneer u zich aanmeldt. Zie de Azure AI Foundry-website of documentatie voor Azure AI Foundry voor meer informatie.
REST API of cliëntbibliotheek (Azure SDK)	Integreer PII-detectie in uw toepassingen met behulp van de REST API of de clientbibliotheek die beschikbaar is in verschillende talen. Raadpleeg de quickstart over PII-detectie voor meer informatie.

Het PII-detectiemodel opgeven

Deze functie maakt standaard gebruik van het meest recente beschikbare AI-model op uw tekst. U kunt uw API-aanvragen ook configureren voor het gebruik van een specifieke modelversie.

Invoertalen

Wanneer u invoertekst verzendt die moet worden verwerkt, kunt u opgeven in welke van de ondersteunde talen ze zijn geschreven. Als u geen taal opgeeft, wordt de standaardinstelling voor extractie ingesteld op Engels. De API retourneert mogelijk offsets in het antwoord ter ondersteuning van verschillende meertalige en emoji-coderingen.

Redactiebeleid (versie 5-11-2024-preview alleen)

In versie 2024-11-5-previewkunt u de redactionPolicy parameter definiëren om het redaction-beleid weer te geven dat moet worden gebruikt bij het redacteren van tekst. Het beleidsveld ondersteunt drie beleidstypen:

DoNotRedact
MaskWithCharacter (standaard)
MaskWithEntityType

Met DoNotRedact het beleid kan de gebruiker het antwoord retourneren zonder het redactedText veld, dat wil gezegd: 'John Doe heeft een oproep ontvangen van 424-878-9192'.

Het MaskWithRedactionCharacter beleid maakt het redactedText mogelijk om te worden gemaskeerd met een teken (zoals '*'), waarbij de lengte en verschuiving van de oorspronkelijke tekst behouden blijven, namelijk '******** een oproep ontvangen van ************'. Dit is het bestaande gedrag.

Er is ook een optioneel veld genaamd redactionCharacter waar u het teken kunt invoeren dat voor anonimisering moet worden gebruikt als u de MaskWithCharacter beleid gebruikt.

Met MaskWithEntityType het beleid kunt u de gedetecteerde PII-entiteitstekst maskeren met het gedetecteerde entiteitstype, namelijk '[PERSON_1] heeft een aanroep ontvangen van [PHONENUMBER_1]'.

Selecteren welke entiteiten moeten worden geretourneerd

De API probeert de gedefinieerde entiteitscategorieën voor een bepaalde invoerteksttaal te detecteren. Als u wilt opgeven welke entiteiten worden gedetecteerd en geretourneerd, gebruikt u de optionele piiCategories parameter met de juiste entiteitscategorieën. Met deze parameter kunt u ook entiteiten detecteren die niet standaard zijn ingeschakeld voor uw invoerteksttaal. In het volgende voorbeeld wordt alleen Persongedetecteerd. U kunt een of meer entiteitstypen opgeven die moeten worden geretourneerd.

Hint

Als u niet opneemt default bij het opgeven van entiteitscategorieën, retourneert de API alleen de entiteitscategorieën die u opgeeft.

Input:

Opmerking

In dit voorbeeld wordt alleen het entiteitstype persoon geretourneerd:

https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01

{
    "kind": "PiiEntityRecognition",
    "parameters": 
    {
        "modelVersion": "latest",
        "piiCategories" :
        [
            "Person"
        ]
    },
    "analysisInput":
    {
        "documents":
        [
            {
                "id":"1",
                "language": "en",
                "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
            }
        ]
    },
    "kind": "PiiEntityRecognition", 
    "parameters": { 
        "redactionPolicy": { 
            "policyKind": "MaskWithCharacter"  
             //MaskWithCharacter|MaskWithEntityType|DoNotRedact 
            "redactionCharacter": "*"  
}

Uitvoer:


{
    "kind": "PiiEntityRecognitionResults",
    "results": {
        "documents": [
            {
                "redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
                "id": "1",
                "entities": [
                    {
                        "text": "John Doe",
                        "category": "Person",
                        "offset": 226,
                        "length": 8,
                        "confidenceScore": 0.98
                    }
                ],
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2021-01-15"
    }
}

PII aanpassen aan uw domein

Om tegemoet te komen aan en aan te passen aan de aangepaste woordenlijst van een klant die wordt gebruikt om entiteiten te identificeren (ook wel 'context' genoemd), kunnen klanten met de entitySynonyms functie hun eigen synoniemen definiëren voor specifieke entiteitstypen. Het doel van deze functie is om entiteiten te detecteren in contexten waarmee het model niet bekend is, maar worden gebruikt in de invoer van de klant door ervoor te zorgen dat de unieke termen van de klant worden herkend en correct worden gekoppeld tijdens het detectieproces.

Met de valueExclusionPolicy optie kunnen klanten de PII-service aanpassen voor scenario's waarbij klanten bepaalde termen liever niet detecteren en redacteren, zelfs als deze termen in een PII-categorie vallen waarin ze geïnteresseerd zijn in gedetecteerd. Een politieafdeling wil bijvoorbeeld dat persoonlijke id's in de meeste gevallen worden geredigeerd, met uitzondering van termen als 'politieagent', 'verdachte' en 'witness'.

Klanten kunnen de detectie van de PII-service nu aanpassen door hun eigen regex op te geven met behulp van een regex-herkenningsconfiguratiebestand. Raadpleeg onze handleidingen voor containerrichtlijnen voor een zelfstudie over het installeren en uitvoeren van PII-detectiecontainers (Personally Identifiable Information).

Een gedetailleerdere zelfstudie vindt u in de instructiegids 'PiI aanpassen aan uw domein'.

Gegevens verzenden

Analyse wordt uitgevoerd na ontvangst van de aanvraag. Het gebruik van de PII-detectiefunctie is staatloos en vindt synchroon plaats. Er worden geen gegevens in uw account opgeslagen en de resultaten worden onmiddellijk in het antwoord geretourneerd.

Wanneer u deze functie asynchroon gebruikt, zijn de API-resultaten gedurende 24 uur beschikbaar vanaf het moment dat de aanvraag is opgenomen en wordt aangegeven in het antwoord. Na deze periode worden de resultaten opgeschoond en zijn ze niet meer beschikbaar voor het ophalen.

PII-resultaten ophalen

Wanneer u resultaten van PII-detectie krijgt, kunt u de resultaten streamen naar een toepassing of de uitvoer opslaan in een bestand op het lokale systeem. Het API-antwoord bevat herkende entiteiten, inclusief hun categorieën en subcategorieën en betrouwbaarheidsscores. De tekstreeks met de verwijderde PII-eenheden wordt ook geretourneerd.

Service- en gegevenslimieten

Zie het artikel over servicelimieten voor informatie over de grootte en het aantal aanvragen dat u per minuut en seconde kunt verzenden.

Volgende stappen

Overzicht van persoonlijke identificatiegegevens (PII)