Détecter et réacter les informations d’identification personnelle dans le texte

2025-05-20

Azure AI Language est un service cloud qui applique des fonctionnalités de traitement du langage naturel (NLP, Natural Language Processing) aux données textuelles. La fonctionnalité de détection des informations personnelles permet d’évaluer des textes non structurés, d’extraire et d’expurger les informations sensibles et les informations médicales contenues dans les textes selon plusieurs catégories prédéfinies.

Options de développement

Pour utiliser la détection des informations d'identification personnelle (PII), vous envoyez du texte à des fins d'analyse et gérez la sortie de l'API dans votre application. L’analyse est effectuée telle quelle, sans personnalisation du modèle utilisé sur vos données. Il existe deux façons d’utiliser la détection des informations d’identification personnelle (PII) :

Option de développement	Descriptif
Azure AI Foundry	Azure AI Foundry est une plateforme Web qui vous permet d’utiliser la détection d’informations d’identification personnelle avec des exemples de texte avec vos propres données lorsque vous vous inscrivez. Pour plus d’informations, consultez le site web Azure AI Foundry ou la documentation Azure AI Foundry.
API REST ou bibliothèque de client (SDK Azure)	Intégrez la détection des informations d’identification personnelle dans vos applications à l’aide de l’API REST ou de la bibliothèque de client disponible dans divers langages. Pour en savoir plus, consultez le guide de démarrage rapide de la détection des informations d’identification personnelle (PII).

Spécifier le modèle de détection des informations d’identification personnelle

Par défaut, cette fonctionnalité utilise le dernier modèle IA disponible sur votre texte. Vous pouvez également configurer vos demandes d’API pour utiliser une version de modèle spécifique.

Langues d’entrée

Lorsque vous envoyez du texte d’entrée à traiter, vous pouvez spécifier les langues prises en charge dans lesquelles elles sont écrites. Si vous ne spécifiez pas de langue, l’extraction est par défaut en anglais. L’API peut retourner des décalages dans la réponse pour prendre en charge différents encodages multilingues et d’émoji.

Stratégie de rédaction (version 2024-05-11-preview uniquement)

Dans la version 2024-11-5-preview, vous pouvez définir le paramètre redactionPolicy pour refléter la stratégie de rédaction à utiliser lors de la rédaction de texte. Le champ de stratégie prend en charge trois types de stratégies :

DoNotRedact
MaskWithCharacter (valeur par défaut)
MaskWithEntityType

La DoNotRedact stratégie permet à l’utilisateur de renvoyer la réponse sans le redactedText champ, c’est-à-dire « John Doe a reçu un appel du 424-878-9192 ».

La MaskWithRedactionCharacter stratégie permet de masquer redactedText avec un caractère (tel que « * »), en conservant la longueur et le décalage du texte d’origine, autrement dit, « ******** a reçu un appel de ************ ». Il s’agit du comportement existant.

Il existe également un champ facultatif appelé redactionCharacter dans lequel vous pouvez saisir le caractère à utiliser dans la rédaction si vous utilisez la stratégie MaskWithCharacter.

La MaskWithEntityType stratégie vous permet de masquer le texte d’entité PII détecté avec le type d’entité détecté, c’est-à-dire « [PERSON_1] a reçu un appel de [PHONENUMBER_1] ».

Sélectionner les entités à renvoyer

L’API tente de détecter les catégories définies de l’entité pour une langue de document donnée. Si vous souhaitez spécifier les entités détectées et retournées, utilisez le paramètre piiCategories facultatif avec les catégories d’entités appropriées. Ce paramètre peut également vous permettre de détecter les entités qui ne sont pas activées par défaut pour votre langue de texte d’entrée. L’exemple suivant détecte uniquement Person. Vous pouvez spécifier un ou plusieurs types d’entités à renvoyer.

Conseil / Astuce

Si vous n’incluez pas default lors de la spécification de catégories d’entités, l’API retourne uniquement les catégories d’entités que vous spécifiez.

Entrée :

Remarque

Dans cet exemple, elle retourne uniquement le type d’entité personne:

https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01

{
    "kind": "PiiEntityRecognition",
    "parameters": 
    {
        "modelVersion": "latest",
        "piiCategories" :
        [
            "Person"
        ]
    },
    "analysisInput":
    {
        "documents":
        [
            {
                "id":"1",
                "language": "en",
                "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
            }
        ]
    },
    "kind": "PiiEntityRecognition", 
    "parameters": { 
        "redactionPolicy": { 
            "policyKind": "MaskWithCharacter"  
             //MaskWithCharacter|MaskWithEntityType|DoNotRedact 
            "redactionCharacter": "*"  
}

Sortie :


{
    "kind": "PiiEntityRecognitionResults",
    "results": {
        "documents": [
            {
                "redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
                "id": "1",
                "entities": [
                    {
                        "text": "John Doe",
                        "category": "Person",
                        "offset": 226,
                        "length": 8,
                        "confidenceScore": 0.98
                    }
                ],
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2021-01-15"
    }
}

Adaptation des informations d’identification personnelles à votre domaine

Pour prendre en charge et s’adapter au vocabulaire personnalisé d’un client utilisé pour identifier des entités (également appelée « contexte »), la entitySynonyms fonctionnalité permet aux clients de définir leurs propres synonymes pour des types d’entités spécifiques. L’objectif de cette fonctionnalité est d’aider à détecter les entités dans des contextes que le modèle n’est pas familiarisé mais qui sont utilisés dans les entrées du client en s’assurant que les termes uniques du client sont reconnus et correctement associés pendant le processus de détection.

L'option valueExclusionPolicy permet aux clients d'adapter le service PII pour les scénarios où ils préfèrent que certains termes ne soient pas détectés ni masqués, même si ces termes appartiennent à une catégorie d'informations personnelles qui les intéresse. Par exemple, un service de police peut vouloir que les identificateurs personnels soient supprimés dans la plupart des cas, à l’exception des termes « policiers », « suspects » et « témoins ».

Les clients peuvent désormais adapter la détection du service PII en spécifiant leur propre regex à l’aide d’un fichier de configuration de reconnaissance régulière. Consultez nos guides pratiques pour conteneurs pour un guide sur l’exécution et l’installation des conteneurs de détection d’informations d’identification personnelle (PII).

Vous trouverez un didacticiel plus détaillé dans le guide pratique « Adaptation des informations personnelles à votre domaine ».

Envoi de données

L’analyse est effectuée à la réception de la demande. L’utilisation de la fonctionnalité de détection des informations d’identification personnelle de façon synchrone est sans état. Aucune donnée n’est stockée dans votre compte, et les résultats sont retournés immédiatement dans la réponse.

Lors de l’utilisation de cette fonctionnalité de manière asynchrone, les résultats de l’API sont disponibles pendant 24 heures à partir du moment où la requête a été ingérée, et sont indiqués dans la réponse. Après cette période, les résultats sont purgés et ne sont plus disponibles pour récupération.

Obtention des résultats sur les informations d’identification personnelle

Lorsque vous recevez des résultats de la détection des informations d’identification personnelle, vous pouvez diffuser les résultats dans une application ou enregistrer la sortie dans un fichier sur le système local. La réponse de l’API inclut entités reconnues, y compris leurs catégories et sous-catégories, et les scores de confiance. La chaîne de texte avec les entités d’identification personnelle est également retournée.

Limites du service et des données

Pour connaître la taille et le nombre de demandes que vous pouvez envoyer par minute et seconde, consultez l’article Limites de service.

Étapes suivantes

Vue d’ensemble Informations d’identification personnelle (PII)