Comment détecter et masquer les informations d’identification personnelle

La fonctionnalité de détection des informations d’identification personnelle permet d’évaluer des textes non structurés, d’extraire et d’expurger les informations sensibles et les informations médicales contenues dans les textes selon plusieurs catégories prédéfinies.

Options de développement

Pour utiliser la détection des informations d'identification personnelle (PII), vous envoyez du texte à des fins d'analyse et gérez la sortie de l'API dans votre application. L’analyse est effectuée telle quelle, sans personnalisation du modèle utilisé sur vos données. Il existe deux façons d’utiliser la détection des informations d’identification personnelle (PII) :

Option de développement Description
Language studio Language Studio est une plateforme web qui vous permet d’essayer la liaison d’entités avec des exemples de texte sans compte Azure et vos propres données lorsque vous vous inscrivez. Pour plus d’informations, consultez le site web Language Studio ou le démarrage rapide de Language Studio.
API REST ou bibliothèque de client (SDK Azure) Intégrez la détection des informations d’identification personnelle dans vos applications à l’aide de l’API REST ou de la bibliothèque de client disponible dans divers langages. Pour en savoir plus, consultez le guide de démarrage rapide de la détection des informations d’identification personnelle (PII).

Déterminer le mode de traitement des données (facultatif)

Spécifier le modèle de détection des informations d’identification personnelle

Par défaut, cette fonctionnalité utilise le dernier modèle IA disponible sur votre texte. Vous pouvez également configurer vos demandes d’API pour utiliser une version de modèle spécifique.

Langues de saisie

Lorsque vous soumettez des documents à traiter, vous pouvez préciser dans quelle langue ils sont rédigés parmi celles prises en charge. Si vous ne précisez pas de langue, l’extraction portera par défaut sur l’anglais. L’API peut retourner des décalages dans la réponse pour prendre en charge différents encodages multilingues et d’émoji.

Envoi de données

L’analyse est effectuée à la réception de la demande. L’utilisation de la fonctionnalité de détection des informations d’identification personnelle de façon synchrone est sans état. Aucune donnée n’est stockée dans votre compte, et les résultats sont retournés immédiatement dans la réponse.

Lors de l’utilisation de cette fonctionnalité de manière asynchrone, les résultats de l’API sont disponibles pendant 24 heures à partir du moment où la requête a été ingérée, et sont indiqués dans la réponse. Après cette période, les résultats sont purgés et ne sont plus disponibles pour récupération.

Sélectionner les entités à renvoyer

L’API tente de détecter les catégories d’entité définies pour une langue de document donnée. Si vous voulez spécifier les entités qui seront détectées et retournées, utilisez le paramètre facultatif piiCategories avec les catégories d’entités appropriées. Ce paramètre peut également vous permettre de détecter les entités qui ne sont pas activées par défaut pour la langue de votre document. L’exemple suivant détecte uniquement Person. Vous pouvez spécifier un ou plusieurs types d’entités à renvoyer.

Conseil

Si vous n’incluez pas default lors de la spécification des catégories d’entités, l’API retourne seulement les catégories d’entités que vous spécifiez.

Entrée :

Notes

Dans cet exemple, seul le type d’entité personne sera renvoyé :

https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01

{
    "kind": "PiiEntityRecognition",
    "parameters": 
    {
        "modelVersion": "latest",
        "piiCategories" :
        [
            "Person"
        ]
    },
    "analysisInput":
    {
        "documents":
        [
            {
                "id":"1",
                "language": "en",
                "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
            }
        ]
    }
}

Output:


{
    "kind": "PiiEntityRecognitionResults",
    "results": {
        "documents": [
            {
                "redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
                "id": "1",
                "entities": [
                    {
                        "text": "John Doe",
                        "category": "Person",
                        "offset": 226,
                        "length": 8,
                        "confidenceScore": 0.98
                    }
                ],
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2021-01-15"
    }
}

Obtention des résultats sur les informations d’identification personnelle

Lorsque vous recevez des résultats de la détection des informations d’identification personnelle, vous pouvez diffuser les résultats dans une application ou enregistrer la sortie dans un fichier sur le système local. La réponse de l’API comprend les entités reconnues, y compris leurs catégories et sous-catégories, ainsi que les scores de confiance. La chaîne de texte avec les entités d’informations d’identification personnelle floutées est également retournée.

Limites du service et des données

Pour connaître la taille et le nombre de demandes que vous pouvez envoyer par minute et seconde, consultez l’article Limites de service.

Étapes suivantes

Vue d’ensemble de Reconnaissance d’entité nommée