Qu’est-ce que la détection des informations d’identification personnelle dans Azure AI Language ?

Article
02/02/2024

La détection des informations d’identification personnelle est l’une des fonctionnalités offertes par Azure AI Language, un ensemble d’algorithmes de Machine Learning et IA dans le cloud pour le développement d’applications intelligentes qui impliquent du langage écrit. La fonctionnalité de détection des informations d’identification personnelle permet d’identifier, de catégoriser et de rédiger des informations sensibles dans du texte non structuré. Par exemple : numéros de téléphone, adresses e-mail et formes d’identification. La méthode d’utilisation des informations d’identification personnelle dans les conversations est différente des autres cas d’usage, et les articles pour cette utilisation sont séparés.

Les Démarrages rapides sont des instructions de prise en main qui vous guident dans la formulation de vos requêtes au service.
Les Guides pratiques contiennent des instructions sur l’utilisation du service de manière plus spécifique ou personnalisée.
Les articles conceptuels fournissent des explications approfondies sur les fonctions et fonctionnalités du service.

Les PII se présentent sous deux formes :

PII : fonctionne sur du texte non structuré.
PII de conversation (préversion) : modèle personnalisé pour travailler sur la transcription de conversation.

Flux de travail classique

Pour utiliser cette fonctionnalité, vous envoyez des données à des fins d’analyse et gérez la sortie de l’API dans votre application. L’analyse est effectuée telle quelle, sans personnalisation supplémentaire du modèle utilisé sur vos données.

Créez une ressource Azure AI Language, qui vous permet d’accéder aux fonctionnalités offertes par Azure AI Language. Cela génère un mot de passe (appelé clé) et une URL de point de terminaison que vous utilisez pour authentifier les requêtes d’API.
Créez une requête à l’aide de l’API REST ou de la bibliothèque de client pour C#, Java, JavaScript et Python. Vous pouvez également envoyer des appels asynchrones avec une requête de lot afin de combiner des requêtes d’API pour plusieurs fonctionnalités en un seul appel.
Envoyez la requête contenant vos données texte. Votre clé et votre point de terminaison sont utilisés pour l’authentification.
Diffusez ou stockez la réponse localement.

Prise en charge des documents natifs

Un document natif fait référence au format de fichier utilisé pour créer le document d’origine tel que Microsoft Word (docx) ou un format de document portable (pdf). La prise en charge des documents natifs élimine la nécessité d’un prétraitement de texte avant d’utiliser les fonctionnalités de ressources Azure AI Language. Actuellement, la prise en charge des documents natifs est disponible pour la fonctionnalité PiiEntityRecognition.

Actuellement, les informations d’identification personnelles prennent en charge les formats de document natifs suivants :

Type de fichier	Extension de fichier	Description
Texte	`.txt`	Document texte non mis en forme.
Adobe PDF	`.pdf`	Document portable mis en forme.
Microsoft Word	`.docx`	Document Microsoft Word.

Pour plus d’informations, consultezUtiliser des documents natifs pour le traitement du langage

Prise en main de la détection des informations d’identification personnelle

Pour utiliser la détection des informations d'identification personnelle (PII), vous envoyez du texte à des fins d'analyse et gérez la sortie de l'API dans votre application. L’analyse est effectuée telle quelle, sans personnalisation du modèle utilisé sur vos données. Il existe deux façons d’utiliser la détection des informations d’identification personnelle (PII) :

Option de développement	Description
Language studio	Language Studio est une plateforme web qui vous permet d’essayer la liaison d’entités avec des exemples de texte sans compte Azure et vos propres données lorsque vous vous inscrivez. Pour plus d’informations, consultez le site web Language Studio ou le démarrage rapide de Language Studio.
API REST ou bibliothèque de client (SDK Azure)	Intégrez la détection des informations d’identification personnelle dans vos applications à l’aide de l’API REST ou de la bibliothèque de client disponible dans divers langages. Pour en savoir plus, consultez le guide de démarrage rapide de la détection des informations d’identification personnelle (PII).

Documentation de référence et exemples de code

Quand vous utilisez cette fonctionnalité dans vos applications, consultez la documentation de référence et les exemples suivants pour Azure AI Language :

Option de développement/langage	Documentation de référence	Exemples
API REST	Documentation des API REST
C#	Documentation C#	Exemples C#
Java	Documentation Java	Exemples Java
JavaScript	Documentation JavaScript	Exemples JavaScript
Python	Documentation Python	Exemples Python

Intelligence artificielle responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement de déploiement. Lisez la Note de transparence pour les informations d’identification personnelle pour en savoir plus sur l’utilisation et le déploiement de l’IA responsable dans vos systèmes. Pour plus d’informations, consultez les articles suivants :

Exemples de scénarios

Appliquer des étiquettes de confidentialité : par exemple, en fonction des résultats du service PII, une étiquette de confidentialité publique peut être appliquée aux documents où aucune entité PII n’est détectée. Pour les documents où les adresses et numéros de téléphone américains sont reconnus, une étiquette confidentielle peut être appliquée. Une étiquette hautement confidentielle peut être utilisée pour les documents où les numéros de routage bancaire sont reconnus.
Rédiger certaines catégories d’informations personnelles provenant de documents qui obtiennent une circulation plus large :par exemple, si les enregistrements de contact des clients sont accessibles au support de première ligne, l’entreprise peut rédiger les informations personnelles du client en plus de son nom à partir de la version de l’historique des clients pour préserver la confidentialité du client.
Rédiger les informations personnelles afin de réduire les préjugés inconscients : par exemple, pendant le processus de révision de reprise d’une entreprise, ils peuvent bloquer le nom, l’adresse et le numéro de téléphone pour réduire un préjugé inconscient ou d’autres décalages.
Remplacer les informations personnelles dans les données sources pour le Machine Learning afin de réduire l’injustice : par exemple, si vous souhaitez supprimer des noms susceptibles de révéler le sexe lors de l’apprentissage d’un modèle Machine Learning, vous pouvez utiliser le service pour les identifier et les remplacer par des espaces réservés génériques pour l’apprentissage du modèle.
Supprimer les informations personnelles de la transcription du centre d’appels : par exemple, si vous souhaitez supprimer des noms ou d’autres données PII qui se produisent entre l’agent et le client dans un scénario de centre d’appels. Vous pouvez utiliser le service pour les identifier et les supprimer.
Nettoyage des données pour la science des données : les PII peuvent être utilisées pour rendre les données accessibles aux scientifiques et aux ingénieurs afin qu’ils puissent les utiliser pour entraîner leurs modèles Machine Learning. Rédiger les données pour vous assurer que les données client ne sont pas exposées.

Étapes suivantes

Il existe deux façons de commencer à utiliser la fonctionnalité de liaison d’entités :

Language Studio, une plateforme web qui permet d’essayer plusieurs fonctionnalités de langage sans avoir à écrire de code.
L’article de démarrage rapide pour obtenir des instructions sur la création de requêtes au service à l’aide de l’API REST et du kit SDK de la bibliothèque de client.