Recommandations pour la classification des données

Article
11/15/2023

S’applique à la recommandation de liste de contrôle de sécurité Azure Well-Architected Framework :

SE :03	Classifiez et appliquez de manière cohérente des étiquettes de confidentialité sur toutes les données et systèmes de charge de travail impliqués dans le traitement des données. Utilisez la classification pour influencer la conception de la charge de travail, l’implémentation et la hiérarchisation de la sécurité.

Ce guide décrit les recommandations pour la classification des données. La plupart des charges de travail stockent différents types de données. Toutes les données ne sont pas aussi sensibles. La classification des données vous aide à catégoriser les données en fonction de leur niveau de sensibilité, du type d’informations et de l’étendue de conformité afin que vous puissiez appliquer le niveau de protection approprié. La protection comprend des contrôles d’accès, des stratégies de rétention pour différents types d’informations, etc. Bien que les contrôles de sécurité réels basés sur la classification des données soient hors de portée pour cet article, il fournit des recommandations pour catégoriser les données en fonction des critères précédents définis par votre organization.

Définitions

Terme	Définition
classification ;	Processus permettant de classer les ressources de charge de travail par niveau de sensibilité, type d’informations, exigences de conformité et autres critères fournis par le organization.
Métadonnées	Implémentation pour l’application de la taxonomie aux ressources.
Taxonomie	Système permettant d’organiser les données classifiées à l’aide d’une structure convenue. En règle générale, une représentation hiérarchique de la classification des données. Il contient des entités nommées qui indiquent des critères de catégorisation.

Stratégies de conception

La classification des données est un exercice crucial qui détermine souvent la création d’un système d’enregistrement et de sa fonction. La classification vous permet également de dimensionner correctement les garanties de sécurité et aide l’équipe de triage à accélérer la découverte lors de la réponse aux incidents. Une condition préalable au processus de conception est de comprendre clairement si les données doivent être traitées comme confidentielles, restreintes, publiques ou toute autre classification de confidentialité. Il est également essentiel de déterminer les emplacements où les données sont stockées, car elles peuvent être distribuées dans plusieurs environnements.

La découverte des données est nécessaire pour localiser les données. Sans cette connaissance, la plupart des conceptions adoptent une approche intermédiaire, qui peut ou non répondre aux exigences de sécurité. Les données peuvent être surprotégées, ce qui entraîne des inefficacités en matière de coûts et de performances. Ou il peut ne pas être suffisamment protégé, ce qui ajoute à la surface d’attaque.

La classification des données est souvent un exercice fastidieux. Il existe des outils disponibles qui peuvent découvrir des ressources de données et suggérer des classifications. Mais ne comptez pas uniquement sur les outils. Mettez en place un processus dans lequel les membres de l’équipe effectuent les exercices avec diligence. Utilisez ensuite des outils pour automatiser quand cela est pratique.

Outre ces bonnes pratiques, consultez Create une infrastructure de classification des données bien conçue.

Comprendre la taxonomie définie par organization

La taxonomie est une représentation hiérarchique de la classification des données. Il contient des entités nommées qui indiquent les critères de catégorisation.

En général, il n’existe pas de norme universelle pour la classification ou la définition de la taxonomie. Elle est pilotée par la motivation d’un organization à protéger les données. La taxonomie peut capturer les exigences de conformité, les fonctionnalités promises pour les utilisateurs de charge de travail ou d’autres critères pilotés par les besoins de l’entreprise.

Voici quelques exemples d’étiquettes de classification pour les niveaux de sensibilité, le type d’informations et l’étendue de conformité.

Sensibilité	Type d’informations	Étendue de la conformité
Public, Général, Confidentiel, Hautement Confidentiel, Secret, Top Secret, Sensible	Finances, Carte de crédit, Nom, Coordonnées, Informations d’identification, Banque, Réseau, SSN, Champs Santé, Date de naissance, Propriété intellectuelle, données personnelles	HIPAA, PCI, CCPA, SOX, RTB

En tant que propriétaire de charge de travail, comptez sur vos organization pour vous fournir une taxonomie bien définie. Tous les rôles de charge de travail doivent avoir une compréhension partagée de la structure, de la nomenclature et de la définition des niveaux de sensibilité. Ne définissez pas votre propre système de classification.

Définir l’étendue de classification

La plupart des organisations ont un ensemble diversifié d’étiquettes.

Identifiez clairement les ressources et composants de données qui sont dans l’étendue et hors de l’étendue pour chaque niveau de sensibilité. Vous devez avoir un objectif clair sur le résultat. L’objectif peut être un tri plus rapide, une récupération d’urgence accélérée ou des audits réglementaires. Lorsque vous comprenez clairement les objectifs, cela vous permet de dimensionner correctement vos efforts de classification.

Commencez par ces questions simples et développez en fonction de la complexité de votre système :

Quelle est l’origine du type de données et d’informations ?
Quelle est la restriction attendue en fonction de l’accès ? Par exemple, s’agit-il de données d’information publiques, de réglementations ou d’autres cas d’usage attendus ?
Quelle est l’empreinte des données ? Où sont stockées les données ? Combien de temps les données doivent-elles être conservées ?
Quels composants de l’architecture interagissent avec les données ?
Comment les données se déplacent-elles dans le système ?
Quelles sont les informations attendues dans les rapports d’audit ?
Avez-vous besoin de classifier les données de préproduction ?

Inventaire de vos magasins de données

Si vous disposez d’un système existant, effectuez l’inventaire de tous les magasins de données et composants qui sont dans l’étendue. En revanche, si vous concevez un nouveau système, créez une dimension de flux de données de l’architecture et disposez d’une catégorisation initiale par définitions de taxonomie. La classification s’applique au système dans son ensemble. Elle est distinctement différente de la classification des secrets de configuration et des non-secrétaires.

Définir votre étendue

Soyez granulaire et explicite lors de la définition de l’étendue. Supposons que votre magasin de données soit un système tabulaire. Vous souhaitez classifier la sensibilité au niveau de la table ou même des colonnes de la table. Veillez également à étendre la classification aux composants de magasin de données qui peuvent être liés ou avoir une partie dans le traitement des données. Par exemple, avez-vous classé la sauvegarde de votre magasin de données hautement sensible ? Si vous mettant en cache des données sensibles à l’utilisateur, le magasin de données de mise en cache est-il dans l’étendue ? Si vous utilisez des magasins de données analytiques, comment les données agrégées sont-elles classifiées ?

Concevoir en fonction des étiquettes de classification

La classification doit influencer vos décisions architecturales. Le domaine le plus évident est votre stratégie de segmentation, qui doit prendre en compte les étiquettes de classification variées.

Par exemple, les étiquettes influencent les limites d’isolation du trafic. Il peut y avoir des flux critiques où la sécurité de la couche de transport (TLS) de bout en bout est requise, tandis que d’autres paquets peuvent être envoyés via HTTP. Si des messages sont transmis via un répartiteur de messages, certains messages devront peut-être être signés.

Pour les données au repos, les niveaux affectent les choix de chiffrement. Vous pouvez choisir de protéger les données hautement sensibles par le biais d’un double chiffrement. Différents secrets d’application peuvent même nécessiter un contrôle avec des niveaux de protection variés. Vous pouvez peut-être justifier le stockage de secrets dans un magasin de module de sécurité matériel (HSM), qui offre des restrictions plus élevées. Les étiquettes de conformité dictent également les décisions concernant les normes de protection appropriées. Par exemple, la norme PCI-DSS impose l’utilisation de la protection FIPS 140-2 de niveau 3, qui est disponible uniquement avec les HSM. Dans d’autres cas, il peut être acceptable que d’autres secrets soient stockés dans un magasin de gestion des secrets standard.

Si vous avez besoin de protéger les données en cours d’utilisation, vous pouvez incorporer l’informatique confidentielle dans l’architecture.

Les informations de classification doivent se déplacer avec les données à mesure qu’elles transitent par le système et entre les composants de la charge de travail. Les données étiquetées comme confidentielles doivent être traitées comme confidentielles par tous les composants qui interagissent avec elles. Par exemple, veillez à protéger les données personnelles en les supprimant ou en les masquant de tout type de journaux d’application.

La classification a un impact sur la conception de votre rapport dans la façon dont les données doivent être exposées. Par exemple, en fonction de vos étiquettes de type d’informations, devez-vous appliquer un algorithme de masquage des données pour l’obfuscation à la suite de l’étiquette de type d’information ? Quels rôles doivent avoir une visibilité sur les données brutes par rapport aux données masquées ? S’il existe des exigences de conformité pour la création de rapports, comment les données sont-elles mappées aux réglementations et aux normes ? Lorsque vous avez cette compréhension, il est plus facile de démontrer la conformité à des exigences spécifiques et de générer des rapports pour les auditeurs.

Cela a également un impact sur les opérations de gestion du cycle de vie des données, telles que les planifications de conservation et de désaffectation des données.

Appliquer la taxonomie pour l’interrogation

Il existe de nombreuses façons d’appliquer des étiquettes de taxonomie aux données identifiées. L’utilisation d’un schéma de classification avec des métadonnées est la façon la plus courante d’indiquer les étiquettes. La normalisation par le biais du schéma permet de s’assurer que la création de rapports est exacte, réduit les risques de variation et évite la création de requêtes personnalisées. Créez des vérifications automatisées pour intercepter les entrées non valides.

Vous pouvez appliquer des étiquettes manuellement, par programmation ou utiliser une combinaison des deux. Le processus de conception de l’architecture doit inclure la conception du schéma. Que vous disposiez d’un système existant ou que vous en construisiez un nouveau, lors de l’application d’étiquettes, maintenez la cohérence dans les paires clé/valeur.

N’oubliez pas que toutes les données ne peuvent pas être clairement classifiées. Prenez une décision explicite sur la façon dont les données qui ne peuvent pas être classifiées doivent être représentées dans la création de rapports.

L’implémentation réelle dépend du type de ressources. Certaines ressources Azure ont des systèmes de classification intégrés. Par exemple, Azure SQL Server dispose d’un moteur de classification, prend en charge le masquage dynamique et peut générer des rapports en fonction des métadonnées. Azure Service Bus prend en charge l’inclusion d’un schéma de message qui peut avoir des métadonnées jointes. Lorsque vous concevez votre implémentation, évaluez les fonctionnalités prises en charge par la plateforme et tirez-en parti. Assurez-vous que les métadonnées utilisées pour la classification sont isolées et stockées séparément des magasins de données.

Il existe également des outils de classification spécialisés qui peuvent détecter et appliquer des étiquettes automatiquement. Ces outils sont connectés à vos sources de données. Microsoft Purview dispose de fonctionnalités de découverte automatique. Il existe également des outils tiers qui offrent des fonctionnalités similaires. Le processus de découverte doit être validé par vérification manuelle.

Passez régulièrement en revue la classification des données. La maintenance de la classification doit être intégrée aux opérations. Sinon, les métadonnées obsolètes peuvent entraîner des résultats erronés pour les objectifs identifiés et les problèmes de conformité.

Compromis : Soyez attentif au compromis de coût sur l’outilage. Les outils de classification nécessitent une formation et peuvent être complexes.

En fin de compte, la classification doit être cumulée au organization par le biais d’équipes centrales. Obtenez des informations de leur part sur la structure de rapport attendue. En outre, tirez parti des outils et des processus centralisés pour assurer l’alignement organisationnel et réduire les coûts opérationnels.

Facilitation Azure

Microsoft Purview unifie les solutions Azure Purview et Microsoft Purview pour fournir une visibilité sur les ressources de données dans votre organization. Pour plus d’informations, consultez Qu’est-ce que Microsoft Purview ?

Azure SQL Database, Azure SQL Managed Instance et Azure Synapse Analytics offrent des fonctionnalités de classification intégrées. Utilisez ces outils pour découvrir, classer, étiqueter et signaler les données sensibles de vos bases de données. Pour plus d’informations, consultez Découverte et classification des données.

Exemple

Cet exemple s’appuie sur l’environnement informatique établi dans la base de référence de sécurité (SE :01). L’exemple de diagramme ci-dessous montre les magasins de données où les données sont classifiées.

Les données stockées sur des bases de données et des disques ne doivent être accessibles qu’à quelques utilisateurs, tels que les administrateurs, les administrateurs de base de données. Ensuite, il est courant que les utilisateurs courants ou les clients finaux aient accès uniquement aux couches exposées à Internet, telles que les applications ou les jump box.
Les applications communiquent avec les bases de données ou les données stockées sur des disques, tels que le stockage d’objets ou les serveurs de fichiers.
Dans certains cas, les données peuvent être stockées dans un environnement local et dans le cloud public. Les deux doivent être classés de manière cohérente.
Dans un cas d’utilisation d’un opérateur, les administrateurs distants ont besoin de zones d’accès sur le cloud ou sur une machine virtuelle exécutant la charge de travail. Les autorisations d’accès doivent être accordées conformément aux étiquettes de classification des données.
Les données transitent par les machines virtuelles vers les bases de données back-end et les données doivent être traitées avec le même niveau de confidentialité tout au long des points de traversée.
Les charges de travail stockent les données directement dans les disques de machine virtuelle. Ces disques sont dans l’étendue de la classification.
Dans un environnement hybride, différentes personnes peuvent accéder aux charges de travail locales via différents mécanismes pour se connecter à différentes technologies ou bases de données de stockage de données. L’accès doit être accordé conformément aux étiquettes de classification.
Les serveurs locaux se connectent à des données importantes qui doivent être classifiées et protégées, telles que les serveurs de fichiers, le stockage d’objets et différents types de bases de données, comme les bases de données relationnelles, sans SQL et l’entrepôt de données.
La conformité Microsoft Purview fournit une solution pour classifier les fichiers et les e-mails.
Microsoft Defender pour le cloud fournit une solution qui aide votre entreprise à suivre la conformité dans votre environnement, y compris la plupart de vos services utilisés pour stocker des données, mentionnés dans ces cas ci-dessus.

Étape suivante

Reportez-vous à l’ensemble complet de recommandations.

Liste de contrôle de sécurité

Recommandations pour la classification des données

Stratégies de conception