Partager via


Chiffrement et sécurité des données

Cet article présente des configurations de sécurité des données qui aident à protéger vos données.

Pour plus d’informations sur la sécurisation de l’accès à vos données, consultez Gouvernance des données avec Unity Catalog.

Vue d’ensemble de la sécurité et du chiffrement des données

Azure Databricks fournit des fonctionnalités de chiffrement qui aident à protéger vos données. Toutes les fonctionnalités de sécurité ne sont pas disponibles sur tous les niveaux tarifaires. Le tableau suivant contient une vue d’ensemble des fonctionnalités et de leur alignement sur les plans tarifaires.

Fonction Niveau tarifaire
Clés gérées par le client pour le chiffrement Premium
Chiffrer le trafic entre les nœuds worker de cluster Premium
Chiffrement double pour la racine DBFS Premium
Chiffrer les requêtes, l’Historique des requêtes et les résultats des requêtes Premium

Activer des clés gérées par le client pour le chiffrement

Azure Databricks prend en charge l’ajout d’une clé gérée par le client pour protéger et contrôler l’accès aux données. Azure Databricks prend en charge les clés gérées par le client depuis les coffres Azure Key Vault et les modules de sécurité matérielle (HSM/Hardware Security Modules) managés par Azure Key Vault. Il existe trois fonctionnalités de clés gérées par le client pour différents types de données :

  • Clés gérées par le client pour les disques managés : les charges de travail de calcul Azure Databricks dans le plan de calcul stockent des données temporaires sur des disques managés Azure. Par défaut, les données stockées sur les disques managés sont chiffrées au repos à l’aide du chiffrement côté serveur avec des clés gérées par Microsoft. Vous pouvez configurer votre propre clé pour votre espace de travail Azure Databricks à utiliser pour le chiffrement de disques managés. Consultez Clés gérées par le client pour les disques managés Azure.

  • Clés gérées par le client pour des services managés : Les données des services managés dans le plan de contrôle Azure Databricks sont chiffrées au repos. Vous pouvez ajouter une clé gérée par le client pour les services managés pour protéger et contrôler l’accès aux types suivants de données chiffrées :

    • Fichiers sources de notebook stockés dans le plan de contrôle.
    • Résultats des notebooks stockés dans le plan de contrôle.
    • Secrets stockés par les API du gestionnaire de secrets.
    • Requêtes SQL de Databricks et historique des requêtes.
    • Jetons d’accès personnels ou autres informations d’identification utilisées pour configurer l’intégration Git avec les dossiers Git de Databricks.

    Consultez Clés managées par le client pour les services managés.

  • Clés gérées par le client pour la racine DBFS : Par défaut, le compte de stockage est chiffré avec des clés gérées par Microsoft. Vous pouvez configurer votre propre clé pour chiffrer toutes les données incluses dans le compte de stockage de l’espace de travail. Pour plus d’informations, consultez Clés gérées par le client pour la racine DBFS.

Pour plus d’informations sur les fonctionnalités des clés gérées par le client dans Azure Databricks qui protègent différents types de données, consultez Clés gérées par le client pour le chiffrement.

Activer le chiffrement double pour DBFS

Databricks File System (DBFS) est un système de fichiers distribué, monté dans un espace de travail Azure Databricks et disponible sur les clusters Azure Databricks. DBFS est implémenté en tant que compte de stockage dans le groupe de ressources managé de votre espace de travail Azure Databricks. L’emplacement par défaut dans DBFS est appelé Racine DBFS.

Stockage Azure chiffre automatiquement toutes les données dans un compte de stockage, y compris le stockage racine DBFS. Vous pouvez éventuellement activer le chiffrement au niveau de l’infrastructure de stockage Azure. Lorsque le chiffrement d’infrastructure est activé, les données d’un compte de stockage sont chiffrées deux fois, une fois au niveau du service et une fois au niveau de l’infrastructure, avec deux algorithmes de chiffrement et deux clés différents. Pour en savoir plus sur le déploiement d’un espace de travail avec un chiffrement d’infrastructure, consultez Configurer le double chiffrement pour la racine DBFS.

Chiffrer les requêtes, l’historique des requêtes et les résultats des requêtes

Vous pouvez maintenant utiliser votre propre clé d’Azure Key Vault pour chiffrer les requêtes Databricks SQL et l’historique des requêtes stockés dans le plan de contrôle Azure Databricks. Pour plus d’informations, consultez la rubrique Chiffrer les requêtes, l’historique des requêtes et les résultats des requêtes

Chiffrer le trafic entre les nœuds Worker de cluster

Les requêtes et les transformations utilisateur sont généralement envoyées à vos clusters via un canal chiffré. Par défaut, cependant, les données échangées entre les nœuds worker d'un cluster ne sont pas cryptées. Si votre environnement exige que les données soient chiffrées à tout moment, qu’elles soient au repos ou en transit, vous pouvez créer un script init qui configure vos clusters pour chiffrer le trafic entre les nœuds Worker, à l’aide du chiffrement AES 128 bits sur une connexion TLS 1.2. Pour plus d’informations, voir Chiffrer le trafic entre les nœuds Worker de cluster.

Gérer les paramètres de l’espace de travail

Les administrateurs d’espace de travail Azure Databricks peuvent gérer les paramètres de sécurité de leur espace de travail, comme la possibilité de télécharger des notebooks et d’appliquer le mode d’accès au cluster d’isolation utilisateur. Pour obtenir plus d’informations, consultez Gérer votre espace de travail.