Activer la prise en charge de pare-feu pour votre compte de stockage d’espace de travail
Chaque espace de travail Azure Databricks est associé à un compte de stockage Azure dans un groupe de ressources managé appelé compte de stockage d’espace de travail. Le compte de stockage d’espace de travail contient les données système de l’espace de travail (sortie, paramètres système et journaux des travaux), une racine DBFS et, dans certains cas, un catalogue d’espaces de travail Unity Catalog. Cet article décrit comment limiter l’accès à votre compte de stockage d’espace de travail uniquement à des ressources et des réseaux autorisés uniquement en utilisant un modèle ARM (Azure Resource Manager).
Qu’est-ce que la prise en charge de pare-feu pour votre compte de stockage d’espace de travail ?
Par défaut, le compte de stockage Azure pour votre compte de stockage d’espace de travail accepte les connexions authentifiées de tous les réseaux. Vous pouvez limiter cet accès en activant la prise en charge de pare-feu pour votre compte de stockage d’espace de travail. Vous vous assurez ainsi que l’accès au réseau public est interdit et que le compte de stockage d’espace de travail n’est pas accessible à partir de réseaux non autorisés. Vous souhaiterez probablement configurer ceci si votre organisation dispose de stratégies Azure qui garantissent que les comptes de stockage sont privés.
Lorsque la prise en charge de pare-feu pour votre compte de stockage d’espace de travail est activée, tous les accès à partir des services qui se trouvent en dehors d’Azure Databricks doivent utiliser des points de terminaison privés approuvés avec Private Link. Azure Databricks crée un connecteur d’accès pour se connecter au stockage à l’aide d’une identité managée Azure. L’accès à partir du calcul serverless Azure Databricks doit utiliser des points de terminaison de service ou des points de terminaison privés.
Spécifications
Votre espace de travail doit activer l’injection de réseau virtuel pour les connexions à partir du plan de calcul classique.
Votre espace de travail doit activer la connectivité de cluster sécurisée (Pas d’IP publique / NPIP) pour les connexions depuis le plan de calcul classique.
Votre espace de travail doit être sur le plan Premium.
Vous devez disposer d’un sous-réseau distinct pour les points de terminaison privés du compte de stockage. Il vient s’ajouter aux deux sous-réseaux principaux réservés aux fonctionnalités Azure Databricks de base.
Le sous-réseau doit se trouver dans le même VNet que l’espace de travail ou dans un VNet distinct auquel l’espace de travail peut accéder. Utilisez la taille minimale,
/28
, dans la notation CIDR.Si vous utilisez Cloud Fetch avec le service Power BI Microsoft Fabric, vous devez toujours utiliser une passerelle pour l’accès privé au compte de stockage d’espace de travail ou désactiver Cloud Fetch. Consultez Étape 2 (recommandé) : Configurer des points de terminaison privés pour les VNets des clients Cloud Fetch.
Vous pouvez également utiliser le modèle ARM à l’étape 5 : déployez le modèle ARM requis pour créer un espace de travail. Dans ce cas, arrêtez tout le calcul dans votre espace de travail avant de suivre les étapes 1 à 4.
Étape 1 : Créer des points de terminaison privés dans le compte de stockage
Créez deux points de terminaison privés dans votre compte de stockage d’espace de travail à partir de votre VNet que vous avez utilisé pour l’injection de VNet pour les valeurs de la Sous-ressource cible : dfs
et blob
.
Dans le portail Azure, accédez à votre espace de travail.
Sous Fonctionnalités essentielles, cliquez sur le nom du Groupe de ressources managé.
Sous Ressources, cliquez sur la ressource de type Compte de stockage dont le nom commence par
dbstorage
.Dans la barre latérale, cliquez sur Mise en réseau.
Cliquez sur connexions de point de terminaison privé.
Cliquez sur + Point de terminaison privé.
Dans le champ du nom du Groupe de ressources, définissez votre groupe de ressources.
Important
Le groupe de ressources doit être différent du groupe de ressources managé dans lequel se trouve votre compte de stockage d’espace de travail.
Dans le champ Nom, tapez un nom unique pour ce point de terminaison privé :
- Pour le premier point de terminaison privé que vous créez pour chaque réseau source, créez un point de terminaison DFS. Databricks vous recommande d’ajouter le suffixe
-dfs-pe
- Pour le second point de terminaison privé que vous créez pour chaque réseau source, créez un point de terminaison Blob. Databricks vous recommande d’ajouter le suffixe
-blob-pe
Le champ Nom de l’interface réseau est automatiquement renseigné.
- Pour le premier point de terminaison privé que vous créez pour chaque réseau source, créez un point de terminaison DFS. Databricks vous recommande d’ajouter le suffixe
Définissez le champ Région sur la région de votre espace de travail.
Sélectionnez Suivant.
Dans Sous-ressource cible, cliquez sur le type de ressource cible.
- Pour le premier point de terminaison privé que vous créez pour chaque réseau source, définissez la valeur dfs.
- Pour le second point de terminaison privé que vous créez pour chaque réseau source, définissez la valeur blob.
Dans le champ Réseau virtuel, sélectionnez un VNet.
Dans le champ du sous-réseau, définissez le sous-réseau sur le sous-réseau distinct dont vous disposez pour les points de terminaison privés du compte de stockage.
Il est possible que ce champ soit renseigné automatiquement avec le sous-réseau de vos points de terminaison privés, mais vous devrez peut-être le définir explicitement. Vous ne pouvez pas utiliser l’un des deux sous-réseaux d’espace de travail utilisés pour les fonctionnalités de base de l’espace de travail Azure Databricks, qui sont généralement appelés
private-subnet
etpublic-subnet
.Sélectionnez Suivant. L’onglet DNS est automatiquement renseigné avec l’abonnement et le groupe de ressources appropriés que vous avez sélectionnés précédemment. Changez-les si nécessaire.
Cliquez sur Suivant et ajoutez des étiquettes si vous le souhaitez.
Cliquez sur Suivant et passez en revue les champs.
Cliquez sur Créer.
Pour désactiver la prise en charge de pare-feu pour votre compte de stockage d’espace de travail, utilisez le même processus que ci-dessus, mais définissez le paramètre Pare-feu du compte de stockage (storageAccountFirewall
dans le modèle) sur Disabled
et définissez le champ Workspace Catalog Enabled
sur true
ou false
selon que votre espace de travail utilise un catalogue d’espaces de travail Unity Catalog. Consultez En quoi consistent les catalogues dans Azure Databricks ?
Étape 2 (recommandé) : Configurer des points de terminaison privés pour les VNets des clients Cloud Fetch
Cloud Fetch est un mécanisme dans ODBC et JDBC permettant d’extraire des données en parallèle via le stockage cloud afin de les apporter plus rapidement aux outils de décisionnel. Si vous extrayez des résultats de requête de plus de 1 Mo à partir d’outils de décisionnel, vous utilisez probablement Cloud Fetch.
Remarque
Si vous utilisez le service Power BI Microsoft Fabric avec Azure Databricks, vous devez désactiver Cloud Fetch parce que cette fonctionnalité bloque l’accès direct au compte de stockage d’espace de travail à partir de Power BI Fabric. Vous pouvez également configurer une passerelle de données de réseau virtuel ou une passerelle de données locale pour autoriser l’accès privé au compte de stockage d’espace de travail. Cela ne s’applique pas à Power BI Desktop. Pour désactiver Cloud Fetch, utilisez la configuration EnableQueryResultDownload=0
.
Si vous utilisez Cloud Fetch, créez des points de terminaison privés dans le compte de stockage d’espace de travail à partir de n’importe quel VNet de vos clients Cloud Fetch.
Pour chaque réseau source pour les clients Cloud Fetch, créez deux points de terminaison privés qui utilisent deux valeurs différentes pour la Sous-ressource cible : dfs
et blob
. Pour connaître les étapes détaillées, reportez-vous à l’Étape 1 : Créer des points de terminaison privés dans le compte de stockage. Dans ces étapes, pour le champ Réseau virtuel lorsque vous créez le point de terminaison privé, veillez à spécifier votre VNet source pour chaque client Cloud Fetch.
Étape 3 : Confirmer les approbations des points de terminaison
Après avoir créé tous vos points de terminaison privés dans le compte de stockage, vérifiez qu’ils sont approuvés. Ils seront peut-être approuvés automatiquement ou vous devrez peut-être les approuver sur le compte de stockage.
- Accédez à votre espace de travail dans le portail Azure.
- Sous Fonctionnalités essentielles, cliquez sur le nom du Groupe de ressources managé.
- Sous Ressources, cliquez sur la ressource de type Compte de stockage dont le nom commence par
dbstorage
. - Dans la barre latérale, cliquez sur Mise en réseau.
- Cliquez sur connexions de point de terminaison privé.
- Vérifiez l’État de la connexion pour confirmer qu’ils sont marqués Approuvé, ou sélectionnez-les et cliquez sur Approuver.
Étape 4 : Autoriser les connexions de calcul serverless
Vous devez autoriser le calcul serverless à se connecter au compte de stockage de votre espace de travail en attachant une configuration de connectivité réseau (NCC) à votre espace de travail. Quand une configuration NCC est attachée à un espace de travail, les règles réseau sont automatiquement ajoutées au compte de stockage Azure pour le compte de stockage d’espace de travail. Pour obtenir des instructions, consultez Configurer un pare-feu pour l’accès au calcul serverless.
Si vous souhaitez activer l’accès depuis le calcul serverless Azure Databricks à l’aide de points de terminaison privés, contactez l’équipe de votre compte Azure Databricks.
Étape 5 : Déployer le modèle ARM requis
Cette étape utilise un modèle ARM pour gérer l’espace de travail Azure Databricks. Vous pouvez également mettre à jour ou créer votre espace de travail à l’aide de Terraform. Consultez le fournisseur Terraform azurerm_databricks_workspace.
Dans le portail Azure, recherchez et sélectionnez
Deploy a custom template
.Cliquez sur Créer votre propre modèle dans l’éditeur.
Copiez le modèle ARM à partir du Modèle ARM pour la prise en charge de pare-feu pour votre compte de stockage d’espace de travail et collez-le dans l’éditeur.
Cliquez sur Enregistrer.
Passez en revue les champs et modifiez-les. Reprenez les paramètres que vous avez utilisés pour créer l'espace de travail, comme l'abonnement, la région, le nom de l'espace de travail, les noms des sous-réseaux ou l'ID de la ressource du réseau virtuel existant.
Pour une description des champs, consultez Champs des modèles ARM.
Cliquez sur Vérifier et créer, puis sur Créer.
Remarque
L’accès au réseau public sur votre compte de stockage de l’espace de travail est défini sur Activé à partir des réseaux virtuels et adresses IP sélectionnés et non sur Désactivé afin de prendre en charge les ressources de calcul serverless sans nécessiter de points de terminaison privés. Le compte de stockage de l’espace de travail se trouve dans un groupe de ressources managé et le pare-feu de stockage ne peut être mis à jour que lorsque vous ajoutez une configuration de connectivité réseau (NCC) pour les connexions serverless à votre espace de travail. Si vous souhaitez activer l’accès depuis le calcul serverless Azure Databricks à l’aide de points de terminaison privés, contactez l’équipe de votre compte Azure Databricks.