Compartir a través de


Habilitación de la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo

Al crear un área de trabajo de Azure Databricks, se crea una cuenta de Azure Storage en un grupo de recursos administrado, conocido como cuenta de almacenamiento del área de trabajo. La cuenta de almacenamiento del área de trabajo incluye datos del sistema del área de trabajo (salida de trabajos, configuración del sistema y registros), la raíz de DBFS y, en algunos casos, un catálogo de áreas de trabajo de Unity Catalog. En este artículo se describe cómo limitar el acceso a la cuenta de almacenamiento del área de trabajo solo desde recursos y redes autorizados mediante una plantilla de ARM.

¿Qué es la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo?

De forma predeterminada, la cuenta de almacenamiento de Azure para la cuenta de almacenamiento del área de trabajo acepta conexiones autenticadas de todas las redes. Para limitar este acceso, habilite la compatibilidad con el firewall en la cuenta de almacenamiento del área de trabajo. De esta forma, se garantiza que no se permite el acceso a la red pública y que la cuenta de almacenamiento del área de trabajo no es accesible desde redes no autorizadas. Es posible que quiera configurar esta opción si su organización tiene directivas de Azure que garantizan que las cuentas de almacenamiento son privadas.

Cuando la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo está habilitada, en todo el acceso desde servicios externos a Azure Databricks se deben usar puntos de conexión privados aprobados con Private Link. Azure Databricks crea un conector de acceso para conectarse al almacenamiento mediante una identidad administrada de Azure. El acceso desde almacenes SQL sin servidor de Azure Databricks debe usar puntos de conexión de servicio o puntos de conexión privados.

Nota:

El servicio de modelos no se admite con la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo.

Requisitos

  • El área de trabajo debe habilitar la inserción de red virtual.

    Si va a crear un área de trabajo, cree una red virtual y dos subredes siguiendo las instrucciones de Requisitos de la red virtual.

  • El área de trabajo debe permitir la conectividad segura del clúster (sin IP pública o NPIP).

  • El área de trabajo debe estar en el plan Premium.

  • Debe tener una subred distinta para los puntos de conexión privados de la cuenta de almacenamiento. Esto, además, de las dos subredes principales para la funcionalidad básica de Azure Databricks.

    La subred debe estar en la misma red virtual que el área de trabajo o en otra red virtual a la que pueda acceder el área de trabajo. Use el tamaño mínimo de la notación CIDR, /28.

  • Si usa Cloud Fetch con el servicio Power BI de Microsoft Fabric, siempre debe utilizar una puerta de enlace para el acceso privado a la cuenta de almacenamiento del área de trabajo o deshabilitar Cloud Fetch. Consulte Paso 3 (recomendado): Configuración de puntos de conexión privados para redes virtuales cliente de Cloud Fetch.

Paso 1: Implementación de la plantilla de ARM necesaria

  1. Si usa un área de trabajo existente, cierre los recursos de proceso del área de trabajo.
  2. En Azure Portal, busque y seleccione Deploy a custom template.
  3. Haga clic en Cree su propia plantilla en el editor.
  4. Copie la plantilla de ARM desde Plantilla de ARM para la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo y péguela en el editor.
  5. Haga clic en Save(Guardar).
  6. Revise y edite los campos. Para obtener una descripción de los campos, consulte Campos de la plantilla de ARM.
  7. Haga clic en Revisar y crear y, después, en Crear.

El área de trabajo no puede ejecutar temporalmente cuadernos ni trabajos hasta que cree los puntos de conexión privados.

Paso 2: Creación de puntos de conexión privados en la cuenta de almacenamiento

Cree dos puntos de conexión privados a la cuenta de almacenamiento del área de trabajo desde la red virtual que se usó para la inyección de red virtual para los valores de subrecurso de destino: dfs y blob.

  1. En Azure Portal, vaya al área de trabajo.

  2. En Essentials, haga clic en el nombre del grupo de recursos administrado.

  3. En Recursos, haga clic en el recurso de tipo Cuenta de almacenamiento que tenga un nombre que comience por dbstorage.

  4. En la barra lateral, haga clic en Redes.

  5. Haga clic en Conexiones del punto de conexión privado.

  6. Haga clic en + Punto de conexión privado.

  7. En el campo Nombre del grupo de recursos, defina el grupo de recursos. No debe ser el mismo que el grupo de recursos administrado en el que se encuentra la cuenta de almacenamiento del área de trabajo.

  8. En el campo Nombre, escriba un nombre único para este punto de conexión privado:

    • Para el primer punto de conexión privado que cree para cada red de origen, cree un punto de conexión DFS. Databricks recomienda agregar el sufijo -dfs-pe.
    • Para el segundo punto de conexión privado que cree para cada red de origen, cree un punto de conexión de blob. Databricks recomienda agregar el sufijo -blob-pe.

    El campo Nombre de la interfaz de red se rellena automáticamente.

  9. Establezca el campo Región en la región del área de trabajo.

  10. Haga clic en Next.

  11. En Subrecurso de destino, haga clic en el tipo de recurso de destino.

    • El primer punto de conexión privado que cree para cada red de origen establézcalo en dfs.
    • El segundo punto de conexión privado que cree para cada red de origen establézcalo en blob.
  12. En el campo Red virtual, seleccione una red virtual.

  13. En el campo de subred, establezca la subred en la otra subred que tiene para los puntos de conexión privados de la cuenta de almacenamiento.

    Este campo podría rellenarse automáticamente con la subred de los puntos de conexión privados, pero es posible que tenga que establecerlo explícitamente. No se puede usar una de las dos subredes de área de trabajo que se emplean para la funcionalidad básica del área de trabajo de Azure Databricks, que normalmente se denominan private-subnet y public-subnet.

  14. Haga clic en Next. La pestaña DNS se rellena automáticamente con la suscripción y el grupo de recursos correctos que seleccionó anteriormente. Puede cambiarlos si es necesario.

  15. Haga clic en Siguiente y agregue etiquetas si lo desea.

  16. Haga clic en Siguiente y revise los campos.

  17. Haga clic en Crear.

Para deshabilitar la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo, use el mismo proceso que antes, pero establezca el parámetro Storage Account Firewall (storageAccountFirewall en la plantilla) en Disabled y establezca el campo Workspace Catalog Enabled en true o en false en función de si el área de trabajo usa un catálogo de áreas de trabajo de Unity Catalog. Consulte Catálogos.

Cloud Fetch es un mecanismo de ODBC y JDBC para capturar datos en paralelo mediante el almacenamiento en la nube con el fin de llevar los datos más rápido a las herramientas de BI. Si va a capturar resultados de consulta de más de 1 MB de las herramientas de BI, es probable que use Cloud Fetch.

Nota:

Si usa el servicio Microsoft Fabric Power BI con Azure Databricks, debe deshabilitar Cloud Fetch, ya que esta característica bloquea el acceso directo a la cuenta de almacenamiento del área de trabajo desde Fabric Power BI. Como alternativa, puede configurar una puerta de enlace de datos de red virtual o una puerta de enlace de datos local para permitir el acceso privado a la cuenta de almacenamiento del área de trabajo. Esto no se aplica a Power BI Desktop. Para deshabilitar Cloud Fetch, use la configuración EnableQueryResultDownload=0.

Si usa Cloud Fetch, cree puntos de conexión privados a la cuenta de almacenamiento del área de trabajo desde cualquier red virtual de los clientes de Cloud Fetch.

Para cada red de origen de clientes de Cloud Fetch, cree dos puntos de conexión privados que usen dos valores de subrecursos de destino diferentes: dfs y blob. Consulte Paso 2: Creación de puntos de conexión privados en la cuenta de almacenamiento para ver los pasos detallados. En esos pasos, en el campo Red virtual, al crear el punto de conexión privado, asegúrese de especificar la red virtual de origen para cada cliente de Cloud Fetch.

Paso 4: Confirmación de la aprobación de los puntos de conexión

Después de crear todos los puntos de conexión privados en la cuenta de almacenamiento, compruebe si están aprobados. Podrían aprobarse automáticamente o es posible que tenga que aprobarlos en la cuenta de almacenamiento.

  1. Vaya al área de trabajo en Azure Portal.
  2. En Essentials, haga clic en el nombre del grupo de recursos administrado.
  3. En Recursos, haga clic en el recurso de tipo Cuenta de almacenamiento que tenga un nombre que comience por dbstorage.
  4. En la barra lateral, haga clic en Redes.
  5. Haga clic en Conexiones del punto de conexión privado.
  6. Compruebe el campo Estado de la conexión para confirmar que pone Aprobado o selecciónelos y haga clic en Aprobar.

Paso 5: Autorización de conexiones de almacén SQL sin servidor

Debe autorizar a los almacenes SQL sin servidor la conexión a la cuenta de almacenamiento del área de trabajo mediante la asociación de una configuración de conectividad de red (NCC) al área de trabajo. Cuando se asocia un NCC a un área de trabajo, las reglas de red se agregan automáticamente a la cuenta de almacenamiento de Azure para la cuenta de almacenamiento del área de trabajo. Para obtener instrucciones, consulte Redes de plano de proceso sin servidor.

Si desea habilitar el acceso desde almacenes SQL sin servidor de Azure Databricks mediante puntos de conexión privados, póngase en contacto con el equipo de cuentas de Azure Databricks.