Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
El reflejo de base de datos en Microsoft Fabric es una tecnología empresarial sin ETL, basada en la nube y de tipo SaaS. Esta guía le ayuda a establecer una base de datos reflejada de Azure Databricks, que crea una copia de solo lectura y replicada continuamente de los datos de Azure Databricks en OneLake.
Prerrequisitos
- Un área de trabajo de Fabric.
- Habilite el acceso a datos externos en el metastore. Para obtener más información, consulte Habilitación del acceso a datos externos en el metastore.
- Cree o use un área de trabajo de Azure Databricks existente con el catálogo de Unity habilitado.
- Tenga el privilegio
EXTERNAL USE SCHEMAen el esquema del catálogo de Unity que contiene las tablas a las que Fabric accede. - Use el modelo de permisos de Fabric para establecer controles de acceso para catálogos, esquemas y tablas en Fabric.
Creación de una base de datos reflejada desde Azure Databricks
Siga estos pasos para crear una nueva base de datos duplicada desde el Catálogo de Unity de Azure Databricks.
Vaya a su espacio de trabajo en Fabric.
Seleccione Nuevo elemento>Mirrored Azure Databricks catalog.
Seleccione una conexión existente si tiene una configurada o cree una nueva conexión.
Para crear una conexión, debe ser un usuario o un administrador del área de trabajo de Azure Databricks. Puede autenticarse en el área de trabajo de Azure Databricks mediante la autenticación con cuenta organizativa o con entidad de servicio.
Note
La opción de autenticación que realice aquí se aplica a la autenticación de Databricks y a la autorización del catálogo de Unity. Si necesita acceder a las cuentas de Azure Data Lake Storage (ADLS) Gen2 detrás de un firewall, siga los pasos para Enable el acceso de seguridad de red para la cuenta de Azure Data Lake Storage Gen2 más adelante en este artículo. Cuando ADLS Gen2 está detrás de un firewall, se requiere la identidad del área de trabajo de Fabric para acceder al firewall de almacenamiento, independientemente del método de autenticación elegido para la conexión de Databricks.
Después de conectarse a un área de trabajo de Azure Databricks, en la página Elegir tablas de un catálogo de Databricks, seleccione el catálogo, los esquemas y las tablas que desea agregar y a las que quiere acceder desde Fabric mediante la lista de inclusión o exclusión. Elija el catálogo y sus esquemas y tablas relacionados que quiera agregar al área de trabajo de Fabric.
Solo puede ver los catálogos, esquemas y tablas a los que tiene acceso. Para obtener más información, consulte Privilegios y objetos protegibles de Unity Catalog.
De forma predeterminada, la opción Sincronizar automáticamente los cambios futuros del catálogo para la opción de esquema seleccionada está habilitada. Para obtener más información, vea Mirroring Azure Databricks > Metadata sync.
Seleccione Siguiente para continuar.
En la página Revisar y crear , revise los detalles y, opcionalmente, cambie el nombre del elemento de base de datos reflejado, que debe ser único en el área de trabajo. De forma predeterminada, el nombre del elemento reflejado es el nombre del catálogo.
Seleccione Crear para continuar.
Se crea un elemento de catálogo de Databricks y para cada tabla se crea un acceso directo de tipo Databricks correspondiente.
No se muestran los esquemas que no tienen ninguna tabla.
También puede ver una vista previa de los datos al acceder a un acceso directo seleccionando el punto de conexión de SQL Analytics. Abra el elemento extremo de SQL Analytics para abrir la página del Explorador y del Editor de consultas. Puede consultar las tablas reflejadas de Azure Databricks usando T-SQL en el editor SQL.
Creación de accesos directos de Lakehouse al elemento de catálogo de Databricks
También puede crear accesos directos desde Lakehouse al elemento de catálogo de Databricks para usar los datos de Lakehouse y usar Cuadernos de Spark.
- En primer lugar, cree una casa de lago. Si ya tiene un lakehouse en este espacio de trabajo, puede usar un lakehouse existente.
- Seleccione el área de trabajo en el menú de navegación.
- Seleccione + Nuevo>Lakehouse.
- Proporcione un nombre para lakehouse en el campo Nombre y seleccione Crear.
- En la vista Explorador de su lakehouse, en el menú Obtener datos en su lakehouse, bajo Cargar datos en su lakehouse, seleccione el botón Nuevo acceso directo.
- Seleccione Microsoft OneLake. Seleccione un catálogo. Este es el elemento de datos que creó en los pasos anteriores. Luego, selecciona Siguiente.
- Seleccione tablas en el esquema y seleccione Siguiente.
- Selecciona Crear.
- Los accesos directos ahora están disponibles en Lakehouse para usarlos con los demás datos de Lakehouse. También puede usar Notebooks y Spark para procesar los datos de estas tablas de catálogo que agregó desde el área de trabajo de Azure Databricks.
Crear un modelo semántico
Puede crear un modelo semántico de Power BI basado en el elemento reflejado y agregar o quitar tablas manualmente. Para más información sobre cómo crear y administrar modelos semánticos, consulte Creación de un modelo semántico de Power BI.
Para obtener la mejor experiencia, use el explorador Microsoft Edge para las tareas de modelado semántico.
Administración de las relaciones del modelo semántico
Después de crear un nuevo modelo semántico basado en la base de datos reflejada, configure las relaciones entre tablas.
- Seleccione Diseños de modelo en el Explorador del área de trabajo.
- Una vez que seleccione Diseños de modelo, aparecerá un gráfico de las tablas que se incluyen como parte del modelo semántico.
- Para crear relaciones entre tablas, arrastre un nombre de columna de una tabla a otro nombre de columna de otra tabla. Aparece una ventana emergente en la que se identifican la relación y la cardinalidad entre las tablas.
Habilitación del acceso de seguridad de red para la cuenta de Azure Data Lake Storage Gen2
Configure la seguridad de red para la cuenta de Azure Data Lake Storage (ADLS) Gen2 cuando tenga configurado un firewall de Azure Storage. Esta sección se aplica a las cuentas de almacenamiento de ADLS Gen2 detrás de un firewall de Azure Storage. No se admite el almacenamiento del área de trabajo de Azure Databricks detrás de un firewall de Azure Storage.
Prerrequisitos
Cuando un firewall de Azure Storage protege ADLS Gen2, Fabric usa La identidad del área de trabajo para acceder al firewall. Incluso si selecciona Service principal para la autenticación de ADLS en la pestaña Network Security, debe permitir la identidad del área de trabajo en el firewall de cuentas de Azure Storage.
La identidad del área de trabajo se usa para el acceso al firewall de almacenamiento. Una entidad de servicio o OAuth se utiliza para la autenticación en Databricks y la autorización en Unity Catalog.
Para habilitar el tipo de autenticación de identidad del área de trabajo (recomendado), asocie el área de trabajo de Fabric con una capacidad F. Para crear una identidad de área de trabajo, consulte Autenticación con identidad del área de trabajo.
Solo puede asociar un catálogo a una sola cuenta de almacenamiento.
Habilitación del acceso a la seguridad de red
Al crear un nuevo catálogo de Azure Databricks reflejado, en el paso Elegir datos , seleccione la pestaña Seguridad de red .
Seleccione una conexión existente a la cuenta de almacenamiento si tiene una configurada.
- Si no tiene una conexión ADLS existente, cree una nueva conexión.
- La dirección URL del punto de conexión de almacenamiento es donde se almacenan los datos del catálogo seleccionado. El punto de conexión debe ser la carpeta específica donde se almacenan los datos, en lugar de especificar el punto de conexión que debe estar en el nivel de cuenta de almacenamiento. Por ejemplo, proporcione
https://<storage account>.dfs.core.windows.net/container1/folder1en lugar dehttps://<storage account>.dfs.core.windows.net/. - Proporcione las credenciales de conexión. Los tipos de autenticación admitidos son cuenta organizativa, entidad de servicio e identidad del área de trabajo (recomendado).
Note
Cuando ADLS Gen2 está protegido por un firewall de Azure Storage, Fabric usa la identidad del área de trabajo para atravesar el firewall independientemente del tipo de autenticación seleccionado aquí. El tipo de autenticación (entidad de servicio o cuenta organizativa) controla la autenticación de Databricks y la autorización de Unity Catalog, mientras que Workspace Identity controla el acceso de confianza mediante el firewall de almacenamiento. La identidad del área de trabajo debe estar permitida en el firewall de la cuenta de Azure Storage incluso si selecciona un tipo de autenticación diferente para la conexión de ADLS.
En Azure Portal, proporcione derechos de acceso a la cuenta de almacenamiento en función del tipo de autenticación que ha seleccionado en el paso anterior. Vaya a la cuenta de almacenamiento en Azure Portal. Seleccione Control de acceso (IAM) . Seleccione +Agregar y Agregar asignación de roles. Para más información, consulte Asignación de roles de Azure mediante Azure Portal.
Asigne un rol basado en el ámbito de la conexión:
- Cuenta de almacenamiento: la identidad de autenticación elegida necesita el rol Lector de datos de Storage Blob en la cuenta de almacenamiento.
- Contenedor: la identidad de autenticación elegida necesita el rol Lector de datos de Storage Blob en el contenedor.
- Carpeta dentro de un contenedor (recomendado): la identidad de autenticación elegida necesita permisos de lectura (R) y Ejecutar (E) en el nivel de carpeta. Si usa la Entidad de servicio o la Identidad del área de trabajo como tipo de autenticación, concédale permisos de Ejecutar en la carpeta raíz del contenedor y en cada carpeta de la jerarquía que lleva hasta la carpeta especificada.
Para obtener más información y pasos para conceder acceso a ADLS, consulte Control de acceso de ADLS.
Habilite Acceso al área de trabajo de confianza configurando una regla de instancia de recurso para el área de trabajo de Fabric en la cuenta de almacenamiento. Para ver los pasos detallados, consulte Acceso al espacio de trabajo de confianza y Bases de datos reflejadas de Secure Fabric desde Azure Databricks.
Una vez establecida la conexión, se crea un acceso directo a las tablas del catálogo de Unity para las tablas cuyo nombre de cuenta de almacenamiento coincide con la cuenta de almacenamiento especificada en la conexión de ADLS. Los accesos directos no se crean para tablas cuyo nombre de cuenta de almacenamiento no coincide.
Importante
Si tiene previsto usar la conexión de ADLS fuera de los escenarios de elementos de catálogo de Azure Databricks reflejados, también debe asignar el rol Storage Blob Delegator en la cuenta de almacenamiento.
Tip
Si recibe un error de autorización 403 al usar una Entidad de servicio para la autenticación de Databricks con una cuenta de ADLS Gen2 protegida por un firewall, compruebe que la Identidad del espacio de trabajo esté permitida en el firewall de la cuenta de Azure Storage. Incluso cuando se selecciona un Service Principal para autenticarse, Fabric usa la identidad del área de trabajo para atravesar el firewall de almacenamiento.
Habilitar la seguridad de OneLake en el elemento replicado de Databricks
Mapee las directivas de Unity Catalog (UC) a la seguridad de Microsoft OneLake siguiendo estos pasos:
- Sincronice el grupo Entra y aplique permisos en el catálogo de Unity. En Azure Databricks, use Administración automática de identidades para sincronizar un grupo de Microsoft Entra ID y concederle los privilegios de catálogo de Unity necesarios (USE, BROWSE y SELECT) en el catálogo y las tablas pertinentes.
- Asigne un rol de acceso a datos de OneLake. En el área de trabajo Fabric, cree un rol de acceso a datos para los datos recién replicados. Agregue el mismo grupo Entra a este rol y conceda acceso de lectura a los accesos directos de OneLake correspondientes a las tablas de Azure Databricks. Para empezar a trabajar con la seguridad de nivel de tabla, seleccione el botón Administrar seguridad de OneLake en la cinta de opciones. Asegúrese de mantener sincronizadas las configuraciones de acceso a medida que evolucionan las estructuras de catálogo y los permisos. Para obtener más información, consulte el modelo de control de acceso a datos (versión preliminar) de OneLake.
Contenido relacionado
- Secure Fabric bases de datos replicadas de Azure Databricks
- Blog: Protección de datos replicados de Azure Databricks en Fabric con seguridad de OneLake
- Limitaciones en las bases de datos reflejadas de Microsoft Fabric de Azure Databricks
- Preguntas más frecuentes sobre las bases de datos reflejadas de Azure Databricks en Microsoft Fabric
- Creación de reflejo del catálogo de Unity de Azure Databricks
- Control del acceso externo a los datos en el catálogo de Unity