Configuración del almacenamiento de flujo de datos para usar Azure Data Lake Gen 2

Los datos que se usan con Power BI se almacenan en el almacenamiento interno proporcionado por Power BI de forma predeterminada. Con la integración de flujos de datos y Azure Data Lake Storage Gen 2 (ADLS Gen 2), puede almacenar los flujos de datos en la cuenta de Azure Data Lake Storage Gen 2 de su organización. Esta característica le permite básicamente "traer su propio almacenamiento" a los flujos de datos de Power BI y establecer una conexión en el nivel de inquilino o de área de trabajo.

Razones para usar el área de trabajo o la conexión de inquilino de ADLS Gen2

Después de adjuntar el flujo de datos, Power BI configura y guarda una referencia para que pueda leer y escribir datos en su propio ADLS Gen2. Power BI almacena los datos en formato CDM (Common Data Model), que captura los metadatos sobre los datos, además de los datos reales generados por el propio flujo de datos. Esta característica desbloquea muchas funcionalidades eficaces y permite que los datos y metadatos asociados en formato CDM ofrezcan ahora escenarios de extensibilidad, automatización, supervisión y copia de seguridad. Al hacer que estos datos estén disponibles y sean ampliamente accesibles en su propio entorno, puede democratizar las percepciones y los datos creados dentro de su organización. También se pone de manifiesto la posibilidad de crear soluciones adicionales de complejidad variable. Las soluciones pueden ser aplicaciones y soluciones personalizadas compatibles con CDM en Power Platform y Azure, y las disponibles mediante ecosistemas de asociados y proveedores de software independientes (ISV). También, puede crear una aplicación para leer un archivo CSV. Los ingenieros de datos, científicos de datos y analistas pueden trabajar ahora con un conjunto común de datos mantenido en ADLS Gen2, usarlo y reutilizarlo.

Hay dos maneras de configurar qué almacén de ADLS Gen2 se va a usar: puede usar una cuenta de ADLS Gen2 asignada al inquilino o bien traer su propio almacén de ADLS Gen2 de nivel de área de trabajo.

Requisitos previos

  • Para traer su propia cuenta de ADLS Gen2, debe tener permisos de Propietario en la capa de la cuenta de almacenamiento. Los permisos en el nivel de grupo de recursos o suscripción no funcionarán. Si es administrador, sigue teniendo que asignarse a sí mismo permiso de propietario. En estos momentos no se admiten las cuentas de almacenamiento de ADLS Gen2 ubicadas tras un firewall.

  • La cuenta de almacenamiento se debe crear con el espacio de nombres jerárquico habilitado.

  • La cuenta de almacenamiento debe crearse en el mismo inquilino de Microsoft Entra que el inquilino de Power BI.

  • El usuario debe tener el rol Propietario de datos de Storage Blob, el rol Lector de datos de Storage Blob y un rol de propietario en el nivel de cuenta de almacenamiento (el ámbito debe ser este recurso y no heredado). Los cambios de rol aplicados pueden tardar unos minutos en sincronizarse, y deben estar sincronizados para que se puedan completar los pasos siguientes en el servicio Power BI.

  • La región de inquilino del área de trabajo de Power BI debe ser la misma que la región de la cuenta de almacenamiento.

  • Se necesita TLS (seguridad de la capa de transporte), versión 1.2 (o posterior), para proteger los puntos de conexión. Los exploradores web y otras aplicaciones cliente que utilizan versiones de TLS anteriores a TLS 1.2 no podrán conectarse.

  • No se admite la asociación de un flujo de datos con ADLS Gen 2 detrás de la autenticación multifactor (MFA).

  • Por último, puede conectarse a cualquier instancia de ADLS Gen2 desde el portal de administración, pero si se conecta directamente a un área de trabajo, debe asegurarse primero de que no haya flujos de datos en el área de trabajo.

Nota:

Traiga su propio almacenamiento (Azure Data Lake Gen 2) no está disponible en el servicio Power BI para los clientes de GCC de la Administración Pública de Estados Unidos. Para obtener más información sobre qué características están disponibles y cuáles no, consulte Disponibilidad de características de Power BI para los clientes de la Administración Pública de Estados Unidos.

En la tabla siguiente se describen los permisos para ADLS y Power BI necesarios para ADLS Gen2y Power BI:

Acción Permisos de ADLS Permisos mínimos de Power BI
Conectar ADLS Gen2 al inquilino de Power BI Propietario Administrador de Power BI
Conectar ADLS Gen2al área de trabajo Propietario Administrador del área de trabajo
Crear flujos de datos de Power BI escribiendo de nuevo en la cuenta de ADLS conectada No aplicable Colaborador del área de trabajo
Consumir flujo de datos de Power BI No aplicable Visor del área de trabajo

Conexión a una instancia de Azure Data Lake Gen2 en un nivel de área de trabajo

Vaya a un área de trabajo que no tenga flujos de datos. Seleccione Configuración del área de trabajo. Seleccione la pestaña Conexiones de Azure y, después, elija la sección Almacenamiento.

Screenshot of the Workspace settings pane on the Azure connections tab.

Si el administrador ya ha configurado una cuenta de ADLS Gen2 asignada al inquilino, la opción Usar la conexión predeterminada de Azure estará visible. Tiene dos opciones:

  • Usar la cuenta de ADLS Gen2 configurada para un inquilino mediante la selección del cuadro denominado Usar la conexión predeterminada de Azure.
  • Seleccionar Conectarse a Azure para apuntar a una nueva cuenta de Azure Storage.

Al seleccionar Conectarse a Azure, Power BI recupera una lista de las suscripciones de Azure a las que se tiene acceso. Rellene las listas desplegables. A continuación, elija una suscripción y un grupo de recursos de Azure válidos, así como una cuenta de almacenamiento que tenga habilitada la opción de espacio de nombres jerárquico, que es la marca de ADLS Gen2. La cuenta personal para conectarse a Azure solo se usa una vez a fin de establecer la conexión inicial y conceder los derechos para leer y escribir datos a la cuenta de servicio de Power BI. Después de ello, la cuenta de usuario original ya no es necesaria para mantener la conexión activa.

Screenshot of the Settings window after choosing Connecting to Azure.

Cuando tenga su selección, haga clic en Guardar y tendrá conectada correctamente su área de trabajo a su propia cuenta de ADLS Gen2. Power BI configura automáticamente la cuenta de almacenamiento con los permisos necesarios y configura el sistema de archivos de Power BI en el que se escribirán los datos. En este momento, todos los datos del flujo de datos de esta área de trabajo se escribirán directamente en este sistema de archivos, que se puede usar con otros servicios de Azure. Ahora tiene un único origen para todos los datos de organización o departamento.

Configuración de conexiones de Azure

La configuración de conexiones de Azure es un valor opcional con propiedades adicionales que se pueden establecer opcionalmente:

  • Almacenamiento de nivel de inquilino, que permite establecer un valor predeterminado, o
  • Almacenamiento de nivel de área de trabajo, que permite especificar la conexión por área de trabajo.

Opcionalmente, puede configurar el almacenamiento de nivel de inquilino si quiere usar solo un lago de datos centralizado o bien si quiere que este almacenamiento sea la opción predeterminada. No empezamos automáticamente usando el valor predeterminado para permitir flexibilidad en su configuración, por lo que tiene libertad para configurar las áreas de trabajo que emplean esta conexión como mejor le parezca. Si configura una cuenta de ADLS Gen2 asignada al inquilino, tendrá que configurar cada área de trabajo para usar esta opción predeterminada.

Opcionalmente, o además de la opción anterior, puede configurar los permisos de almacenamiento de nivel de área de trabajo como una opción independiente, lo que proporciona flexibilidad total para establecer una cuenta específica de ADLS Gen2 en función del área de trabajo.

En resumen, si se permiten permisos de almacenamiento de nivel de inquilino y de nivel de área de trabajo, los administradores del área de trabajo podrán usar opcionalmente la conexión ADLS predeterminada u optar por configurar otra cuenta de almacenamiento independiente del valor predeterminado. Si no se establece el almacenamiento de inquilinos, los administradores del área de trabajo pueden configurar opcionalmente cuentas de ADLS basadas en el área de trabajo. Por último, si se selecciona el almacenamiento de nivel de inquilino y no se permite el almacenamiento de nivel de área de trabajo, los administradores del área de trabajo pueden configurar opcionalmente sus flujos de datos para usar esta conexión.

Estructura y formato de las conexiones del área de trabajo de ADLS Gen2

En la cuenta de almacenamiento de ADLS Gen2, todos los flujos de datos se almacenan en el contenedor powerbi del sistema de archivos.

La estructura del contenedor powerbi tiene este aspecto: <workspace name>/<dataflow name>/model.json, <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots> y <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

La ubicación donde los flujos de datos almacenan datos en la jerarquía de carpetas de ADLS Gen2 viene determinada es la misma tanto si el área de trabajo se encuentra en capacidad compartida como en capacidad Premium.

En el ejemplo siguiente se usa la tabla Orders del ejemplo Northwind Odata.

Screenshot of the file explorer showing an example using the Orders table of the Northwind Odata sample.

En la imagen anterior:

  • El archivo model.json es la versión más reciente del flujo de datos.
  • El archivo model.json.snapshots son todas versiones anteriores del flujo de datos. Este historial resulta útil si necesita una versión anterior de mashup o una configuración incremental.
  • La tablename es la carpeta que contiene los datos resultantes una vez finalizada la actualización del flujo de datos.

Solo escribimos en esta cuenta de almacenamiento y no eliminamos datos actualmente. Así que, incluso después de la desasociación, no se eliminarán de la cuenta de ADLS, por lo que todos los archivos mencionados en la lista anterior todavía están almacenados.

Nota

Los flujos de datos permiten vincular o hacer referencia a tablas en otros flujos de datos. En estos flujos de datos, el archivo model.json puede hacer referencia a otro model.json de otro flujo de datos en la misma área de trabajo o en otra.

Mover archivos entre o dentro de las cuentas de almacenamiento de ADLS Gen 2

Al mover un flujo de datos de una cuenta de almacenamiento de ADLS Gen2 a otra, debe asegurarse de que las rutas de acceso del archivo model.json se actualizan para reflejar la nueva ubicación. Esto se debe a que el archivo model.json contiene la ruta de acceso al flujo de datos y la ruta de acceso a los datos. Si no actualiza las rutas de acceso, el flujo de datos no podrá encontrar los datos y provocará errores de permiso. Para actualizar las rutas de acceso, puede seguir estos pasos:

  • Abra el archivo de model.json con un editor de texto.
  • Busque la dirección URL de la cuenta de almacenamiento y reemplácela por la nueva dirección URL de la cuenta de almacenamiento.
  • Guarde el archivo.
  • Sobrescriba el archivo model.json existente en la cuenta de almacenamiento de ADLS Gen2.

Extensibilidad de las conexiones del área de trabajo de ADLS Gen2

Si va a conectar ADLS Gen2 a Power BI, puede hacerlo a nivel de área de trabajo o de inquilino. Asegúrese de que tiene el nivel de acceso correcto. Obtenga más información en Requisitos previos.

La estructura de almacenamiento se ajusta al formato de Common Data Model. Para más información sobre la estructura de almacenamiento y CDM, consulte ¿Cuál es la estructura de almacenamiento para flujos de datos analíticos? y Uso de Common Data Model y Azure Data Lake Storage Gen2.

Cuando esté configurado correctamente, los datos y los metadatos estarán bajo su control. Muchas aplicaciones son compatibles con CDM y los datos se pueden ampliar mediante Azure, PowerApps y PowerAutomate. También puede usar ecosistemas de terceros, ya sea ajustándose al formato o leyendo los datos sin procesar.

Desasociación de Azure Data Lake Gen 2 de un área de trabajo o un inquilino

Para quitar una conexión de nivel de área de trabajo, primero debe asegurarse de que se eliminen todos los flujos de datos del área de trabajo. Cuando se hayan quitado todos los flujos de datos, seleccione Desconectar en la configuración del área de trabajo. Lo mismo se aplica a los inquilinos, pero primero debe asegurarse de que todas las áreas de trabajo se hayan desconectado también de la cuenta de almacenamiento del inquilino para poder desconectarse a nivel de inquilino.

Deshabilitación de Azure Data Lake Gen 2

En el portal de administración, en flujos de datos, puede deshabilitar el acceso de los usuarios para usar esta característica y puede impedir que los administradores del área de trabajo traigan su propia cuenta de Azure Storage.

Reversión desde Azure Data Lake Gen 2

Después de que se ha configurado el almacenamiento de flujo de datos para usar Azure Data Lake Gen 2, no hay ningún modo de revertir el proceso automáticamente. El proceso para volver al almacenamiento administrado de Power BI es manual.

Para revertir la migración realizada a Gen 2, deberá eliminar los flujos de datos y volver a crearlos en la misma área de trabajo. Después, dado que no eliminamos datos de ADLS Gen 2, vaya al propio recurso y limpie los datos. Esta acción implicaría los pasos siguientes.

  1. Exporte una copia del flujo de datos desde Power BI. O bien, copie el archivo model.json. El archivo model.json se almacena en ADLS.

  2. Elimine los flujos de datos.

  3. Desasocie ADLS.

  4. Volver a crear los flujos de datos mediante la importación. Los datos de actualizaciones incrementales (si procede) deberán eliminarse antes de la importación. Esta acción se puede hacer eliminando las particiones pertinentes en el archivo model.json.

  5. Configurar directivas para actualizar o volver a crear actualizaciones incrementales.

Conexión a los datos mediante el conector de ADLS Gen 2

El ámbito de este documento describe las conexiones de flujos de datos de ADLS Gen2y no el conector de Power BI ADLS Gen2. El uso del conector de ADLS Gen2es un escenario independiente, posiblemente aditivo. El conector de ADLS simplemente usa ADLS como origen de datos. De modo que, para usar Power Query Online para consultar datos, no es necesario que estos estén en formato CDM, pueden tener cualquier formato de datos que quiera el cliente. Para más información, consulte Azure Data Lake Storage Gen2.

En los artículos siguientes encontrará más información sobre los flujos de datos y Power BI: