Conexión de Power BI a Azure Databricks
Microsoft Power BI es un servicio de análisis empresarial que proporciona visualizaciones interactivas con funcionalidades de autoservicio de inteligencia empresarial, lo que permite a los usuarios finales crear informes y paneles sin tener que depender del personal de la tecnología de la información ni de los administradores de bases de datos.
Cuando se usa Azure Databricks como origen de datos con Power BI, puede proporcionar las ventajas del rendimiento y la tecnología de Azure Databricks a todos los usuarios empresariales, sin depender de los científicos e ingenieros de datos.
Publicación en Power BI Online desde Azure Databricks
Al usar Azure Databricks como origen de datos con Power BI Online, puede crear conjuntos de datos de PowerBI a partir de tablas o esquemas directamente desde la UI de Databricks.
Requisitos
Los datos deben estar en el catálogo de Unity y el proceso (clúster) debe estar habilitado en el catálogo de Unity. Actualmente no se admite metastore de Hive.
Debe tener una licencia de Power BI premium (capacidad premium o premium por usuario).
Debe conceder los siguientes permisos a la aplicación entra ID registrada, Integración de publicación de conjuntos de datos de Databricks que usa para publicar desde Databricks en Power BI:
Content.Create
Dataset.ReadWrite.All
Workspace.Read.All
Para obtener más información, consulte Permisos de Microsoft Entra.
Nota:
El consentimiento del administrador de Entra suele ser necesario para estos permisos, especialmente para el acceso de área de trabajo y de nivel de conjunto de datos en Power BI. Consulte Revisar las solicitudes de consentimiento del administrador para obtener instrucciones.
En la configuración de área de trabajo de Power BI, debes habilitar Los usuarios pueden editar modelos de datos en el servicio Power BI (versión preliminar) para editar el modelo semántico una vez publicado. También puede editar el modelo semántico mediante el Editor tabular si realiza una conexión mediante el punto de conexión XMLA.
Si necesita habilitar la escritura XML en el área de trabajo de PowerBI, siga este vínculo para obtener instrucciones.
Si el área de trabajo está bajo un vínculo privado, debes actualizar manualmente las credenciales del origen de datos del conjunto de datos en Power BI.
Publicación de tablas de Azure Databricks en un conjunto de datos de Power BI
Inicie sesión en el área de trabajo de Databricks y haga clic en Catálogo en la barra lateral para abrir el Explorador de catálogos.
Seleccionar un recurso de proceso en la lista desplegable de la parte superior derecha.
Abra un catálogo y seleccione el esquema o las tablas que se van a publicar. No seleccione entre una metastore de Hive ni el catálogo de muestras.
En la esquina superior derecha, haga clic en Usar con herramientas de BI para un esquema o en Abrir en un panel para una tabla.
Selecciona Publicar para espacio de trabajo Power BI.
En el cuadro de diálogo Conectarse al asociado, haz clic en Conectar a Microsoft Entra ID para autenticarse.
En las áreas de trabajo de Power BI, seleccione el área de trabajo de Power BI.
En Modo de conjunto de datos, selecciona DirectQuery o Importar.
En Método de autenticación en Power BI, selecciona OAuth o PAT (Token de acceso personal).
Databricks recomienda usar OAuth, ya que permite el control de acceso específico y la auditoría de nivel de usuario. Es posible que las credenciales de OAuth deban configurarse en la página de configuración del conjunto de datos de Power BI en Credenciales del origen de datos. Si seleccionas Token de acceso personal (PAT), se crea uno en tu nombre para permitir que Power BI acceda al modelo semántico.
En Nombre del conjunto de datos, selecciona Publicar como un nuevo conjunto de datos o Usar un conjunto de datos existente.
Al elegir Usar un conjunto de datos existente, se cumple lo siguiente:
- Si el conjunto de datos existe, no se sobrescribe. Las actualizaciones solo anexan nuevos registros en un esquema determinado.
- Si la tabla seleccionada no forma parte del conjunto de datos existente, se agrega.
- Si la tabla ya estaba en el conjunto de datos y se agregaron nuevas columnas después de la última actualización, esas columnas se agregan automáticamente.
- Puede elegir otro modelo de almacenamiento para la nueva tabla a fin de crear un modelo semántico compuesto.
Si tiene un modelo semántico existente que desea actualizar mientras mantiene las conexiones de datos existentes en su lugar, elija Usar un conjunto de datos existente. Si desea crear un nuevo conjunto de datos con un nuevo modelo semántico, elija Publicar como nuevo conjunto de datos.
- Si el conjunto de datos existe, no se sobrescribe. Las actualizaciones solo anexan nuevos registros en un esquema determinado.
Haz clic en Publicar en Power BI.
Después de 10-20 segundos, cuando el conjunto de datos esté publicado, haz clic en Abrir Power BI para abrir tu conjunto de datos de Power BI en una nueva pestaña.
Características y notas
- Al publicar un esquema que contiene varias tablas, se publican todas las tablas con columnas. Las tablas sin columnas no se publican.
- Los comentarios sobre las columnas de una tabla de Azure Databricks se copian en las descripciones de las columnas correspondientes de Power BI.
- Las relaciones de clave externa se conservan en el conjunto de datos publicado. Sin embargo, Power BI solo admite una ruta de acceso de relación activa entre dos tablas. Cuando hay varias rutas de acceso en el esquema en Azure Databricks, algunas de las relaciones correspondientes en Power BI se establecen en inactivas. Más adelante, puedes cambiar qué relaciones están activas o inactivas en la vista del modelo de datos en Power BI.
- Al usar OAuth o una puerta de enlace de datos local, es posible que las credenciales deban configurarse en "Credenciales de origen de datos" en la página de configuración del conjunto de datos de Power BI.
Solución de problemas
Error | Notas |
---|---|
«Se requiere aprobación» al iniciar Publicar en Power BI por primera vez | Si ves este mensaje, necesitarás la aprobación del administrador de Entra para poder conceder permisos a esta característica de integración. Ponte en contacto con tu administrador de Entra para que apruebe la solicitud. Sigue este vínculo para obtener instrucciones. |
PowerBINotLicensedException | Asegúrate de que tienes una licencia de Power BI Premium. |
No se pudo implementar este conjunto de datos. Ponte en contacto con un administrador de capacidad para asegurarte de que la compatibilidad con lectura y escritura de XMLA está habilitada en la configuración de capacidad de la capacidad de Power BI Premium y vuelve a intentarlo. Para obtener más información, consulta «Compatibilidad de lectura y escritura XMLA» en la documentación del producto. | Ponte en contacto con el administrador de capacidad de Power BI para habilitar las funcionalidades de lectura y escritura en el punto de conexión XMLA en la configuración de capacidad. Sigue este vínculo para obtener instrucciones. |
La característica de punto de conexión XMLA está deshabilitada. Activa la característica Analizar en Excel en PowerBI.com para habilitar esta característica. | Ponte en contacto con el administrador de capacidad de Power BI para habilitar las funcionalidades de lectura y escritura en el punto de conexión XMLA en la configuración de capacidad. Sigue este vínculo para obtener instrucciones. |
CapacityNotActive | La capacidad puede estar en pausa. Ponte en contacto con tu administrador de capacidad para comprobar el estado de capacidad. |
La base de datos con el nombre «<ccon> ***</ccon> » ya existe en el «<ccon> área de trabajo </ccon> » ***. |
Asegúrate de que tienes los permisos necesarios para crear un modelo semántico. A continuación, vuelve a intentar publicar en Power BI para publicar el modelo semántico con un número de versión incrementado. |
No puedes usar el modo Direct Lake junto con otros modos de almacenamiento en el mismo modelo. El modelo compuesto no es compatible con el modo Direct Lake. Elimina las tablas no compatibles o cámbialas al modo Direct Lake. | Puesto que Publicar en Power BI crea un modelo semántico con el modo Import o DirectQuery, no se puede usar para publicar en un conjunto de datos existente que use el modo Direct Lake. Siga este vínculo para obtener más información. |
El usuario "<euii> *</euii> " no tiene permiso para llamar al método Discover. |
Asegúrese de que está publicando en un área de trabajo de Power BI con un modo de licencia Premium. No se puede publicar en un área de trabajo con un modo de licencia Pro. |
El usuario "<euii> </euii> " no tiene permiso para crear un nuevo objeto en "**" o el objeto no existe. |
Es posible que tengas el rol Visor en el área de trabajo de Power BI. Comprueba si tienes los permisos necesarios para crear un modelo semántico. Sigue este vínculo para obtener más información. |
«No se pudieron actualizar las credenciales del origen de datos: [Microsoft][ThriftExtension] (14) Respuesta inesperada del servidor durante una conexión HTTP: se devolvió una respuesta de error No autorizado/Prohíbido, pero no se recibió ningún mensaje expirado del token». al editar las credenciales del origen de datos en Power BI | Comprueba si el área de trabajo de Databricks es accesible de manera pública. Si el área de trabajo usa Private Link o listas de acceso IP, es posible que tengas que configurar una puerta de enlace local de Power BI. |
Conexión de Power BI Desktop a Azure Databricks
Puede conectar Power BI Desktop a los clústeres de Azure Databricks y a los almacenes de Databricks SQL. También puede publicar informes de Power BI en el servicio Power BI y permitir que los usuarios accedan a los datos subyacentes de Azure Databricks mediante el inicio de sesión único (SSO), pasando las mismas credenciales de Microsoft Entra ID que usan para acceder al informe.
Requisitos
Power BI Desktop 2.85.681.0 o superior. Para usar datos administrados por el catálogo de Unity con Power BI, debe usar Power BI Desktop 2.98.683.0 o superior (versión de octubre de 2021).
Nota:
Power BI Desktop requiere Windows. Una alternativa para otros sistemas operativos es ejecutar Power BI Desktop en un host físico o una máquina virtual basada en Windows y, luego, conectarse a ellos desde el sistema operativo.
Si usa una versión de Power BI Desktop inferior a 2.85.681.0, también debe instalar el controlador ODBC de Databricks en el mismo entorno que Power BI Desktop.
Un token de acceso personal de Azure Databricks o las credenciales de la cuenta de Microsoft Entra ID.
Nota:
Como procedimiento recomendado de seguridad, cuando se autentique con tokens de acceso personal, Databricks recomienda usar los tokens de acceso personal pertenecientes a las entidades de servicio en lugar de a los usuarios del área de trabajo. Para crear tókenes para entidades de servicio, consulte Administración de tokens de acceso para una entidad de servicio.
Un clúster de Azure Databricks o un almacén de Databricks SQL.
Conexión de Power BI Desktop a Azure Databricks mediante Partner Connect
Puede usar Partner Connect para conectar un clúster o un almacén de Power BI Desktop con tan solo unos clics.
Asegúrese de que la cuenta de Azure Databricks, el área de trabajo y el usuario que ha iniciado sesión cumplen los requisitos de Partner Connect.
En la barra lateral, haga clic en Partner Connect.
Haga clic en el icono Power BI.
En el cuadro de diálogo Connect to partner (Conectar con un asociado), en Compute (Proceso), elija el nombre del recurso de proceso de Azure Databricks que quiere conectar.
Elija Download connection file (Descargar archivo de conexión).
Abra el archivo de conexión descargado, que inicia Power BI Desktop.
En Power BI Desktop, escriba las credenciales de autenticación:
- Token de acceso personal: escriba el token de acceso personal de Azure Databricks.
- Microsoft Entra ID: haga clic en Iniciar sesión y, luego, siga las instrucciones en pantalla.
- Nombre de usuario y contraseña: no aplicable.
Haga clic en Conectar.
Seleccione los datos de Azure Databricks que desea consultar en el navegador de Power BI.
Conexión manual de Power BI Desktop a Azure Databricks
Siga estas instrucciones, según el método de autenticación elegido, para conectarse a un clúster o a un almacén de SQL mediante Power BI Desktop. Se recomiendan almacenes SQL de Databricks al usar Power BI en modo DirectQuery.
Nota:
Para conectarse más rápido con Power BI Desktop, use Partner Connect.
Obtenga el nombre de host del servidor y la ruta de acceso HTTP.
Inicie Power BI Desktop.
Haga clic en Obtener datos o en Archivo > Obtener datos.
Haga clic en Get data to get started (Obtener datos para empezar).
Busque Databricks y haga clic en el conector:
- Azure Databricks
Haga clic en Conectar.
Escriba el nombre de host del servidor y la ruta de acceso HTTP.
Seleccione el modo de conectividad de datos. Para información sobre la diferencia entre Importar y DirectQuery, consulte Usar DirectQuery en Power BI Desktop.
Haga clic en Aceptar.
Haga clic en el método de autenticación:
- Token de acceso personal: escriba el token de acceso personal de Azure Databricks.
- Microsoft Entra ID: haga clic en Iniciar sesión y, luego, siga las instrucciones en pantalla.
- Nombre de usuario y contraseña: no aplicable.
Haga clic en Conectar.
Seleccione los datos de Azure Databricks que desea consultar en el navegador de Power BI. Si el catálogo de Unity está habilitado para el área de trabajo, seleccione un catálogo antes de seleccionar un esquema y una tabla.
Uso de una consulta SQL personalizada
El conector de Databricks proporciona el origen de datos de Databricks.Query
que permite a un usuario proporcionar una consulta SQL personalizada.
Siga los pasos que se describen en Conexión con Power BI Desktop mediante Partner Connect para crear una conexión y use Import como modo de conectividad de datos.
En el navegador, haga clic con el botón derecho en el elemento superior que contiene el nombre de host seleccionado y la ruta de acceso HTTP y haga clic en Transform Data para abrir el Editor de Power Query.
En la barra de funciones, reemplace el nombre de función
Databricks.Catalogs
porDatabricks.Query
y aplique el cambio. De esta forma se crea una función de Power Query que toma una consulta SQL como parámetro.Escriba la consulta SQL en el campo de parámetro y haga clic en Invoke. Esto ejecuta la consulta y se crea una nueva tabla cuyo contenido son los resultados de la consulta.
Acceso al origen de datos de Azure Databricks mediante el servicio Power BI
Al publicar un informe en el servicio Power BI, se conecta a Azure Databricks mediante un token de acceso personal. En el servicio Power BI también puede habilitar el inicio de sesión único (SSO) para que los usuarios puedan acceder a los informes creados mediante el modo de almacenamiento de DirectQuery pasando sus credenciales de Microsoft Entra ID a Azure Databricks.
Publique el informe de Power BI de Power BI Desktop en el servicio Power BI.
Habilite el acceso de inicio de sesión único (SSO) al informe y al origen de datos subyacente.
- Vaya al conjunto de datos de Azure Databricks subyacente del informe en el servicio Power BI, expanda Credenciales de origen de datos y haga clic en Editar credenciales.
- En el cuadro de diálogo de configuración, seleccione Report viewers can only access this data source with their own Power BI identities using Direct Query (Los visores de informes solo pueden acceder a este origen de datos con sus propias identidades de Power BI mediante Direct Query) y haga clic en Iniciar sesión.
Con esta opción seleccionada, el acceso al origen de datos se controla mediante DirectQuery y se administra mediante la identidad de Microsoft Entra ID del usuario que accede al informe. Si no selecciona esta opción, solo usted, como usuario que publicó el informe, tiene acceso al origen de datos de Azure Databricks.
Detección automatizada del proxy HTTP
Power BI Desktop, versión 2.104.941.0 y posteriores (versión de mayo de 2022), tiene compatibilidad integrada para detectar la configuración del proxy HTTP en todo el sistema Windows.
Power BI Desktop puede detectar y usar automáticamente la configuración del proxy HTTP en todo el sistema Windows.
Si el servidor proxy no ofrece un punto de distribución CRL (CDP), Power BI podría mostrar este mensaje de error:
Details: "ODBC: ERROR [HY000] [Microsoft][DriverSupport] (1200)
-The revocation status of the certificate or one of the certificates in the certificate chain is unknown."
Para corregir este error, siga los pasos a continuación:
Cree el archivo
C:\Program Files\Microsoft Power BI Desktop\bin\ODBC Drivers\Simba Spark ODBC Driver\microsoft.sparkodbc.ini
si no existe.Agregue la siguiente configuración al archivo
microsoft.sparkodbc.ini
:[Driver] CheckCertRevocation=0
Power BI Delta Sharing Connector
Power BI Delta Sharing Connector permite a los usuarios detectar, analizar y visualizar conjuntos de datos compartidos con ellos a través del protocolo abierto Delta Sharing. El protocolo posibilita un intercambio seguro de conjuntos de datos entre productos y plataformas mediante REST y almacenamiento en la nube.
Para obtener instrucciones de conexión, consulte Power BI: Lectura de datos compartidos.
Limitaciones
- El conector de Azure Databricks admite el proxy web. Sin embargo, no admite configuraciones automáticas del proxy definidas en archivos .pac.
- En el conector de Azure Databricks, el origen de datos
Databricks.Query
no se admite en combinación con el modo DirectQuery. - Los datos que carga Delta Sharing Connector deben ajustarse a la memoria de la máquina. Para garantizar esto, el conector limita el número de filas importadas al límite de filas que se estableció anteriormente.