Conectarse a orígenes de datos

En este artículo se proporcionan recomendaciones fundamentadas sobre cómo los administradores y otros usuarios avanzados pueden configurar conexiones entre Azure Databricks y orígenes de datos. Si está intentando determinar si tiene acceso de lectura de datos desde sistemas externos, empiece por revisar los datos a los que tiene acceso en el área de trabajo. Consulte Detección de datos.

Es posible conectar la cuenta de Azure Databricks a orígenes de datos, como el almacenamiento de objetos en la nube, los sistemas de administración de bases de datos relacionales, los servicios de datos de streaming y las plataformas empresariales, como las CRM. Los privilegios específicos necesarios para configurar conexiones dependen del origen de datos, cómo se configuran los permisos en el área de trabajo de Azure Databricks, los permisos necesarios para interactuar con los datos en el origen, el modelo de gobernanza de datos y el método preferido de conexión.

La mayoría de métodos requieren privilegios elevados tanto en el origen de datos como en el área de trabajo de Azure Databricks para configurar los permisos necesarios para integrar sistemas. Los usuarios que no tengan estos permisos deberán solicitar ayuda. Consulte Solicitar acceso a orígenes de datos.

Configuración de conexiones de almacenamiento de objetos

El almacenamiento de objetos en la nube proporciona la base para almacenar la mayoría de los datos en Azure Databricks. Para obtener más información sobre el almacenamiento de objetos en la nube y dónde Azure Databricks almacena los datos, consulte ¿Dónde escribe datos Azure Databricks?.

Databricks recomienda usar el catálogo de Unity para configurar el acceso al almacenamiento de objetos en la nube. El catálogo de Unity proporciona gobernanza de datos tanto para datos estructurados como para datos no estructurados en el almacenamiento de objetos en la nube. Consulte Conexión al almacenamiento de objetos en la nube mediante el catálogo de Unity.

Los clientes que no usen Unity Catalog deben configurar conexiones mediante métodos heredados. Consulte Configuración del acceso al almacenamiento de objetos en la nube de Azure Databricks.

Para configurar la conexión en red al almacenamiento de objetos en la nube, consulte Redes.

Configuración de conexiones a sistemas de datos externos

Databricks recomienda varias opciones para configurar conexiones a sistemas de datos externos en función de sus necesidades. La siguiente tabla proporciona una introducción general de estas opciones:

Opción Descripción
Federación de Lakehouse Proporciona acceso de solo lectura a los datos de los sistemas de datos empresariales. Las conexiones se configuran a través del catálogo de Unity en el nivel de catálogo o esquema, sincronizando varias tablas con una sola configuración. Consulte ¿Qué es Lakehouse Federation?
Partner Connect Aprovecha las soluciones de asociados tecnológicos para conectarse a orígenes de datos externos y automatizar la ingesta de datos en el almacén de lago. Algunas soluciones también incluyen ETL inverso y acceso directo a los datos del almacén de lago desde sistemas externos. Consulte ¿Qué es Databricks Partner Connect?
Controladores Azure Databricks incluye controladores para sistemas de datos externos en cada instancia de Databricks Runtime. Opcionalmente, podría instalar controladores de terceros para acceder a los datos de otros sistemas. Es necesario configurar conexiones para cada tabla. Algunos controladores incluyen acceso de escritura. Consulte Conexión a sistemas externos.
JDBC Varios controladores incluidos para sistemas externos se basan en la compatibilidad nativa con JDBC. La opción JDBC proporciona opciones extensibles para configurar conexiones a otros sistemas. Es necesario configurar conexiones para cada tabla. Consulte Consulta de bases de datos con JDBC.

Conexión a orígenes de datos de streaming

Azure Databricks proporciona conectores optimizados para muchos sistemas de datos de streaming.

Para todos los orígenes de datos de streaming, es necesario generar credenciales que proporcionen acceso y carguen estas credenciales en Azure Databricks. Databricks recomienda almacenar credenciales mediante secretos, ya que es posible usar secretos para todas las opciones de configuración y en todos los modos de acceso.

Todos los conectores de datos para orígenes de streaming admiten el paso de credenciales mediante opciones al definir consultas de streaming. Consulte Configuración de orígenes de datos de streaming.

Solicitud de acceso a orígenes de datos

En muchas organizaciones, la mayoría de los usuarios no tienen privilegios suficientes en Azure Databricks o en orígenes de datos externos para configurar conexiones de datos.

Es posible que su organización ya haya configurado el acceso a un origen de datos mediante uno de los patrones descritos en los artículos vinculados desde esta página. Si su organización tiene un proceso bien definido para solicitar acceso a los datos, Databricks recomienda seguir ese proceso.

Si no está seguro de cómo obtener acceso a un origen de datos, este procedimiento podría ayudarle a:

  1. Usar el Explorador de catálogos para ver las tablas y volúmenes a los que tiene acceso. Consulte ¿Qué es el Explorador de catálogos?.
  2. Pregunte a sus compañeros de equipo o administradores sobre los orígenes de datos a los que pueden acceder.
    • La mayoría de las organizaciones usan grupos sincronizados desde su proveedor de identidades (por ejemplo: Okta o Microsoft Entra ID [anteriormente Azure Active Directory]) para administrar los permisos de usuario del área de trabajo. Si otros miembros del equipo tienen acceso a orígenes de datos a los que necesita acceso, haga que un administrador del área de trabajo le agregue al grupo adecuado para concederle acceso.
    • Si un compañero de trabajo configuró una tabla, volumen u origen de datos determinado, ese individuo debería tener permisos para concederle acceso a los datos.
  3. Algunas organizaciones configuran permisos de acceso a datos a través de la configuración de clústeres de proceso y almacenes de SQL.
    • El acceso a orígenes de datos podría variar según el proceso.
    • Es posible ver el creador de proceso en la pestaña Proceso. Póngase en contacto con el creador para preguntar sobre los orígenes de datos a los que debería tener acceso.