Conexión a orígenes de datos y servicios externos

En esta página se proporcionan recomendaciones para administradores y usuarios avanzados que configuran conexiones entre Azure Databricks y orígenes de datos externos y servicios.

Puede conectar la cuenta de Azure Databricks a orígenes de datos como el almacenamiento de objetos en la nube, los sistemas de administración de bases de datos relacionales, los servicios de datos de streaming y las plataformas empresariales, como las CRM. También puede conectar la cuenta de Azure Databricks a servicios externos que no son de almacenamiento.

Configuración de conexiones al almacenamiento de objetos

La mayoría de los datos usados por las cargas de trabajo de Azure Databricks se almacenan en el almacenamiento de objetos en la nube, como Azure Data Lake Storage o AWS S3. Puede administrar el acceso al almacenamiento de objetos en la nube mediante cualquiera de las siguientes opciones:

Catálogo de Unity (recomendado), que proporciona gobernanza de datos para datos estructurados y no estructurados en el almacenamiento de objetos en la nube. Consulte Conexión al almacenamiento de objetos en la nube mediante el catálogo de Unity.
Conectores heredados y patrones de conexión. Consulte Configurar el acceso al almacenamiento de objetos en la nube para Azure Databricks mediante patrones heredados.

Conexiones del catálogo de Unity

Una conexión de Catálogo de Unity es un objeto protegible que almacena el punto de conexión y las credenciales necesarios para acceder a un sistema externo. Las conexiones proporcionan una manera controlada de administrar la autenticación y la configuración de los sistemas de datos externos, incluida la federación, la ingesta administrada, JDBC y HTTP. Para obtener información general sobre todos los tipos de conexión y cómo elegir entre ellos, consulte Conexiones del catálogo de Unity.

Configuración de conexiones a sistemas de datos externos

Databricks ofrece varias opciones para configurar conexiones a sistemas de datos externos. La siguiente tabla proporciona una introducción general de estas opciones:

Option	Description
Conectores de federación de consultas	Lakehouse Federation proporciona acceso de solo lectura a los datos de los sistemas de datos empresariales. La federación de consultas usa conexiones JDBC seguras para federar a sistemas de datos externos, como PostgreSQL y MySQL. La federación de catálogos conecta catálogos externos, como un metastore de Hive o Snowflake Horizon Catalog, para consultar los datos directamente en el almacenamiento de archivos.
Conectores de ingesta administrados	Lakeflow Connect permite a los usuarios administradores crear una conexión y una canalización de ingesta administrada al mismo tiempo en la interfaz de usuario de ingesta de datos. Consulte Conectores administrados en Lakeflow Connect. Si los usuarios que crearán canalizaciones son usuarios que no son administradores o planean usar las API de Databricks, los SDK de Databricks, la CLI de Databricks o los conjuntos de automatización declarativos, un administrador primero debe crear la conexión en el Explorador de catálogos. Estas interfaces requieren que los usuarios especifiquen una conexión existente al crear una canalización. Consulte Conexión a orígenes de ingesta administrados.
Conectores de streaming	Azure Databricks proporciona conectores optimizados para muchos sistemas de datos de streaming. Para todos los orígenes de datos de streaming, debe generar credenciales que proporcionen acceso y carguen estas credenciales en Azure Databricks. Databricks recomienda almacenar credenciales mediante secretos, ya que es posible usar secretos para todas las opciones de configuración y en todos los modos de acceso. Todos los conectores de datos para orígenes de streaming admiten el paso de credenciales mediante opciones al definir consultas de streaming. Consulte Conectores estándar en Lakeflow Connect.
Integraciones de terceros	Use herramientas de terceros para conectarse a orígenes de datos externos y automatizar la ingesta de datos en el almacén de lago. Algunas soluciones también incluyen ETL inverso y acceso directo a los datos del almacén de lago desde sistemas externos. Consulte ¿Qué es Databricks Partner Connect?.
Drivers	Azure Databricks incluye controladores para sistemas de datos externos en cada databricks Runtime. Opcionalmente, podría instalar controladores de terceros para acceder a los datos de otros sistemas. Es necesario configurar conexiones para cada tabla. Algunos controladores incluyen acceso de escritura. Consulte Conexión a sistemas externos. Para la federación de consultas de solo lectura, siempre se prefiere Lakehouse Federation sobre estos controladores.
JDBC	Conéctese a bases de datos externas mediante JDBC con una conexión Unity Catalog para el acceso regulado, el aislamiento de credenciales y el soporte para computación cruzada. Consulte Conexión JDBC. Para conocer las configuraciones de JDBC heredadas sin gobernanza del catálogo de Unity, consulte Consulta de bases de datos mediante JDBC. Para la federación de consultas de solo lectura, se prefiere siempre Lakehouse Federation.

Configuración de conexiones a servicios externos

El catálogo de Unity rige el acceso a los servicios que no son de almacenamiento mediante un objeto protegible denominado credenciales de servicio. Una credencial de servicio encapsula una credencial de nube a largo plazo que proporciona acceso a un servicio externo al que los usuarios necesitan conectarse desde Azure Databricks. Consulte Conexión a servicios en la nube externos mediante el catálogo de Unity.

Administración y solicitud de acceso a orígenes de datos y servicios externos

La mayoría de los métodos de conexión requieren privilegios elevados tanto en el origen de datos externo como en el servicio y en el área de trabajo de Azure Databricks. En las organizaciones típicas, pocos usuarios tienen privilegios suficientes en Azure Databricks o en proveedores de almacenamiento y datos externos para configurar las conexiones de datos por sí mismos.

Es posible que su organización ya haya configurado el acceso a un origen de datos o servicio mediante uno de los patrones descritos en los artículos vinculados desde esta página. Si su organización tiene un proceso bien definido para solicitar acceso a datos y servicios de terceros, Databricks recomienda seguir ese proceso. Si no está seguro de cómo obtener acceso a un origen de datos, este procedimiento podría ayudar:

Utilice el Explorador de catálogos para ver las tablas y volúmenes a los que tiene acceso. Consulte ¿Qué es el Explorador de catálogos?.
Pregunte a sus compañeros de equipo o administradores sobre los orígenes de datos a los que pueden acceder.
- La mayoría de las organizaciones usan grupos sincronizados desde su proveedor de identidades (por ejemplo: Okta o Microsoft Entra ID) para administrar permisos para los usuarios del área de trabajo. Si otros miembros del equipo pueden acceder a orígenes de datos a los que necesita acceso, haga que un administrador del área de trabajo le agregue al grupo correcto para conceder acceso.
- Si un compañero de trabajo configuró una tabla, volumen o origen de datos determinado, ese individuo debería poder concederle acceso a los datos.

Algunas organizaciones adjuntan permisos de acceso a datos a clústeres de proceso específicos y almacenes de SQL. Se trata de un modelo de gobernanza heredado, pero si su organización lo usa y quiere saber qué orígenes de datos están disponibles en un recurso de proceso específico, póngase en contacto con el creador de proceso que aparece en la pestaña Proceso .

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-04-19