Share via


Bases de datos SQL mediante el conector de Apache Spark

El conector de Apache Spark para Azure SQL Database y SQL Server permite que estas bases de datos actúen como orígenes de datos de entrada y receptores de datos de salida en los trabajos de Apache Spark. Permite usar datos transaccionales en tiempo real en análisis de macrodatos y conservar los resultados para informes o consultas ad hoc.

En comparación con el conector JDBC integrado, este conector proporciona la capacidad para insertar datos de forma masiva en bases de datos SQL. Puede mejorar el rendimiento de la inserción de fila en fila, ya que puede insertar datos entre 10 y 20 veces más rápido. El conector de Spark para SQL Server y Azure SQL Database también admite la autenticación Microsoft Entra ID (anteriormente Azure Active Directory), lo que le permite conectarse de forma segura a las bases de datos de Azure SQL desde Azure Databricks mediante su cuenta de Id. de Microsoft Entra. Proporciona interfaces similares al conector JDBC integrado. Es fácil migrar los trabajos de Spark existentes para usar este conector.

Requisitos

Hay dos versiones del conector de Spark para SQL Server: una para Spark 2.4 y otra para Spark 3.x. El conector Spark 3.x requiere Databricks Runtime 7.x o superior. El conector cuenta con soporte de la comunidad, y no incluye el soporte del contrato de nivel de servicio de Microsoft. Presente cualquier problema en GitHub para obtener ayuda de la comunidad.

Componente Versiones admitidas
Spark de Apache 3.0.x y 2.4x
Entorno de tiempo de ejecución de Databricks Conector de Apache Spark 3.0: Databricks Runtime 7.x y posteriores
Scala Conector de Apache Spark 3.0: 2.12

Conector de Apache Spark 2.4: 2.11
Microsoft JDBC Driver para SQL Server 8,2
Microsoft SQL Server SQL Server 2008 y posteriores
Azure SQL Database Compatible

Uso del conector de Spark

Para obtener instrucciones sobre el uso del conector de Spark, consulte conector de Apache Spark: SQL Server y Azure SQL.