Базы данных SQL с использованием соединителя Apache Spark
Соединитель Apache Spark для базы данных Azure SQL и SQL Server позволяет этим базам данных выступать в качестве источников входных данных и приемников выходных данных для заданий Apache Spark. Это позволяет использовать транзакционные данные в режиме реального времени в аналитике больших данных и сохранять результаты для нерегламентированных запросов или отчетов.
По сравнению со встроенным соединителем JDBC этот соединитель предоставляет возможность массовой вставки данных в базы данных SQL. Он может опережать построчное вставка с более высокой производительностью в 10–20 раз. Соединитель Spark для SQL Server и базы данных Azure SQL также поддерживает проверку подлинности Azure Active Directory (Azure AD), что позволяет безопасно подключаться к базам данных Azure SQL из Azure Databricks с помощью учетной записи Azure AD. Он предоставляет интерфейсы, аналогичные встроенному соединителю JDBC. Для использования этого соединителя можно легко перенести существующие задания Spark.
Требования
Существует две версии соединителя Spark для SQL Server: одна для Spark 2.4 и одна для Spark 3.x. Для соединителя Spark 3.x требуется Databricks Runtime 7.x или более поздней версии. Соединитель поддерживается сообществом и не включает поддержку соглашения об уровне обслуживания Майкрософт. Отправьте все проблемы на GitHub , чтобы обратиться за помощью к сообществу.
Компонент | Поддерживаемые версии |
---|---|
Apache Spark | 3.0.x и 2.4x |
Databricks Runtime | Соединитель Apache Spark 3.0: Databricks Runtime 7.x и более поздних версий |
Scala | Соединитель Apache Spark 3.0: 2.12 Соединитель Apache Spark 2.4: 2.11 |
Microsoft JDBC Driver for SQL Server | 8.2 |
Microsoft SQL Server | SQL Server 2008 и более поздних версий |
База данных Azure SQL | Поддерживается |
Использование соединителя Spark
Инструкции по использованию соединителя Spark см. в статье Соединитель Apache Spark: SQL Server & Azure SQL.