Поделиться через


Настройка Microsoft SQL Server с целью интеграции в Azure Databricks

Это важно

Соединитель Microsoft SQL Server находится в общедоступной предварительной версии.

В этой статье представлен обзор настройки источника, необходимой для использования Lakeflow Connect для приема данных из SQL Server в Azure Databricks.

Отслеживание изменений и запись измененных данных

Отслеживание изменений и запись измененных данных (CDC) позволяют Databricks отслеживать изменения в исходных таблицах. Databricks рекомендует использовать отслеживание изменений для любой таблицы с первичным ключом, чтобы свести к минимуму нагрузку на исходную базу данных. Если отслеживание изменений и CDC включены, соединитель SQL Server использует отслеживание изменений.

  • Отслеживание изменений: фиксирует тот факт, что строки в таблице изменились, но не фиксируют фактические операции. Для отслеживания изменений требуется, чтобы таблица имеет первичный ключ, но это упрощенный процесс, который не оказывает большого влияния на исходную базу данных.

  • CDC: записывает каждую операцию в таблице и содержит историческое представление об изменениях, внесенных с течением времени. CDC не требует, чтобы таблица имеет первичный ключ, но может оказать больше влияния на производительность исходной базы данных.

Дополнительные сведения об этих параметрах см. в разделе "Отслеживание изменений данных" (SQL Server) в документации по SQL Server.

Общие сведения о задачах установки источника

Перед приемом данных в Azure Databricks необходимо выполнить следующие задачи в SQL Server:

  1. Убедитесь, что выполнены требования к версии SQL Server:

    • Чтобы использовать отслеживание изменений, необходимо иметь SQL Server 2012 или более поздней версии.
    • Для использования CDC необходимо, чтобы у вас был SQL Server 2012 с пакетом обновления 1 (SP1), накопительный пакет обновления 3 (CU3) или более поздней версии. Для версий, предшествующих SQL Server 2016, также требуется Выпуск Enterprise.
  2. При необходимости настройте параметры брандмауэра.

  3. Создайте пользователя базы данных в SQL Server, который будет специально предназначен для загрузки данных в Databricks и соответствует требованиям по привилегиям.

  4. Включите отслеживание изменений или CDC: