Настройка Microsoft SQL Server с целью интеграции в Azure Databricks

Просмотр процесса интеграции данных из SQL Server в Azure Databricks с помощью Lakeflow Connect.

Отслеживание изменений и запись измененных данных

Отслеживание изменений и запись измененных данных (CDC) позволяют Azure Databricks отслеживать изменения в исходных таблицах. Databricks рекомендует использовать отслеживание изменений для любой таблицы с первичным ключом, чтобы свести к минимуму нагрузку на исходную базу данных. Если отслеживание изменений и CDC включены, соединитель SQL Server использует отслеживание изменений.

Метод Description
Отслеживание изменений Фиксирует тот факт, что строки в таблице изменились, но не фиксируют фактические операции. Для отслеживания изменений требуется, чтобы таблица имеет первичный ключ, но это упрощенный процесс, который не оказывает большого влияния на исходную базу данных.
Изменение записи данных Записывает каждую операцию в таблице и содержит историческое представление об изменениях, внесенных с течением времени. CDC не требует, чтобы таблица имеет первичный ключ, но может оказать больше влияния на производительность исходной базы данных.

Дополнительные сведения об этих параметрах см. в разделе "Отслеживание изменений данных" (SQL Server) в документации по SQL Server.

Общие сведения о настройке источника

Перед приемом данных в Azure Databricks необходимо выполнить следующие задачи в SQL Server:

  1. Убедитесь, что выполнены требования к версии SQL Server:

    • Чтобы использовать отслеживание изменений, необходимо иметь SQL Server 2012 или более поздней версии.
    • Для использования CDC необходимо, чтобы у вас был SQL Server 2012 с пакетом обновления 1 (SP1), накопительный пакет обновления 3 (CU3) или более поздней версии. Для версий, предшествующих SQL Server 2016, также требуется Выпуск Enterprise.
  2. При необходимости настройте параметры брандмауэра.

  3. Создайте пользователя базы данных в SQL Server, который будет специально предназначен для загрузки данных в Databricks и соответствует требованиям по привилегиям.

  4. Настройте исходную базу данных, включая управление разрешениями, включение отслеживания изменений и включение CDC. См. также статью "Подготовка SQL Server к приему данных с использованием скрипта служебных объектов".