Поделиться через


предварительная версия: Подключиться к таблицам Delta в Azure Data Lake Storage

Важно

Функции предварительного ознакомления — это функция, работа над которой еще не завершена, но которая предоставляется клиентам до официального выпуска, чтобы они могли опробовать ее и предоставить разработчику свои отзывы. Функции предварительного ознакомления не предназначены для использования в рабочей среде, их функциональность может быть ограничена.

Корпорация Майкрософт не предоставляет поддержку компонентов, выпущенных для предварительного ознакомления. Служба технической поддержки Microsoft Dynamics 365 не рассматривает обращения и не отвечает на вопросы, связанные с этой функцией. Предварительные версии функций не предназначены для использования в производстве, особенно для обработки персональных данных или других данных, на которые распространяются требования законодательства или нормативные требования.

Подключитесь к данным в таблицах Delta и перенесите их в Dynamics 365 Customer Insights - Data.

Основные причины для подключения к данным, хранящимся в формате Delta:

  • Импортируйте данные в формате Delta напрямую, чтобы сэкономить время и усилия.
  • Устраните затраты на вычисления и хранение, связанные с преобразованием и хранением копии данных вашего хранилища в озере.
  • Автоматически повысьте надежность приема данных в Customer Insights - Data за счет разностного управления версиями.

Поддерживаемые функции и версии Databricks

Customer Insights - Data поддерживает функции Databricks с «minReaderVersion» 2 или ниже. Функции Databricks, требующие Databricks Читатель версии 3 или более поздней, не поддерживаются. В таблице показаны поддерживаемые и неподдерживаемые функции Databricks.

Поддерживаемые функции Неподдерживаемые функции
Базовая функциональность Векторы удаления
Изменить канал данных Жидкостная кластеризация
Проверить ограничения Таблица функций записи
Сопоставление столбцов Временная меткаNTZ
Сгенерировать столбцы Тип расширения
Столбцы идентичности Вариант
Отслеживание строк
Таблица особенностей чтения
Униформа

Подробнее: Как Databricks управляет совместимостью функций Delta Lake?.

Предварительные условия

  • Хранилище Azure Data Lake Storage должно находиться в том же клиенте и регионе Azure, что и Customer Insights - Data.

  • Субъект-служба Customer Insights - Data должен иметь разрешения автора данных Storage Blob для доступа к учетной записи хранения. Дополнительные сведения см. в статье Предоставление разрешений субъекту-службе для доступа к учетной записи хранения.

  • Пользователю, настраивающему или обновляющему источник данных, необходимы как минимум разрешения читателя данных хранилища BLOB-объектов в учетной записи Azure Data Lake Storage.

  • Данные, хранящиеся в веб-службах, могут храниться в месте, отличном от того, где данные обрабатываются или хранятся. Импортируя данные или подключаясь к данным, хранящимся в веб-службах, вы соглашаетесь с тем, что данные могут быть переданы.  Подробнее см. в центре управления безопасностью Майкрософт.

  • Customer Insights - Data поддерживает средство чтения Databricks версии 2. Таблицы Delta, использующие функции, требующие средства чтения Databricks версии 3 или более поздней версии, не поддерживаются. Подробнее: Поддерживаемые функции Databricks.

  • Таблицы Delta должны находиться в папке в контейнере хранилища и не могут находиться в корневом каталоге контейнера. Например:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Данные в вашем Azure Data Lake Storage должны быть в таблицах Delta. Customer Insights - Data использует свойство версии в истории таблицы для определения последних изменений для добавочной обработки.

Подключение к данным Delta из Azure Data Lake Storage

  1. Перейдите в раздел Данные>Источники данных.

  2. Выберите Добавить источник данных.

  3. Выберите Таблицы Delta Azure Data Lake.

    Диалоговое окно для ввода сведений о подключении для Delta Lake.

  4. Введите Имя источника данных и, при желании, Описание. На имя ссылаются нижестоящие процессы, и его невозможно изменить после создания источника данных.

  5. Выберите один из следующих вариантов для параметра Подключите свое хранилище с использованием.

    • Подписка Azure: выберите Подписка, затем Группа ресурсов и Учетная запись хранения.
    • Ресурс Azure: введите Идентификатор ресурса.
  6. При необходимости, если вы хотите принимать данные из учетной записи хранения через приватный канал Azure, выберите Включить приватный канал. Дополнительные сведения см. в разделе Приватные каналы.

  7. Выберите имя Контейнера, содержащего папку с вашими данными, и выберите Далее.

  8. Перейдите к папке, содержащей данные в таблицах Delta, и выберите ее. Затем выберите Далее. Отображается список доступных таблиц.

  9. Выберите таблицы, которые требуется включить.

  10. Для выбранных таблиц, для которых первичный ключ не определен, Обязательно отображается в поле Первичный ключ. Для каждой из этих таблиц:

    1. Выберите Обязательно. Открывается панель Изменение таблицы.
    2. Выберите первичный ключ. Первичный ключ — это атрибут, уникальный для таблицы. Чтобы атрибут был действительным первичным ключом, он не должен включать повторяющиеся значения, отсутствующие значения или значения NULL. В качестве первичных ключей поддерживаются атрибуты типа данных: строка, целое число, GUID.
    3. Выберите Закрыть, чтобы сохранить и закрыть панель.

    Диалоговое окно, показывающее, что требуется для первичного ключа

  11. Чтобы включить профилирование данных по любому из столбцов, выберите количество Столбцов для таблицы. Открывается страница Управление атрибутами.

    Диалоговое окно для выбора профилирования данных.

    1. Выберите Профилирование данных для всей таблицы или для отдельных столбцов. По умолчанию ни одна таблица не включена для профилирования данных.
    2. Нажмите кнопку Готово.
  12. Выберите Сохранить. Открывается страница Источники данных с новым источником данных в статусе Обновление.

    Совет

    Есть состояния для задач и процессов. Большинство процессов зависят от других вышестоящих процессов, таких как источники данных и обновления профилирования данных.

    Выберите статус, чтобы открыть панель Сведения о ходе выполнения и просмотреть ход выполнения задач. Чтобы отменить задание, выберите Отменить задание в нижней части панели.

    В каждой задаче можно выбрать Показать подробности для получения дополнительной информации о ходе выполнения, такой как время обработки, дата последней обработки, а также любые применимые ошибки и предупреждения, связанные с задачей или процессом. Выберите Просмотр состояния системы внизу панели, чтобы увидеть другие процессы в системе.

Загрузка данных может занять время. После успешного обновления принятые данные можно проверить на странице Таблицы.

Управление изменениями схемы

Когда столбец добавляется или удаляется из схемы источника данных папок Delta, система выполняет полное обновление данных. Полное обновление занимает больше времени для обработки всех данных, чем добавочное обновление.

Добавить столбец

Когда столбец добавляется в источник данных, информация автоматически добавляется к данным в Customer Insights - Data после обновления. Если для таблицы уже настроена унификация, новый столбец необходимо добавить в процесс унификации.

  1. На шаге Данные клиентов выбрать Выбор таблиц и столбцов и выберите новый столбец.

  2. На шаге Единое представление данных убедитесь, что столбец не исключен из профиля клиента. Выбирать Исключенный и прочитайте столбец.

  3. На шаге Запустите обновления единого профиля клиента выберите Объединить профили клиентов и зависимости.

Изменение или удаление столбца

Когда столбец удаляется из источника данных, система проверяет наличие зависимостей в других процессах. Если в столбцах есть зависимость, система прекращает обновление и предоставляет ошибку, указывающую, что зависимости должны быть удалены. Эти зависимости отображаются в уведомлении, которое поможет вам найти и удалить их.

Проверка изменения схемы

После обновления источника данных перейдите на страницу Данные>Таблицы. Выберите таблицу для источника данных и проверьте схему.

Путешествие во времени в озере Delta и обновления данных

Путешествие во времени на озере Delta — это возможность запрашивать версии таблиц на основе отметки времени или номера версии. Для изменений в папках Delta используется управление версиями, и Customer Insights - Data использует версии папок Delta для отслеживания того, какие данные нужно обрабатывать. При обычном обновлении таблицы изменений Delta данные извлекаются из всех версий таблицы данных с момента последнего обновления. Пока присутствуют все версии, Customer Insights - Data может обрабатывать только измененные элементы и быстрее выдавать результаты. Дополнительные сведения о путешествии по времени.

Например, если приложение Customer Insights - Data в последний раз синхронизировались с версией 23 данных вашей папки Delta, оно ожидает найти версию 23 и, возможно, последующие доступные версии. Если ожидаемые версии данных недоступны, синхронизация данных завершается сбоем и требуется полное обновление данных вручную. Синхронизация данных может завершиться сбоем, если данные вашей папки Delta были удалены, а затем созданы заново. Или если приложению Customer Insights - Data не удалось подключиться к вашим папкам Delta в течение длительного периода времени, пока версии развивались.

Чтобы избежать необходимости полного обновления данных, мы рекомендуем поддерживать разумный период отставания истории, например 15 дней.

Ручной запуск полного обновления данных в папке таблицы Delta

Полное обновление берет все данные из таблицы в формате Delta и перезагружает их из нулевой версии таблицы Delta (0). Изменения в схеме папки Delta вызывают автоматическое полное обновление. Чтобы вручную запустить полное обновление, выполните следующие шаги.

  1. Перейдите в раздел Данные>Источники данных.

  2. Выберите источник данных таблицы Delta Azure Data Lake.

  3. Выберите таблицу, которую нужно обновить. Открывается область Изменить таблицу.

    Область изменения таблицы для выбора однократного полного обновления.

  4. Выберите Выполнить однократное полное обновление.

  5. Выберите Сохранить, чтобы выполнить обновление. Открывается страница Источники данных с новым источником данных в статусе Обновление, но обновляется только выбранная таблица.

  6. Повторите процесс для других таблиц, если применимо.

Сбой синхронизации данных

Синхронизация данных может завершиться сбоем, если данные вашей папки Delta были удалены, а затем созданы заново. Или если приложению Customer Insights - Data не удалось подключиться к вашим папкам Delta в течение длительного периода времени, пока версии развивались. Чтобы свести к минимуму ситуации, когда периодический сбой конвейера данных приводит к необходимости полного обновления, рекомендуем поддерживать разумный период отставания истории, например 15 дней.

Следующие шаги