Инкрементное обновление для источников данных Data Lake Storage

Инкрементное обновление для источников данных на основе Azure Data Lake Storage дает следующие преимущества:

  • Быстрее обновляется — только данные, которые изменились, обновляются. Например, вы можете обновить только последние пять дней исторического набора данных.
  • Повышенная надежность — при меньших обновлениях вам не нужно поддерживать соединения с ненадежными исходными системами слишком долго, что снижает риск проблем с подключением.
  • Снижение потребления ресурсов — обновление только подмножества ваших общих данных приводит к более эффективному использованию вычислительных ресурсов и уменьшает воздействие на окружающую среду.

Настройка инкрементного обновления для источников данных Azure Data Lake Storage

Для достижения наилучшей производительности и результатов при работе с большими наборами данных Майкрософт рекомендует использовать формат Delta Lake. В Customer Insights - Data есть соединитель, оптимизированный для данных в формате Delta Lake. Внутренние процессы, такие как унификация, оптимизированы для добавочной обработки только измененных данных, что приводит к сокращению времени обработки.

Чтобы использовать добавочные прием и обновление для таблицы Data Lake, настройте эту таблицу при добавлении источника данных Azure Data Lake. Папка данных таблицы должна содержать следующие папки:

  • FullData: папка, в которой находятся файлы данных, содержащие первоначальные записи
  • IncrementalData: папка с иерархическими папками даты/времени в формате гггг/мм/дд/чч, содержащими инкрементные обновления. Ожидается, что папки года, месяца, дня и часа будут состоять из четырех и двух цифр соответственно. чч представляет час UTC обновлений и содержит папки Upserts и Deletes. Upserts содержит файлы данных с обновлениями существующих записей или новые записи. Deletes содержит файлы данных с записями для удаления.

Порядок обработки инкрементных данных

Система обрабатывает файлы в папке IncrementalDataпосле окончания указанного часа UTC. Например, если система начнет обработку добавочного обновления 21 января 2023 года в 8:15, будут обработаны все файлы, находящиеся в папке 2023/01/21/07 (представляющие файлы данных, сохраненные с 7:00 до 8:00). Файлы в папке 2023/01/21/08 (представляющей текущий час, в течение которого файлы все еще создаются) не обрабатываются до следующего запуска.

Если для первичного ключа имеются две записи: upsert и удаление, Customer Insights - Data используется запись с последней датой изменения. Например, если временная метка удаления — 2023-01-21T08:00:00, а временная метка upsert — 2023-01-21T08:30:00, используется запись upsert. Если удаление произошло после upsert, система предполагает, что запись удалена.

Настройка инкрементного обновления для источников данных Azure Data Lake

  1. При добавлении или редактировании источника данных перейдите на панель Атрибуты для таблицы.

  2. Просмотрите атрибуты. Убедитесь, что атрибут даты создания или последнего обновления имеет формат данныхДата и время и семантический типКалендарь.Дата. При необходимости отредактируйте атрибут и выберите Готово.

  3. На панели Выберите таблицы отредактируйте таблицу. Установлен флажок Добавочный прием.

    Настройка таблиц в источнике данных для инкрементного обновления.

    1. Перейдите в корневую папку, содержащую файлы .csv или .parquet для полных данных, инкрементных обновлений и добавлений данных и инкрементных удалений данных.
    2. Введите расширение для полных данных и обоих инкрементных файлов (.csv или .parquet).
    3. Для файлов .csv выберите разделитель столбцов и, если вы хотите, чтобы первая строка файла использовалась в качестве заголовка столбца.
    4. Выберите Сохранить.
  4. Для поля Последнее обновление выберите атрибут метки даты и времени.

  5. Если Первичный ключ не выбран, выберите первичный ключ. Первичный ключ — это атрибут, уникальный для таблицы. Чтобы атрибут был действительным первичным ключом, он не должен включать повторяющиеся значения, отсутствующие значения или значения NULL. В качестве первичных ключей поддерживаются атрибуты типа данных: строка, целое число, GUID.

  6. Выберите Закрыть, чтобы сохранить и закрыть панель.

  7. Переходите к добавлению или редактированию источника данных.

Выполнение однократного полного обновления для источников данных Azure Data Lake

После того как вы настроили добавочное обновление для источников данных Azure Data Lake, возникают случаи, когда данные необходимо обработать с полным обновлением. Папка полных данных, настроенная для добавочного обновления, должна содержать расположение полных данных.

  1. При редактировании источника данных перейдите на панель Выбор таблиц и отредактируйте таблицу, которую хотите обновить.

  2. На панели Изменить таблицу прокрутите до флажка Выполнить однократное полное обновление и установите его.

    Настройте таблицу в источнике данных для однократного обновления.

  3. Для Обработка инкрементных файлов из укажите дату и время сохранения добавочных файлов. Обработка полных данных плюс инкрементных данных начинается после указанной даты и времени. Например, если вы хотите выполнить частичное обновление/заполнение данных до конца ноября, сохранив добавочные данные с начала декабря до сегодняшнего дня (30 декабря), введите 1 декабря. Чтобы заменить все данные и игнорировать данные в добавочной папке, укажите дату в будущем.

  4. Выберите Закрыть, чтобы сохранить и закрыть панель.

  5. Выберите Сохранить, чтобы применить изменения и вернуться на страницу Источники данных. Источник данных находится в состоянии Обновление и выполняется полное обновление.