Поделиться через


Руководство по «Lakehouse»: загрузка данных в «lakehouse»

В этом руководстве вы загружаете больше измерений и фактов из Wide World Importers (WWI) в хранилище данных. Пайплайны позволяют обрабатывать данные в большом масштабе с возможностью планировать рабочие процессы с данными.

Предварительные условия

Прием данных

В этом разделе используйте активность копирования данных в конвейере Data Factory, чтобы импортировать образцы данных из учетной записи хранения Azure в раздел "Файлы"озера данных, созданного в предыдущем руководстве.

  1. В рабочей области, созданной в предыдущем руководстве, выберите новый элемент.

  2. В строке поиска найдите Pipeline и выберите элемент Pipeline.

  3. В диалоговом окне "Создать конвейер" укажите имя в качестве IngestDataFromSourceToLakehouse и нажмите кнопку "Создать".

  4. На вкладке «Главная» нового конвейера выберите «Активность конвейера»> и выберите «Копировать данные».

    Снимок экрана, показывающий, где выбрать действие «Конвейер» и «Копирование данных».

  5. Выберите новое действие копирования данных на холсте. Свойства активности отображаются на панели под холстом, упорядоченные на разных вкладках, включая Общие, Источник, Назначение, Сопоставление и Параметры. Возможно, потребуется развернуть панель вверх, перетащив верхний край.

  6. На вкладке "Общие " введите "Копирование данных в Lakehouse " в поле "Имя ". Оставьте другие поля значениями по умолчанию.

    Снимок экрана: добавление имени действия копирования на вкладке

  7. На вкладке "Источник" выберите раскрывающийся список "Подключение" и нажмите кнопку "Обзор всех".

  8. На странице «Выбор источника данных для начала работы» найдите и выберите блобы Azure.

  9. Введите следующие сведения на странице источника данных Connect . Затем нажмите кнопку "Подключиться ", чтобы создать подключение к источнику данных. В этом руководстве все примеры данных доступны в общедоступном контейнере хранилища BLOB-объектов Azure. Вы подключаетесь к этому контейнеру для копирования данных из него.

    Свойство Значение
    Имя учетной записи или URL-адрес https://fabrictutorialdata.blob.core.windows.net/sampledata/
    Соединение Создание нового подключения
    Имя подключения wwisampledata
    Тип проверки подлинности Анонимные

    Снимок экрана: место для выбора подключения к хранилищу BLOB-объектов.

  10. На вкладке "Источник " по умолчанию выбрано только что созданное соединение. Перед перемещением в параметры назначения укажите следующие свойства.

    Свойство Значение
    Соединение wwisampledata
    Тип пути к файлу Путь к файлу
    Путь к файлу Имя контейнера (первое текстовое поле): sampledata
    Имя каталога (второе текстовое поле): WideWorldImportersDW/parquet
    Рекурсивно Проверено
    Формат файла Binary

    Снимок экрана: параметры подключения к Blob Storage.

  11. На вкладке "Назначение " укажите следующие свойства:

    Свойство Значение
    Соединение wwilakehouse (выберите свой lakehouse, если вы назвали его по-другому)
    Корневая папка Files
    Путь к файлу Имя каталога (первое текстовое поле): wwi-raw-data
    Формат файла Binary

    Снимок экрана: вкладка назначения, показывающая, где ввести конкретные сведения.

  12. Вы настроили действие копирования данных. Щелкните значок "Сохранить " на верхней ленте (ниже "Главная"), чтобы сохранить изменения, и нажмите кнопку "Выполнить ", чтобы выполнить конвейер и его действие. Вы также можете запланировать конвейеры для обновления данных в определенных интервалах в соответствии с вашими бизнес-требованиями. В этом руководстве мы запускаем конвейер только один раз, нажав кнопку "Выполнить".

  13. Это действие инициирует копирование данных из исходного источника в указанное хранилище данных и может занять до минуты. Вы можете отслеживать выполнение конвейера и его активность на вкладке "Выходные данные". Состояние активности изменяется с Ожидается>В процессе>Успешно завершено.

    Снимок экрана, на котором показано, где выбрать команду

    Подсказка

    Выберите Просмотреть сведения о запуске, чтобы увидеть дополнительную информацию о выполнении.

  14. После успешного выполнения действия копирования откройте lakehouse (wwilakehouse) и просмотрите данные. Обновите раздел "Файлы", чтобы увидеть загруженные данные. В разделе файлов отображается новая папка wwi-raw-data , а данные из таблиц BLOB-объектов Azure копируются там.

    Снимок экрана, показывающий данные BLOB, скопированные в целевое хранилище данных.

Чтобы загрузить инкрементальные данные в lakehouse, см. Инкрементальная загрузка данных из хранилища данных в lakehouse.

Следующий шаг