Поделиться через


Загрузка данных в Azure Data Lake Storage 2-го поколения с помощью Фабрики данных Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Azure Data Lake Storage 2-го поколения — это набор возможностей аналитики больших данных, созданных на основе хранилища BLOB-объектов Azure. Она позволяет работать с данными с использованием как файловой системы, так и парадигмы хранения объектов.

Фабрика данных Azure (ADF) — это полностью управляемая облачная служба интеграции данных. Эту службу можно использовать для заполнения озера данными из богатого набора локальных и облачных хранилищ данных и экономии времени при создании аналитических решений. Для получения подробного списка поддерживаемых коннекторов см. таблицу Поддерживаемые хранилища данных.

Фабрика данных Azure предлагает масштабируемое и управляемое решение для перемещения данных. Благодаря архитектуре горизонтального масштабирования ADF, он может обрабатывать данные с высокой пропускной способностью. Дополнительные сведения см. в разделе Производительность операции копирования.

В этой статье показано, как с помощью средства копирования данных службы "Фабрика данных" загружать данные из службы Amazon Web Services S3 в Azure Data Lake Storage Gen2. Чтобы копировать данные из других типов хранилищ, необходимо выполнить аналогичные шаги.

Совет

Для получения инструкций по копированию данных из Azure Data Lake Storage Gen1 в Gen2, обратитесь к этой конкретной пошаговой инструкции.

Предварительные условия

  • Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
  • Учетная запись хранения Azure с включенной поддержкой Azure Data Lake Storage Gen2: Если у вас еще нет учетной записи хранилища, создайте учетную запись.
  • Учетная запись AWS с контейнером S3, в котором содержатся данные. В этой статье показано, как скопировать данные из Amazon S3. Вы можете использовать другие хранилища данных, выполнив аналогичные действия.

Создание фабрики данных

  1. Если вы еще не создали фабрику данных, выполните действия, описанные в кратком руководстве по созданию фабрики данных с помощью портала Azure и студии Фабрики данных Azure. После создания перейдите к фабрике данных на портале Azure.

    Домашняя страница Фабрики данных Azure с элементом Open Azure Data Factory Studio.

  2. Выберите Открыть на плитке Открыть Azure Data Factory Studio, чтобы запустить приложение интеграции данных в отдельной вкладке.

Загрузка данных в Azure Data Lake Storage 2-го поколения

  1. На домашней странице Фабрики данных Azure выберите элемент Поглотить, чтобы запустить средство копирования данных.

  2. На странице Свойства в разделе Тип задачи выберите Встроенная задача копирования. Затем в разделе Периодичность или расписание задач выберите Запустить сейчас один раз, после чего щелкните Далее.

    Страница Свойств

  3. На странице Исходное хранилище данных сделайте следующее.

    1. Выберите + Новое подключение. В галереи соединителя выберите Amazon S3 и нажмите кнопку Продолжить.

      Страница

    2. На странице Новое подключение (Amazon S3) выполните указанные ниже действия.

      1. Укажите идентификатор ключа доступа.
      2. Укажите секретный ключ доступа.
      3. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.

      Указать учетную запись Amazon S3

    3. На странице Исходное хранилище данных убедитесь, что в блоке Подключение выбрано только что созданное подключение Amazon S3.

    4. В разделе Файл или папка найдите папку и файл, которые необходимо скопировать. Выберите папку или файл и нажмите кнопку ОК.

    5. Укажите поведение копирования, установив параметры Рекурсивное копирование и Двоичное копирование. Выберите Далее.

    Снимок экрана: страница

  4. На странице Целевое хранилище данных выполните указанные ниже действия.

    1. Выберите + Создать подключение, затем выберите Azure Data Lake Storage Gen2 и нажмите Продолжить.

      Страница целевого хранилища данных

    2. На странице Новое подключение (Azure Data Lake Storage 2-го поколения) выберите свою учетную запись с поддержкой Data Lake Storage 2-го поколения из раскрывающегося списка "Имя учетной записи службы хранилища" и нажмите кнопку Создать, чтобы создать подключение.

      Укажите учетную запись Azure Data Lake Storage Gen2

    3. На странице Целевое хранилище данных выберите только что созданное подключение в блоке Подключение. В разделе Путь к папке введите copyfroms3 в качестве имени папки с выходными данными, а затем выберите Далее. ADF создаст при копировании соответствующую файловую систему ADLS 2-го поколения и вложенные папки, если они не существуют.

      Снимок экрана: страница

  5. На странице Параметры укажите CopyFromAmazonS3ToADLS в поле Имя задачи, а затем выберите Далее, чтобы использовать настройки по умолчанию.

    Страница параметров

  6. На странице Сводка проверьте параметры и нажмите кнопку Далее.

    Страница сводки

  7. На странице Развертывание выберите Мониторинг, чтобы отслеживать созданный конвейер (задачу).

  8. После успешного выполнения запуска конвейера вы увидите новый запуск конвейера, инициированный ручным триггером. Ссылки в столбце Имя конвейера позволят просмотреть подробные сведения о действиях и перезапустить конвейер.

    Мониторинг выполнений конвейера

  9. Чтобы просмотреть выполнение действий, связанных с выполнением конвейера, выберите ссылку CopyFromAmazonS3ToADLS в столбце Имя конвейера. Чтобы увидеть сведения об операции копирования, щелкните ссылку Сведения (значок очков) в столбце Название действия. Вы можете отслеживать такие сведения, как объем данных, копируемых из источника в приемное хранилище, пропускная способность данных, шаги выполнения с соответствующей длительностью и используемая конфигурация.

    Мониторинг выполнений действий

    Мониторинг деталей выполнения активности

  10. Чтобы обновить список, нажмите кнопку Обновить. Выберите Все выполнения конвейеров вверху, чтобы вернуться к режиму «Выполнения конвейеров».

  11. Убедитесь, что данные скопированы в вашу учетную запись Data Lake Storage Gen2.