Загрузка данных в Azure Data Lake Storage 1-го поколения c помощью службы "Фабрика данных Azure"

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Azure Data Lake Storage 1-го поколения (ранее известный как Azure Data Lake Store) — это крупномасштабный репозиторий корпоративного уровня для рабочих нагрузок анализа больших данных. Data Lake Storage 1-го поколения позволяет собирать данные любого размера, типа и с любой скоростью приема. Данные эксплуатационной и исследовательской аналитики хранятся в одном месте.

Фабрика данных Azure — это полностью управляемая облачная служба интеграции данных. С ее помощью можно заполнять озера данными из имеющейся системы и сократить время создания решений аналитики.

Фабрика данных Azure предоставляет следующие преимущества загрузки данных в Data Lake Storage 1-го поколения.

  • Простота настройки. Вам доступен интуитивно понятный 5-этапный мастер без необходимости создавать сценарии.
  • Расширенная поддержка хранилищ данных. Встроенная поддержка обширного набора локальных и облачных хранилищ данных. Подробный список см. в таблице Поддерживаемые хранилища данных и форматы.
  • Безопасность и совместимость. Данные передаются по протоколу HTTPS или ExpressRoute. Наличие глобальной службы гарантирует, что ваши данные никогда не покинут заданных географических границ.
  • Высокая производительность. Скорость загрузки данных в Data Lake Storage 1-го поколения — до 1 Гб/с. Дополнительные сведения см. в руководстве по настройке производительности действия копирования.

В этой статье показано, как с помощью средства копирования данных службы "Фабрика данных" загружать данные из Amazon S3 в Data Lake Storage 1-го поколения. Чтобы копировать данные из других типов хранилищ, необходимо выполнить аналогичные шаги.

Примечание.

Дополнительные сведения см. в статье Копирование данных в Azure Data Lake Storage Gen1 и из него с помощью фабрики данных Azure.

Необходимые компоненты

  • Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
  • Учетная запись в хранилище Data Lake Storage 1-го поколения. Если у вас нет учетной записи Data Lake Storage 1-го поколения, см. раздел Создание учетной записи Data Lake Storage 1-го поколения, чтобы узнать, как создать ее.
  • Amazon S3. В этой статье показано, как скопировать данные из Amazon S3. Вы можете использовать другие хранилища данных, выполнив аналогичные действия.

Создание фабрики данных

  1. Если вы еще не создали фабрику данных, выполните действия, описанные в кратком руководстве по созданию фабрики данных с помощью портала Azure и студии Фабрики данных Azure. После создания перейдите к фабрике данных на портале Azure.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Выберите Открыть на плитке Открыть Azure Data Factory Studio, чтобы запустить приложение интеграции данных в отдельной вкладке.

Загрузите данные в Azure Data Lake Storage 1-го поколения

  1. На домашней странице выберите элемент Принять, чтобы запустить средство копирования данных.

    Screenshot that shows the ADF home page.

  2. На странице Properties (Свойства) укажите CopyFromAmazonS3ToADLS в поле Task name (Имя задачи) и нажмите кнопку Далее.

    Properties page

  3. На странице Source data store (Исходное хранилище данных) нажмите кнопку + Create new connection (+ Создать подключение):

    Source data store page

    Выберите Amazon S3, а затем нажмите кнопку Continue (Продолжить).

    Source data store s3 page

  4. На странице Specify Amazon S3 connection (Указать подключение Amazon S3) выполните следующие действия:

    1. Укажите идентификатор ключа доступа.

    2. Укажите секретный ключ доступа.

    3. Выберите Готово.

      Screenshot shows the New Linked Service pane where you can enter values.

    4. Вы увидите новое подключение. Выберите Далее.

    Screenshot shows your new connection.

  5. На странице Выбор файла или папки входных данных перейдите в папку и файл, которые необходимо скопировать. Выберите папку или файл, щелкните Выбрать, а затем нажмите кнопку Далее:

    Choose input file or folder

  6. Выберите поведение копирования, установив флажки Copy files recursively (Копировать файлы рекурсивно) и Binary copy (Двоичное копирование) (скопируйте файлы "как есть"). Нажмите кнопку Далее:

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. На странице Destination data store (Целевое хранилище данных) щелкните + Create new connection (+ Создать подключение), затем выберите Azure Data Lake Storage Gen1 и щелкните Continue (Продолжить):

    Destination data store page

  8. На странице New Linked Service (Azure Data Lake Storage Gen1) (Новая связанная служба (Azure Data Lake Storage 1-го поколения)) выполните следующие действия:

    1. Выберите вашу учетную запись Azure Data Lake Storage 1-го поколения для имени учетной записи Data Lake Store.
    2. Укажите клиента и щелкните "Готово".
    3. Выберите Далее.

    Важно!

    В этом пошаговом руководстве для аутентификации учетной записи Data Lake Storage 1-го поколения используется управляемое удостоверение для ресурсов Azure. Не забудьте предоставить Управляемому удостоверению службы соответствующие разрешения в Azure Data Lake Storage 1-го поколения, выполнив эти инструкции.

    Specify Data Lake Storage Gen1 account

  9. На странице Choose the output file or folder (Выбор целевого файла или папки) введите copyfroms3 в качестве имени папки с выходными данными, а затем нажмите кнопку Далее

    Screenshot shows the folder path you enter.

  10. На странице Settings (Параметры) нажмите кнопку Далее:

    Settings page

  11. Просмотрите параметры на странице Summary (Сводка), а затем нажмите кнопку Далее.

    Summary page

  12. На странице развертывания выберите Monitor (Мониторинг), чтобы отслеживать конвейер (задачу).

    Deployment page

  13. Обратите внимание, что слева автоматически выбирается вкладка Мониторинг. В столбце Actions (Действия) содержатся ссылки на сведения о выполнении действий или повторный запуск конвейера:

    Monitor pipeline runs

  14. Щелкните ссылку View Activity Runs (Просмотр выполнений действий) в столбце Actions (Действия), чтобы просмотреть выполнения действий, связанные с этим запуском конвейера. В этом конвейере определено только одно действие (действие копирования), поэтому вы увидите только одну запись. Чтобы вернуться к представлению запусков конвейера, щелкните ссылку Конвейеры в верхней части окна. Щелкните Обновить, чтобы обновить список.

    Monitor activity runs

  15. Чтобы отслеживать сведения о выполнении каждого действия копирования, щелкните ссылку Сведения в разделе Actions (Действия) в представлении мониторинга действия. Вы можете отслеживать такие сведения, как объем данных, копируемых из источника в приемник, пропускная способность данных, шаги выполнения с длительностью и используемые параметры:

    Monitor activity run details

  16. Убедитесь, что данные скопированы в вашу учетную запись Data Lake Storage 1-го поколения.

    Verify Data Lake Storage Gen1 output

Перейдите к следующей статье, чтобы узнать о поддержке Azure Data Lake Storage 1-го поколения.