Настройка Google Cloud служба хранилища в действии копирования

В этой статье описывается, как использовать действие копирования в конвейере данных для копирования данных из Google Cloud служба хранилища.

Необходимые компоненты

Необходимо настроить свою учетную запись Google Cloud Storage следующим образом:

  1. Включите взаимодействие для учетной записи Google Cloud служба хранилища.

  2. Задайте проект по умолчанию, содержащий данные, которые нужно скопировать из целевого контейнера Google Cloud служба хранилища.

  3. Создайте учетную запись службы и определите соответствующие уровни разрешений, используя облачную систему IAM в GCP.

  4. Сгенерируйте ключи доступа для этой учетной записи службы.

    Screenshot showing the access key for Google Cloud Storage.

Необходимые разрешения

Для копирования данных из Google Cloud Storage убедитесь в том, что вам предоставлены следующие разрешения для операций с объектами: storage.objects.get и storage.objects.list.

Кроме того, для операций, таких как тестирование подключения и просмотр из корневого каталога, storage.buckets.list требуется разрешение.

Полный список ролей и связанных разрешений Google Cloud служба хранилища перейдите к ролям IAM для Облачных служба хранилища на сайте Google Cloud.

Поддерживаемые форматы

Google Cloud служба хранилища поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Поддерживаемая конфигурация

Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.

Общие

Для настройки вкладки "Общие" перейдите к разделу "Общие".

Оригинал

Следующие свойства поддерживаются для Google Cloud служба хранилища на вкладке "Источник" действия копирования.

Screenshot showing source tab and the list of properties.

Требуются следующие свойства:

  • Тип хранилища данных: выберите "Внешний".

  • Подключение. Выберите подключение Google Cloud служба хранилища из списка подключений. Если подключение не существует, создайте новое подключение Google Cloud служба хранилища, нажав кнопку "Создать".

  • Тип пути к файлу: вы можете выбрать путь к файлу, префикс, Wild карта или список файлов в качестве типа пути к файлу. Конфигурация каждого из этих параметров:

    • Путь к файлу: если выбрать этот тип, данные можно скопировать из заданного контейнера или папки или пути к файлу, указанному в пути к файлу.

    • Префикс: если выбрать этот тип, укажите контейнер и префикс.

      • Контейнер: укажите имя контейнера Google Cloud служба хранилища. Оно должно указываться обязательно.

      • Префикс: префикс для google Cloud служба хранилища имя ключа в указанном контейнере для фильтрации исходных файлов Google Cloud служба хранилища. Google Cloud служба хранилища ключи, имена которых начинаются с given_bucket/this_prefix выбора. Он использует фильтр на стороне службы Google Cloud служба хранилища, который обеспечивает лучшую производительность, чем дикий карта фильтр.

        Screenshot showing how to configure Prefix file path type.

    • Путь к файлу wild карта: если выбрать этот тип, укажите пути к контейнеру и wild карта.

      • Контейнер: укажите имя контейнера Google Cloud служба хранилища. Оно должно указываться обязательно.

      • Путь к wild карта: укажите папку или путь к файлу с помощью диких карта символов в заданном контейнере для фильтрации исходных папок или файлов.

        Допустимые знаки подстановки: * (соответствует нулю или нескольким символам) и ? (соответствует нулю или одному символу). Используйте ^ для экранирования знаков, если имя папки содержит подстановочный знак или этот escape-символ. Дополнительные примеры см. в примерах фильтров папок и файлов.

        Screenshot showing how to configure wildcard file path.

        • Путь к папке wild карта: укажите путь к папке с дикими символами карта в заданном контейнере для фильтрации исходных папок.

        • Wild карта имя файла: укажите имя файла с дикими карта символами в заданном контейнере и пути к папке (или путь к папке дикого карта), чтобы отфильтровать исходные файлы.

    • Список файлов: если выбрать этот тип, укажите путь к папке и путь к списку файлов, чтобы указать, чтобы скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку, который является относительным путем к настроенного пути. Дополнительные примеры см. в примерах списка файлов.

      Screenshot showing how to configure List of files.

      • Путь к папке: укажите путь к папке в заданном контейнере. Оно должно указываться обязательно.
      • Путь к списку файлов: укажите путь к текстовому файлу, который содержит список файлов, которые нужно скопировать.
  • Рекурсивно: указывает, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран этот проверка box, а назначение — это файловое хранилище, пустая папка или вложенная папка не копируются или не создаются в месте назначения.

  • Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите Параметры, чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

В разделе "Дополнительно" можно указать следующие поля:

  • Фильтруйте по последнему изменению: файлы фильтруются на основе указанных вами дат последнего изменения. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.

    • Время начала (UTC): файлы выбираются, если время последнего изменения больше или равно заданному времени.
    • Время окончания (UTC): файлы выбираются, если время последнего изменения меньше настроенного времени.

    Если время начала (UTC) имеет значение datetime, но время окончания (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых больше или равно значению даты и времени будут выбраны. Если время окончания (UTC) имеет значение datetime, но время начала (UTC) равно NULL, это означает, что файлы, последние измененные атрибуты которых меньше значения datetime будут выбраны. Свойства могут иметь значение NULL, что означает, что к данным не будет применен фильтр атрибутов файлов.

  • Включение обнаружения секций: укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. Он не выбирается по умолчанию и не поддерживается при использовании двоичного формата файла.

    • Корневой путь к секционированиям. Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы читать секционированные папки в виде столбцов данных.

      Если параметр не задан (по умолчанию), происходит следующее.

      • При использовании пути к файлу или списка файлов в источнике корневой путь секции — это настроенный путь.
      • При использовании фильтра папки wild карта корневой путь секции является вложенным путем до первого дикого карта.
      • При использовании префикса корневой путь секции является вложенным путем до последнего "/".

      Например, если вы настраиваете путь следующим root/folder/year=2020/month=08/day=27образом:

      • Если указать корневой путь секции в качестве root/folder/year=2020, действие копирования создаст еще два столбца месяца и день со значением "08" и "27" соответственно, в дополнение к столбцам внутри файлов.
      • Если корневой путь секции не указан, дополнительный столбец не будет создан.

      Screenshot showing Enable partition discovery.

  • Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

  • Дополнительные столбцы: добавление дополнительных столбцов данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего.

Назначение

Следующие свойства поддерживаются для Google Cloud служба хранилища на вкладке "Назначение" действия копирования.

Screenshot showing destination tab and the list of properties.

Требуются следующие свойства:

  • Тип хранилища данных: выберите "Внешний".
  • Подключение. Выберите подключение Google Cloud служба хранилища из списка подключений. Если подключение не существует, создайте новое подключение Google Cloud служба хранилища, нажав кнопку "Создать".
  • Путь к файлу: данные можно скопировать в заданный контейнер или указанный путь к папке и контейнеру.
  • Формат файла: выберите формат файла, примененный в раскрывающемся списке. Выберите Параметры, чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

В разделе "Дополнительно" можно указать следующие поля:

  • Поведение копирования: определяет поведение копирования, если источник является файлами из файлового хранилища данных. Вы можете выбрать поведение из раскрывающегося списка.

    • Неструктурированный иерархия: все файлы из исходной папки находятся на первом уровне целевой папки. У целевых файлов есть автоматически созданные имена.
    • Файлы слияния: объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае это автоматически созданное имя файла.
    • Сохранение иерархии: сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла в исходной папке идентичен относительному пути целевого файла в целевой папке.
  • Максимальное число одновременных подключений: это свойство указывает верхний предел параллельных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

Сопоставление

Сведения о настройке вкладки "Сопоставление" см. в разделе "Настройка сопоставлений" на вкладке "Сопоставление". Если в качестве формата файла выбран двоичный файл, сопоставление не будет поддерживаться.

Настройки

Для конфигурации вкладки Параметры перейдите к разделу "Настройка других параметров" на вкладке "Параметры".

Сводка таблицы

В следующих таблицах содержатся дополнительные сведения о действии копирования в Google Cloud служба хранилища.

Сведения об источнике

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Тип хранилища данных Тип хранилища данных. Внешний Да /
Соединение Подключение к исходному хранилищу данных. <подключение к Google Cloud служба хранилища> Да подключение
Тип пути к файлу Тип пути к файлу, используемый для получения исходных данных. Путь к файлу
Префикс
Путь к файлу в wild карта
Список файлов
Да /
Путь к файлу
Ведро Имя контейнера Google Cloud служба хранилища. <имя контейнера> Да bucketName
Каталог Путь к папке в указанном контейнере. <имя папки> No folderpath
Имя файла Имя файла в указанном контейнере и пути к папке. <имя файла> No fileName
Для префикса
Ведро Имя контейнера Google Cloud служба хранилища. <имя контейнера> Да bucketName
Prefix Префикс для имени ключа Google Cloud служба хранилища в заданном контейнере для фильтрации исходных файлов Google Cloud служба хранилища. <префикс> No prefix
Путь к файлу в Wild карта
Ведро Имя контейнера Google Cloud служба хранилища. <имя контейнера> Да bucketName
Путь к папке Wild карта Путь к папке с дикими карта символами в указанном контейнере для фильтрации исходных папок. <Путь к папке с дикими символами карта> No wild карта FolderPath
Wild карта Имя файла Имя файла с дикими карта символами в указанном контейнере и пути к папке (или путь к папке диких карта) для фильтрации исходных файлов. <имя файла с дикими карта символами> Да wild карта FileName
Список файлов
Ведро Имя контейнера Google Cloud служба хранилища. <имя контейнера> Да bucketName
Каталог Путь к папке в указанном контейнере. <имя папки> No folderpath
Путь к списку файлов Указывает, что нужно скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку. < Путь к списку файлов > No fileListPath
Формат файлов Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. / Да /
Рекурсивно Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если выбран этот проверка box, а назначение — это файловое хранилище, пустая папка или вложенная папка не копируются или не создаются в месте назначения. выбранный (по умолчанию) или отмена выбора No recursive
Фильтрация по последней измененной Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки. Время будет применено к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ. Эти свойства можно пропустить, что означает, что фильтр атрибутов файла не будет применен. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Включение обнаружения секций Указывает, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. выбран или не выбран (по умолчанию) No enablePartitionDiscovery:
true или false (по умолчанию)
Корневой путь раздела Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы считывать секционированные папки как столбцы данных. < корневой путь к секции > No partitionRootPath
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. <максимальное число одновременных подключений> No maxConcurrentConnections
Дополнительные столбцы Добавьте дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. • Имя
•Значение
No additionalColumns:
•Имя
•Значение

Сведения о назначении

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Тип хранилища данных Тип хранилища данных. Внешний Да /
Соединение Подключение к целевому хранилищу данных. <подключение к Google Cloud служба хранилища> Да подключение
Путь к файлу Путь к папке или файлу целевого файла. < Путь к папке или файлу> Да /
Ведро Имя контейнера Google Cloud служба хранилища. <имя контейнера> Да bucketName
Каталог Путь к папке в указанном контейнере. <имя папки> No folderpath
Имя файла Имя файла в указанном контейнере и пути к папке. <имя файла> No fileName
Поведение копирования Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных. • Плоская иерархия
• Слияние файлов
• Сохранение иерархии
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• СохранитьHierarchy
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. <максимальное число одновременных подключений> No maxConcurrentConnections

Следующие шаги