Поделиться через


Перемещение данных в хранилище BLOB-объектов Azure

Если рабочий процесс включает перемещение данных в хранилище BLOB-объектов Azure, убедитесь, что вы используете эффективную стратегию. Необходимо создать кэш, добавить контейнер BLOB-объектов в качестве целевого объекта хранения, а затем скопировать данные с помощью Azure HPC Cache.

В этой статье объясняются лучшие способы перемещения данных в BLOB-хранилище для использования с Azure HPC Cache.

Подсказка

Эта статья не относится к хранилищу BLOB-объектов, подключенному к NFS (целевым объектам хранилищаADLS-NFS). Любой метод на основе NFS можно использовать для заполнения контейнера BLOB ADLS-NFS до или после его добавления в HPC Cache. Для получения дополнительной информации прочитайте предварительную загрузку данных с использованием протокола NFS.

Имейте в виду следующие факты:

  • Azure HPC Cache использует специализированный формат хранения для упорядочивания данных в объектном хранилище. Поэтому целевой объект хранилища BLOB-объектов должен быть новым, пустым контейнером или контейнером BLOB-объектов, который ранее использовался для данных Azure HPC Cache.

  • Копирование данных с помощью Azure HPC Cache в целевой объект внутреннего хранилища более эффективно при использовании нескольких клиентов и параллельных операций. Простая команда копирования из одного клиента медленно перемещает данные.

Стратегии, описанные в этой статье, предназначены для заполнения пустого BLOB-контейнера или добавления файлов в ранее использованное хранилище.

Копирование данных с помощью Azure HPC Cache

Azure HPC Cache предназначен для одновременного обслуживания нескольких клиентов, поэтому для копирования данных через кэш следует использовать параллельные записи из нескольких клиентов.

Схема с несколькими клиентами, многопоточное перемещение данных: в левом верхнем углу значок для локального аппаратного хранилища имеет несколько стрелок, поступающих из него. Стрелки указывают на четыре клиентских компьютера. С каждого клиентского компьютера три стрелки указывают на кэш Azure HPC. Из Кэша HPC Azure несколько стрелок указывают на хранилище BLOB-объектов.

copy Обычно cp используются команды для передачи данных из одной системы хранилища в другую — это однопоточные процессы, которые копируют только один файл одновременно. Это означает, что файловый сервер получает только один файл за раз — это отходы ресурсов кэша.

В этом разделе описаны стратегии создания многопользовательской многопоточной системы копирования файлов для перемещения данных в хранилище BLOB-объектов с помощью Azure HPC Cache. В нем описываются понятия передачи файлов и точки принятия решений, которые можно использовать для эффективного копирования данных с помощью нескольких клиентов и простых команд копирования.

Он также объясняет некоторые служебные программы, которые могут помочь. Служебная msrsync программа может использоваться для частичной автоматизации процесса разделения набора данных на контейнеры и использования команд rsync. Скрипт parallelcp — это другая программа, которая считывает исходный каталог и выдает команды копирования автоматически.

Стратегическое планирование

При создании стратегии параллельного копирования данных следует понимать компромиссы по размеру файла, количеству файлов и глубине каталога.

  • Если файлы малы, то метрика интереса — это файлы в секунду.
  • Если файлы большие (10MiBi или больше), метрика интереса составляет байт в секунду.

Каждый процесс копирования имеет скорость пропускной способности и скорость передачи файлов, которая может измеряться по времени длины команды копирования и коэффициента размера файла и количества файлов. Объясняя, как измерять ставки вне области этого документа, но необходимо понять, будет ли вы иметь дело с небольшими или большими файлами.

К стратегиям параллельного приема данных с помощью Azure HPC Cache относятся следующие стратегии:

Дальнейшие действия

После настройки хранилища узнайте, как клиенты могут подключить кэш.