Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Если рабочий процесс включает перемещение данных в хранилище BLOB-объектов Azure, убедитесь, что вы используете эффективную стратегию. Необходимо создать кэш, добавить контейнер BLOB-объектов в качестве целевого объекта хранения, а затем скопировать данные с помощью Azure HPC Cache.
В этой статье объясняются лучшие способы перемещения данных в BLOB-хранилище для использования с Azure HPC Cache.
Подсказка
Эта статья не относится к хранилищу BLOB-объектов, подключенному к NFS (целевым объектам хранилищаADLS-NFS). Любой метод на основе NFS можно использовать для заполнения контейнера BLOB ADLS-NFS до или после его добавления в HPC Cache. Для получения дополнительной информации прочитайте предварительную загрузку данных с использованием протокола NFS.
Имейте в виду следующие факты:
Azure HPC Cache использует специализированный формат хранения для упорядочивания данных в объектном хранилище. Поэтому целевой объект хранилища BLOB-объектов должен быть новым, пустым контейнером или контейнером BLOB-объектов, который ранее использовался для данных Azure HPC Cache.
Копирование данных с помощью Azure HPC Cache в целевой объект внутреннего хранилища более эффективно при использовании нескольких клиентов и параллельных операций. Простая команда копирования из одного клиента медленно перемещает данные.
Стратегии, описанные в этой статье, предназначены для заполнения пустого BLOB-контейнера или добавления файлов в ранее использованное хранилище.
Копирование данных с помощью Azure HPC Cache
Azure HPC Cache предназначен для одновременного обслуживания нескольких клиентов, поэтому для копирования данных через кэш следует использовать параллельные записи из нескольких клиентов.
copy Обычно cp используются команды для передачи данных из одной системы хранилища в другую — это однопоточные процессы, которые копируют только один файл одновременно. Это означает, что файловый сервер получает только один файл за раз — это отходы ресурсов кэша.
В этом разделе описаны стратегии создания многопользовательской многопоточной системы копирования файлов для перемещения данных в хранилище BLOB-объектов с помощью Azure HPC Cache. В нем описываются понятия передачи файлов и точки принятия решений, которые можно использовать для эффективного копирования данных с помощью нескольких клиентов и простых команд копирования.
Он также объясняет некоторые служебные программы, которые могут помочь. Служебная msrsync программа может использоваться для частичной автоматизации процесса разделения набора данных на контейнеры и использования команд rsync. Скрипт parallelcp — это другая программа, которая считывает исходный каталог и выдает команды копирования автоматически.
Стратегическое планирование
При создании стратегии параллельного копирования данных следует понимать компромиссы по размеру файла, количеству файлов и глубине каталога.
- Если файлы малы, то метрика интереса — это файлы в секунду.
- Если файлы большие (10MiBi или больше), метрика интереса составляет байт в секунду.
Каждый процесс копирования имеет скорость пропускной способности и скорость передачи файлов, которая может измеряться по времени длины команды копирования и коэффициента размера файла и количества файлов. Объясняя, как измерять ставки вне области этого документа, но необходимо понять, будет ли вы иметь дело с небольшими или большими файлами.
К стратегиям параллельного приема данных с помощью Azure HPC Cache относятся следующие стратегии:
Копирование вручную. Вы можете вручную создать многопоточное копирование на клиенте, выполнив несколько команд копирования одновременно в фоновом режиме для предопределенных наборов файлов или путей. Дополнительные сведения см. в методе ручного копирования в Azure HPC Cache .
Частично автоматизированное копирование с помощью
msrsync-msrsyncпрограммы-оболочки, которая выполняет несколько параллельныхrsyncпроцессов. Дополнительные сведения см. в статье о приеме данных в Azure HPC Cache — метод msrsync.Копирование с помощью скриптов
parallelcp. Узнайте, как создать и запустить скрипт параллельного копирования в приеме данных Azure HPC Cache — метод параллельного копирования.
Дальнейшие действия
После настройки хранилища узнайте, как клиенты могут подключить кэш.