Руководство: Копирование данных на Azure Data Box Disk и их проверка

Внимание

Azure Data Box теперь поддерживает назначение уровня доступа на уровне объектов Blob. Действия, содержащиеся в этом руководстве, отражают обновленный процесс копирования данных и предназначены для блочных блобов.

Назначение уровня доступа не поддерживается при копировании данных с помощью Data Box Split Copy Tool. Если для вашего варианта использования требуется назначение уровня доступа, выполните действия, содержащиеся в разделе "Копирование данных на диски ", чтобы скопировать данные на соответствующий уровень доступа с помощью служебной программы Robocopy.

Сведения о том, как определить соответствующий уровень доступа для данных блочного BLOB-объекта, см. в разделе "Определение соответствующих уровней доступа для блочных BLOB-объектов".

Сведения, содержащиеся в этом разделе, относятся к заказам, размещенным после 1 апреля 2024 года.

Внимание

Эта статья ссылается на CentOS, дистрибутив Linux, поддержка которого прекращена. Пожалуйста, рассмотрите возможность использования и планирования соответствующим образом.

В этом руководстве описывается копирование данных с хост-компьютера и создание контрольных сумм с целью проверки целостности данных.

В этом руководстве описано следующее:

  • Определение соответствующих уровней доступа для блочных BLOB-объектов
  • Копирование данных в Data Box Disk
  • Проверка данных

Предварительные условия

Перед тем как начать, убедитесь в следующем.

  • Вы завершили Учебник: установка и настройка Azure Data Box Disk.
  • Диски разблокированы и подключены к клиентскому компьютеру.
  • Клиентский компьютер, используемый для копирования данных на диски, выполняет поддерживаемую операционную систему.
  • Предполагаемый тип хранилища для данных соответствует поддерживаемым типам хранилища.
  • Вы рассмотрели ограничения на управляемые диски в Azure по размерам объектов.

Определение соответствующих уровней доступа для блочных BLOB-объектов

Внимание

Сведения, содержащиеся в этом разделе, относятся к заказам, размещенным после 1 апреля 2024 года.

Azure Storage позволяет хранить данные блочных BLOB-объектов на нескольких уровнях доступа в одной учетной записи хранения. Эта возможность позволяет упорядочивать и хранить данные более эффективно на основе частоты доступа. В следующей таблице содержатся сведения и рекомендации об уровнях доступа Azure Storage.

Уровень Рекомендация Лучшие практики
Горячий Полезно для часто используемых или изменяемых данных в Интернете. Этот уровень имеет самые высокие затраты на хранение, но самые низкие затраты на доступ. Данные на этом уровне должны находиться в регулярном и активном использовании.
Круто Полезно для доступа к интернет-данным или редко изменяемых. Этот уровень имеет более низкие затраты на хранение и более высокие затраты на доступ, чем горячий уровень. Данные на этом уровне должны храниться не менее 30 дней.
Холодный Полезно для данных в интернете, к которым редко обращаются или которые иногда изменяют, но при этом требуется быстрое извлечение. Этот уровень имеет более низкие затраты на хранение и более высокие затраты на доступ, чем холодный уровень. Данные на этом уровне должны храниться не менее 90 дней.
Архив Полезно для офлайн-данных, которые редко используются и имеют низкие требования к задержке. Данные на этом уровне должны храниться не менее 180 дней. Данные, удаленные из архивного уровня в течение 180 дней, подлежат досрочному удалению.

Дополнительные сведения о уровнях доступа к BLOB-объектам см. в разделе "Уровни доступа" для данных BLOB-объектов. Для более подробных рекомендаций см. Лучшие практики использования уровней доступа к BLOB-объектам.

Данные блочного BLOB-объекта можно передать на соответствующий уровень доступа, скопировав их в соответствующую папку в Data Box Disk. Этот процесс подробно рассматривается в разделе "Копирование данных на диски ".

Копирование данных на диски

Перед копированием данных на диски, ознакомьтесь со следующими рекомендациями.

  • Вы несете ответственность за копирование локальных данных в общую папку, соответствующую соответствующему формату данных. Например, скопируйте данные блочных BLOB-объектов в общую папку BlockBlob . Скопируйте VHD в хранилище PageBlob. Если локальный формат данных не соответствует соответствующей папке выбранного типа хранилища, передача данных в Azure завершается сбоем на следующем шаге.

  • Невозможно скопировать данные непосредственно в корневую папку общего ресурса. Вместо этого создайте папку в соответствующей общей папке и скопируйте в нее данные.

    • Папки, расположенные в корне общего ресурса PageBlob, соответствуют контейнерам в вашей учетной записи хранения. Новый контейнер создается для любой папки, имя которой не соответствует существующему контейнеру в вашей учетной записи хранения.

    • Папки, расположенные в AzFile общей папке root соответствуют Azure общим папкам. Для любой папки создается новый файловый ресурс, имя которого не соответствует существующему файловому ресурсу в вашей учетной записи.

    • Корневой уровень общей папки BlockBlob содержит одну папку, соответствующую каждому уровню доступа. При копировании данных в общую папку BlockBlob создайте вложенную папку в папке верхнего уровня, соответствующую требуемому уровню доступа. Как и в общем ресурсе PageBlob , для любой папки создается новый контейнер, имя которого не соответствует существующему контейнеру. Данные в контейнере копируются на уровень иерархии, соответствующий главному родительскому элементу вложенной папки.

      Контейнер также создается для любой папки, размещенной в корневом каталоге общей папки BlockBlob, и данные, содержащиеся в нем, копируются на уровень доступа по умолчанию контейнера. Чтобы убедиться, что данные копируются на нужный уровень доступа, не создавайте папки на корневом уровне.

    Внимание

    Данные, загруженные в архивный уровень, остаются недоступными и их необходимо восстановить для чтения или изменения. Данные, скопированные на архивный уровень, должны оставаться не менее 180 дней или подлежат досрочному удалению. Уровень архива не поддерживается для учетных записей ZRS, GZRS или RA-GZRS.

  • При копировании данных убедитесь, что размер данных соответствует ограничениям, указанным в статье Ограничения службы хранилищ Azure и Data Box Disk.

  • Не отключайте шифрование BitLocker на дисках Data Box. Отключение шифрования BitLocker приводит к сбою отправки после возврата дисков. Отключение BitLocker также оставляет диски в разблокированном состоянии, создавая проблемы безопасности.

  • Чтобы сохранить метаданные, такие как списки управления доступом (ACLs), метки времени и атрибуты файлов при передаче данных в Azure Files, следуйте инструкциям в статье Сохранение списков управления доступом (ACLs), атрибутов и меток времени с помощью Azure Data Box Disk.

  • Если вы используете как Data Box Disk, так и другие приложения для одновременной отправки данных, возможно, возникают сбои заданий и повреждение данных.

    Внимание

    Если при создании заказа вы указали управляемые диски в качестве одного из назначений для хранения данных, то действуют условия, приведенные в следующем разделе.

  • Убедитесь, что виртуальные жесткие диски (VHD), отправленные в предварительно созданные папки, имеют уникальные имена в группах ресурсов. Управляемые диски должны иметь уникальные имена в группе ресурсов во всех предварительно созданных папках в Data Box Disk. Если вы используете несколько дисков Data Box, имена управляемых дисков должны быть уникальными для всех папок и дисков. При обнаружении виртуальных жестких дисков с повторяющимися именами только один преобразуется в управляемый диск с таким именем. Остальные виртуальные жесткие диски отправляются в качестве страничных блобов в учетную запись промежуточного хранилища.

  • Всегда копируйте VHD в одну из предварительно созданных папок. Виртуальные жесткие диски, размещенные вне этих папок или в созданной вами папке, загружаются в учетные записи Azure Storage в виде блоб-объектов страниц вместо управляемых дисков.

  • Для создания управляемых дисков можно загружать только фиксированные виртуальные диски. Динамические виртуальные жесткие диски, разностные виртуальные жесткие диски и VHDX-файлы не поддерживаются.

  • Инструменты для разделения, копирования и проверки Data Box Disk, DataBoxDiskSplitCopy.exe и DataBoxDiskValidation.cmd, сообщают о сбоях при обработке длинных путей. Эти сбои часто возникают, если длинные пути не включены в клиенте, а пути копирования данных и имена файлов превышают 256 символов. Чтобы избежать этих сбоев, следуйте указаниям в статье включение длинных путей на вашем клиенте Windows.

Внимание

PowerShell ISE не поддерживается для инструментов Data Box Disk

Выполните следующие действия, чтобы подключить и скопировать данные с компьютера на Data Box Disk.

  1. Просмотрите содержимое разблокированного диска. Список предварительно созданных папок и вложенных папок на диске зависит от параметров, которые вы выбираете при размещении заказа Data Box Disk. Создание дополнительных папок не допускается, так как копирование данных в созданную пользователем папку приводит к сбоям отправки.

    Выбранное целевое хранилище Тип учетной записи хранения Тип учетной записи промежуточного хранения Папки и вложенные папки
    учетная запись хранения GPv1 или GPv2 Неприменимо Блоб-блок (BlockBlob)
    • Архив
    • холод
    • Круто
    • горячий
    PageBlob
    AzureFile
    учетная запись хранения Учетная запись Blob-хранилища Неприменимо Блоб-блок (BlockBlob)
    • Архив
    • холод
    • Круто
    • горячий
    Управляемые диски Неприменимо GPv1 или GPv2 ManagedDisk
    • PremiumSSD
    • StandardSSD
    • StandardHDD
    учетная запись хранения
    Управляемые диски
    GPv1 или GPv2 GPv1 или GPv2 Блоб-блок (BlockBlob)
    • Архив
    • холод
    • Круто
    • горячий
    PageBlob
    AzureFile
    ManagedDisk
    • PremiumSSD
    • StandardSSD
    • StandardHDD
    Учетная запись хранения
    Управляемые диски
    Учетная запись Blob-хранилища GPv1 или GPv2 Блоб-блок (BlockBlob)
    • Архив
    • холод
    • Круто
    • горячий
    ManagedDisk
    • PremiumSSD
    • StandardSSD
    • StandardHDD

    На следующем снимка экрана показан порядок, в котором указана учетная запись хранения GPv2 и уровень архива:

    Снимок экрана: содержимое диска.

  2. Скопируйте данные VHD или VHDX в папку PageBlob . Все файлы, скопированные в папку PageBlob копируются в контейнер $root по умолчанию в учетной записи Azure Storage. Контейнер создается в хранилище Azure для каждой вложенной папки в папке PageBlob.

    Скопируйте данные, которые будут помещены в общие папки Azure в вложенную папку AzureFile. Все файлы, скопированные в папку AzureFile , копируются в виде файлов в контейнер типа databox-format-[GUID]по умолчанию, например databox-azurefile-7ee19cfb3304122d940461783e97bf7b4290a1d7.

    Невозможно скопировать файлы непосредственно в корневую папку BlockBlob. В корневой папке вы найдете вложенную папку, соответствующую каждому из доступных уровней доступа. Чтобы скопировать данные BLOB-объектов, сначала необходимо выбрать папку, соответствующую одному из уровней доступа. Затем создайте вложенную папку в папке этого уровня для хранения данных. Наконец, скопируйте данные в только что созданную вложенную папку. Новый вложенный каталог представляет собой контейнер, созданный в учетной записи хранения во время процесса приема. Ваши данные загружаются в этот контейнер в виде блобов. Как и в общем ресурсе AzureFile, создается новый контейнер хранилища BLOB-объектов для каждой вложенной папки, расположенной в корневой папке BlockBlob. Данные в этих папках сохраняются в соответствии с уровнем доступа учетной записи хранения по умолчанию.

    Прежде чем копировать данные, необходимо переместить все файлы и папки, существующие в корневом каталоге, в другую папку.

    Внимание

    Все контейнеры, большие двоичные объекты и имена файлов должны соответствовать соглашениям об именовании Azure. Если эти правила не соблюдаются, передача данных в Azure завершится ошибкой.

  3. При копировании файлов убедитесь, что файлы не превышают 7 ТиБ для блочных BLOB-объектов, 7 ТиБ для страничных BLOB-объектов и 4 ТиБ для Azure Files.

  4. Для копирования данных можно использовать функции перетаскивания в Проводнике. Также можно использовать любое средство SMB для копирования файлов, например Robocopy.

    Одним из преимуществ использования средства копирования файлов является возможность инициировать несколько заданий копирования, как в следующем примере с помощью средства Robocopy:

    Robocopy <source> <destination> * /MT:64 /E /R:1 /W:1 /NFL /NDL /FFT /Log:c:\RobocopyLog.txt

    Примечание.

    Параметры, используемые в этом примере, основаны на среде, используемой во время внутреннего тестирования. Ваши параметры и значения, скорее всего, отличаются.

    Параметры и опции для команды используются следующим образом:

    Параметры/Опции Описание
    Источник Указание пути к исходному каталогу.
    Назначение Укажите путь к целевому каталогу.
    /E Копирует подкаталоги, включая пустые каталоги.
    /MT[:n] Создает копии с несколькими потоками, используя n потоков, где n является целым числом от 1 до 128.
    Значение по умолчанию для n равно 8.
    /R: <n> Указание количества повторных попыток для неудавшихся копий.
    Значение n по умолчанию равно 1 000 000 повторных попыток.
    /W: <n> Указание времени ожидания между повторными попытками в секундах.
    Значение по умолчанию n равно 30 и эквивалентно времени ожидания 30 секунд.
    /NFL Указывает, что имена файлов не регистрируются.
    /NDL Указывает, что имена каталогов не регистрируются.
    /FFT Предполагает время FAT-файла с точностью разрешения в два секунды.
    /Log:<файл журнала> Записывает выходные данные состояния в файл журнала.
    Любой существующий файл журнала перезаписан.

    Можно использовать несколько дисков параллельно с несколькими заданиями, выполняемыми на каждом диске. Помните, что повторяющиеся имена файлов перезаписываются или приводят к ошибке копирования.

  5. Проверьте статус копирования, когда задание находится в процессе выполнения. В следующем примере показаны выходные данные команды robocopy для копирования файлов в Data Box Disk.

    
    C:\Users>robocopy
    -------------------------------------------------------------------------------
       ROBOCOPY     ::     Robust File Copy for Windows
    -------------------------------------------------------------------------------
    
       Started : Thursday, March 8, 2018 2:34:53 PM
          Simple Usage :: ROBOCOPY source destination /MIR
    
                source :: Source Directory (drive:\path or \\server\share\path).
           destination :: Destination Dir  (drive:\path or \\server\share\path).
                  /MIR :: Mirror a complete directory tree.
    
      For more usage information run ROBOCOPY /?    
    
      ****  /MIR can DELETE files as well as copy them !
    
    C:\Users>Robocopy C:\Repository\guides \\10.126.76.172\AzFileUL\templates /MT:64 /E /R:1 /W:1 /FFT 
    -------------------------------------------------------------------------------
       ROBOCOPY     ::     Robust File Copy for Windows
    -------------------------------------------------------------------------------
    
       Started : Thursday, March 8, 2018 2:34:58 PM
        Source : C:\Repository\guides\
          Dest : \\10.126.76.172\devicemanagertest1_AzFile\templates\
    
         Files : *.*
    
       Options : *.* /DCOPY:DA /COPY:DAT /MT:8 /R:1000000 /W:30
    
     ------------------------------------------------------------------------------
    
     100%    New File    206    C:\Repository\guides\article-metadata.md
     100%    New File    209    C:\Repository\guides\content-channel-guidance.md
     100%    New File    732    C:\Repository\guides\index.md
     100%    New File    199    C:\Repository\guides\pr-criteria.md
     100%    New File    178    C:\Repository\guides\pull-request-co.md
     100%    New File    250    C:\Repository\guides\pull-request-ete.md
     100%    New File    174    C:\Repository\guides\create-images-markdown.md
     100%    New File    197    C:\Repository\guides\create-links-markdown.md
     100%    New File    184    C:\Repository\guides\create-tables-markdown.md
     100%    New File    208    C:\Repository\guides\custom-markdown-extensions.md
     100%    New File    210    C:\Repository\guides\file-names-and-locations.md
     100%    New File    234    C:\Repository\guides\git-commands-for-master.md
     100%    New File    186    C:\Repository\guides\release-branches.md
     100%    New File    240    C:\Repository\guides\retire-or-rename-an-article.md
     100%    New File    215    C:\Repository\guides\style-and-voice.md
     100%    New File    212    C:\Repository\guides\syntax-highlighting-markdown.md
     100%    New File    207    C:\Repository\guides\tools-and-setup.md
     ------------------------------------------------------------------------------
    
                    Total    Copied   Skipped  Mismatch    FAILED    Extras
         Dirs :         1         1         1         0         0         0
        Files :        17        17         0         0         0         0
        Bytes :     3.9 k     3.9 k         0         0         0         0
        Times :   0:00:05   0:00:00                       0:00:00   0:00:00
    
        Speed :                5620 Bytes/sec.
        Speed :               0.321 MegaBytes/min.
        Ended : Thursday, August 31, 2023 2:34:59 PM
    
    

    Чтобы оптимизировать производительность, при копировании данных используйте указанные ниже параметры robocopy.

    Платформа В основном небольшие файлы < 512 КБ Главным образом файлы среднего размера (от 512 КБ до 1 МБ) В основном большие файлы > 1 МБ
    Data Box Disk 4 сеанса Robocopy*
    16 потоков на сеанс
    2 сеанса Robocopy*
    16 потоков на сеанс
    2 сеанса Robocopy*
    16 потоков на сеанс

    * Каждый сеанс Robocopy может иметь не более 7000 каталогов и 150 миллионов файлов.

    Дополнительные сведения о команде Robocopy см. в статье о Robocopy и нескольких примерах .

  6. Откройте целевую папку, а затем просмотрите и проверьте скопированные файлы. При наличии ошибок во время копирования скачайте файлы журналов для устранения неполадок. Выходные данные команды robocopy указывают расположение файлов журнала.

Разделение данных и их копирование на диски

Инструмент "Data Box Split Copy tool" помогает разделить и копировать данные на два или более диска Azure Data Box. Средство доступно только для использования на Windows компьютере. Эта необязательная процедура полезна при наличии большого набора данных, который необходимо разделить и скопировать на несколько дисков.

Внимание

Инструмент "Data Box Split Copy" также может проверять ваши данные. Во время использования инструмента Data Box Split Copy для копирования данных вы можете пропустить шаг Проверка данных.

Назначение уровня доступа не поддерживается при копировании данных с помощью Data Box Split Copy Tool. Если для вашего варианта использования требуется назначение уровня доступа, выполните действия, содержащиеся в разделе "Копирование данных на диски ", чтобы скопировать данные на соответствующий уровень доступа с помощью служебной программы Robocopy.

Инструмент Data Box Split Copy не поддерживается с управляемыми дисками.

  1. На компьютере Windows убедитесь, что инструмент Data Box Split Copy загружен и извлечен в локальную папку. Это средство входит в набор инструментов Data Box Disk для Windows.

  2. Откройте Проводник файлов. Обратите внимание на диск источника данных и буквы дисков, назначенные Data Box Disk.

    Скриншот источника данных и букв дисков, назначенных Data Box Disk.

  3. Определите исходные данные для копирования. Так, в нашем примере:

    • Были идентифицированы следующие данные блочного BLOB-объекта.

      Снимок экрана: данные блочного BLOB-объекта, определенные для процесса копирования.

    • Были идентифицированы данные блоба страницы.

      Снимок экрана: данные большого двоичного объекта страницы, определенные для процесса копирования.

  4. Перейдите в папку, в которой извлекается программное обеспечение и найдите SampleConfig.json файл. Этот файл — это файл, доступный только для чтения, который можно изменить и сохранить.

    Снимок экрана: расположение примера файла конфигурации.

  5. Измените файл SampleConfig.json.

    • Укажите имя задания. Папка с этим именем создается на Data Box Disk. Имя также используется для создания контейнера в учетной записи хранения Azure, связанной с этими дисками. Имя задания должно соответствовать соглашениям об именовании контейнеров Azure.

    • Укажите исходный путь, запишите формат пути в файле SampleConfigFile.json.

    • Введите буквы дисков, соответствующие целевым дискам. Данные взяты из исходного пути и копируются на нескольких дисках.

    • Укажите путь для файлов журналов. По умолчанию файлы журналов отправляются в каталог, где .exe находится файл.

    • Чтобы проверить формат этого файла, перейдите в JSONlint.

      Снимок экрана: содержимое примера файла конфигурации.

    • Сохраните файл как ConfigFile.json.

      Снимок экрана: расположение файла конфигурации замены.

  6. Запустите окно командной строки с повышенными привилегиями и выполните DataBoxDiskSplitCopy.exe, используя следующую команду.

    DataBoxDiskSplitCopy.exe PrepImport /config:ConfigFile.json
    
  7. При появлении запроса нажмите любую клавишу, чтобы продолжить работу средства.

    Снимок экрана: окно командной строки, в котором выполняется средство разделения копирования.

  8. После разделения и копирования набора данных отображается сводка инструмента Split Copy, как это показано в следующем примере выходных данных.

    Скриншот, показывающий сводку, предоставленную после успешного выполнения инструмента Split Copy.

  9. Убедитесь, что данные правильно разделены по целевым дискам.

    Снимок экрана, показывающий правильное разделение данных на первых двух целевых дисках.

    Снимок экрана, показывающий правильное разделение данных на второй из двух целевых дисков.

    Проверьте содержимое H: диска и убедитесь, что создаются две вложенные папки, соответствующие данным формата блочного BLOB-объекта и страничного BLOB-объекта.

    Снимок экрана: две вложенные папки, созданные в соответствии с данными формата блочных BLOB-объектов и страничных BLOB-объектов.

  10. Если сеанс копирования завершается сбоем, используйте следующую команду, чтобы восстановить и возобновить работу:

    DataBoxDiskSplitCopy.exe PrepImport /config:ConfigFile.json /ResumeSession

Если при использовании средства разделения копирования возникают ошибки, выполните действия, описанные в статье об ошибках средства разделения копирования .

Внимание

Инструмент Data Box Split Copy также проверяет ваши данные. Во время использования инструмента Data Box Split Copy для копирования данных вы можете пропустить шаг Проверка данных. Средство разделения копирования не поддерживается с управляемыми дисками.

Проверка данных

Если для копирования данных не использовалось средство разделения данных Data Box, необходимо проверить данные. Проверьте данные, выполнив следующие действия для каждого диска Data Box. Если во время проверки возникают ошибки, выполните действия, описанные в статье об устранении ошибок проверки.

  1. Выполните DataBoxDiskValidation.cmd проверку контрольной суммы в папке DataBoxDiskImport диска. Это средство доступно только для среды Windows. Пользователям Linux необходимо проверить, соответствуют ли исходные данные, скопированные на диск, предварительным требованиям Azure Data Box.

    Screenshot с выводом средства проверки Data Box Disk.

  2. При появлении запроса выберите соответствующий параметр проверки. Мы рекомендуем всегда проверять файлы и создавать контрольные суммы с помощью варианта 2. Выйдите из командного окна после завершения скрипта. Время, необходимое для завершения проверки, зависит от размера данных. Средство уведомляет вас об ошибках, возникших во время проверки и создания контрольной суммы, и предоставляет ссылку на журналы ошибок.

    Снимок экрана: неудачная попытка выполнения и указание расположения соответствующего файла журнала.

    Совет

    • Сбросьте инструмент между двумя запусками.
    • Процесс контрольной суммы может занять больше времени, если у вас есть большой набор данных, содержащий множество файлов, которые занимают относительно мало емкости хранилища. Если вы проверяете файлы и пропускаете создание контрольной суммы, перед удалением всех копий следует независимо проверить целостность данных в Data Box Disk. Эта проверка в идеале включает создание контрольных сумм.

Следующие шаги

В этом руководстве вы узнали, как выполнить следующие задачи с помощью Azure Data Box Disk:

  • Копирование данных в Data Box Disk
  • Проверка целостности данных

Перейдите к следующему руководству, чтобы узнать, как вернуть Data Box Disk и проверить загрузку данных в Azure.