Перенос локальных данных Hadoop в Azure Data Lake Storage 2-го поколения с помощью платформы WANdisco LiveData для Azure

Платформа WANdisco LiveData для Azure переносит петабайты локальных данных Hadoop в файловую систему Azure Data Lake Storage 2-го поколения, не прерывая операции с данными и без простоев. Непрерывные проверки со стороны платформы предотвращают потерю данных, сохраняя их согласованными на обеих концах передачи, даже когда они преобразуются.

Платформа состоит из двух служб. LiveData Migrator для Azure для переноса активно используемых данных из локальных сред в службу хранилища Azure и LiveData Plane для Azure для согласованной репликации всех измененных и поступающих данных.

Иллюстрация: обзор платформы LiveData

Управляйте обеими службами с помощью портала Azure и интерфейса командной строки Azure. Каждая служба соответствует той же модели выставления счетов с оплатой по мере использования, что и все другие службы Azure: потребление данных в LiveData Platform для Azure отображается в ежемесячном счете Azure, который предоставит метрики использования.

В отличие от миграции данных в автономном режиме путем копирования статических сведений в Azure Data Box или с использованием таких средств Hadoop, таких как DistCp, при миграции в подключенном режиме с помощью WANdisco LiveData для Azure вы можете продолжать эксплуатацию своих бизнес-систем обычным образом. Ваши среды обработки больших данных смогут продолжать функционировать даже при переносе их содержимого в Azure.

Основные преимущества платформы WANdisco LiveData для Azure

Платформа WANdisco LiveData для Azure с широким сетевым механизмом согласованности позволяет достичь единообразия данных и проводить репликацию данных в режиме реального времени в большом масштабе. Дополнительные сведения см. в следующем видео:

Ниже перечислены основные преимущества платформы.

  • Точность данных. Сквозная проверка данных предотвращает их потерю и обеспечивает пригодность переданных данных для использования.

  • Согласованность данных. Автоматическое согласование объемов данных между средами, даже в процессе постоянного изменения.

  • Эффективность данных. Непрерывное перенос больших объемов данных с полным контролем потребления пропускной способности.

  • Устранение простоев. Вы можете свободно создавать, изменять, читать и удалять данные в других приложениях во время миграции без необходимости прерывать бизнес-операции во время передачи данных в Azure. Просто продолжайте работать с приложениями, инфраструктурой аналитики, заданиями приема данных и другими процессами.

  • Простое использование. Используйте интеграцию платформы в Azure для создания, настройки, создания расписания и отслеживания хода автоматической миграции. Кроме того, при необходимости можно настроить выборочную репликацию данных, метаданные Hive, безопасность данных и конфиденциальность.

Основные возможности платформы WANdisco LiveData для Azure

Ниже перечислены основные функции и характеристики платформы.

  • Миграция метаданных. В дополнение к данным HDFS переносите метаданные (из Hive и других хранилищ) с помощью средства переноса LiveData Migrator для Azure.

  • Запланированная передача. Используйте LiveData Migrator для Azure для управления и автоматизации процесса передачи данных, чтобы избавиться от необходимости вручную вносить изменения в данные.

  • Kerberos. LiveData Migrator для Azure поддерживает кластеры Kerberos.

  • Шаблоны исключений. Создавайте в LiveData Migrator для Azure правила для предотвращения переноса файлов определенных размеров или имен (определенных с использованием стандартных масок) в целевое хранилище. Создавайте шаблоны исключений на портале Azure или с помощью CLI и применяйте их к любому количеству миграций.

  • Сопоставление путей. Определяйте альтернативные целевые пути для определенных целевых файловых систем, по которым передаваемые данные будут автоматически перенесены в указанные каталоги.

  • Управление пропускной способностью. Настройте максимальный объем пропускной способности сети, который может использовать LiveData Migrator для Azure, чтобы предотвратить чрезмерное использование пропускной способности.

  • Исключения. Определите запросы шаблонов, которые предотвращают перенос файлов и каталогов, соответствующих критериям, что позволяет выборочно переносить данные из исходных систем.

  • Метрики. Просмотр в LiveData Migrator для Azure сведений о переносе данных, таких как количество файлов, переданных за период времени, исключенные пути, элементы, которые не удалось перенести, и т. д.

    LiveData

Быстрая миграция больших данных без риска

Первая служба платформы WANdisco LiveData для Azure — это LiveData Migrator для Azure, которая обеспечивает перенос данных из локальных сред в службу хранилища Azure. После развертывания LiveData Migrator на локальном кластере Hadoop он автоматически создаст наиболее подходящую конфигурацию файловой системы. После этого необходимо предоставить Kerberos сведения о системе. После этого LiveData Migrator для Azure будет готов к переносу данных в службу хранилища Azure.

Архитектура LiveData Migrator для Azure

Прежде чем приступить к работе с LiveData Migrator для Azure, ознакомьтесь с этими предварительными сведениями.

Чтобы выполнить миграцию:

  1. В Azure CLI:

    • Зарегистрируйте поставщика ресурсов WANdisco в Azure CLI, запустив az provider register --namespace Wandisco.Fusion --consent-to-permissions.
    • Примите условия выставления счетов платформы LiveData, запустив az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>.
  2. Разверните экземпляр LiveData Migrator с портала Azure в локальном кластере Hadoop. (Вам не нужно вносить изменения в кластер или перезапустить его.)

    Создание экземпляра LiveData Migrator

    Примечание.

    С помощью WANdisco LiveData Migrator для Azure можно создать тестовый кластер Hadoop.

  3. Настройте сведения о Kerberos, если это применимо.

  4. Определите целевую учетную запись хранения с поддержкой Azure Data Lake Storage 2-го поколения.

    Создание целевого объекта LiveData Migrator

  5. Определите расположение данных, которые необходимо перенести, например: /user/hive/warehouse

    Создание миграции LiveData Migrator

  6. Начните миграцию.

Отслеживайте ход миграции с помощью стандартных средств Azure, включая Azure CLI и портал Azure.

Двунаправленная репликация данных при активном изменении с помощью LiveData Plane для Azure

Вторая служба, включенная в платформу LiveData, — это LiveData Plane для Azure. В LiveData Plane используется механизм координации WANdisco для обеспечения согласованности данных в локальных кластерах Hadoop и службе хранилища Azure путем интеллектуального применения изменений к данным во всех системах, что снижает риск конфликтов данных в различных точках использования.

Архитектура LiveData Plane для Azure

После первоначальной миграции данные должны соответствовать LiveData Plane для Azure:

  1. Разверните LiveData Plane для Azure локально и в Azure (этот процесс начинается с портала Azure). Изменение приложений не требуется.

  2. Настройте правила репликации для тех расположений данных, для которых необходимо обеспечить согласованность, например /user/contoso/sales/region/WA.

  3. Запускайте приложения, которые имеют доступ к данным и изменяют их в любом месте по мере необходимости.

LiveData Plane для Azure постоянно реплицирует изменения данных во всех средах без существенного влияния на работу кластеров и производительность приложений.

Тестовый выпуск или пробная версия

На странице Платформа LiveData для Azure Marketplace доступны два варианта:

  • Кнопка Получить сейчас запускает службу в вашей подписке. Здесь вы можете использовать собственный кластер Hadoop или пробный кластер WANdisco.

  • Выберите тестовый выпуск для тестирования LiveData Migrator для Azure в предварительно настроенной и размещенной среде. Это позволяет опробовать LiveData Migrator для Azure перед добавлением его в подписку без затрат и рисков для данных.

Next Steps

См. также