Средства миграции хранилища данных Netezza в Azure Synapse Analytics

Эта статья представляет собой шестую из семи статей, посвященных рекомендациям по миграции данных из Netezza в Azure Synapse Analytics. Основное внимание в этой статье уделяется рекомендациям по средствам Майкрософт и сторонних поставщиков.

Средства миграции хранилища данных

Миграция существующего хранилища данных в Azure Synapse обеспечивает следующие преимущества:

  • Глобально безопасная, масштабируемая, экономичная, ориентированная на облако база данных с оплатой по мере использования.

  • Обширная аналитическая экосистема Майкрософт, существующая в Azure. Эта экосистема состоит из технологий, которые помогут модернизировать хранилище данных после миграции и расширить аналитические возможности для повышения ценности.

Несколько средств корпорации Майкрософт и сторонних партнеров помогут выполнить миграцию из существующих хранилищ данных в Azure Synapse. В этой статье описываются следующие типы средств:

  • Средства миграции данных и баз данных Майкрософт.

  • Сторонние средства автоматизации хранилища данных для автоматизации и документирования миграции в Azure Synapse.

  • Сторонние средства миграции хранилища данных для миграции схемы и данных в Azure Synapse.

  • Сторонние средства для компенсации различий в реализациях SQL между вашим текущим решением СУБД хранилища данных и Azure Synapse.

Средства миграции данных Майкрософт

Корпорация Майкрософт предлагает несколько средств, которые помогут выполнить миграцию существующего хранилища данных в Azure Synapse, например:

  • Фабрика данных Azure.

  • Службы Майкрософт для передачи физических данных.

  • Службы Майкрософт для приема данных.

В следующих разделах данные средства рассмотрены более подробно.

Фабрика данных Microsoft Azure

Фабрика данных — это полностью управляемая гибридная служба интеграции данных с оплатой по мере использования для высокомасштабируемой ETL- и ELT-обработки. Она использует Apache Spark для параллельной обработки и анализа данных в памяти, чтобы максимизировать пропускную способность.

Совет

Фабрика данных позволяет создавать масштабируемые конвейеры интеграции данных без написания кода.

Соединители Фабрики данных поддерживают подключение к внешним источникам данных и баз данных и имеют шаблоны для распространенных задач интеграции данных. Визуальный пользовательский интерфейс на основе браузера позволяет специалистам, не являющимся программистами, создавать и запускать конвейеры для приема, преобразования и загрузки данных. Более опытные программисты могут включать настраиваемый код, например программы Python.

Совет

Фабрика данных обеспечивает возможность совместной разработки между бизнесом и ИТ-специалистами.

Фабрика данных также является инструментом оркестрации и лучшим средством Майкрософт для автоматизации комплексного процесса миграции. Автоматизация снижает риск, усилия и время при выполнении миграции, а также делает процесс миграции легко воспроизводимым. На следующей диаграмме показан поток данных для сопоставления в рамках Фабрики данных.

Снимок экрана: пример потока данных для сопоставления в Фабрике данных.

На следующем снимке экрана представлен пример потока данных для первичной обработки в рамках Фабрики данных Azure.

Снимок экрана: пример потока данных для первичной обработки в Фабрике данных.

В Фабрике данных вы можете разрабатывать простые или комплексные процессы ETL и ELT без написания кода или обслуживания, всего в несколько щелчков мыши. Процессы ETL/ELT включают прием, перемещение, подготовку, преобразование и обработку данных. Вы можете разрабатывать и управлять планированием и триггерами в Фабрике данных для создания автоматизированной среды интеграции и загрузки данных. В Фабрике данных можно определять процессы массовой загрузки данных PolyBase, управлять ими и планировать их.

Совет

Фабрика данных включает в себя средства миграции данных и всего хранилища данных в Azure.

Фабрику данных можно использовать для реализации гибридной средой, в которой безопасно и согласованно размещаются локальные, облачные, потоковые и SaaS-данные, и для управления такой средой. Данные SaaS могут поступать от разных приложений, например Salesforce.

Новая возможность Фабрики данных — потоки данных для первичной обработки. Она позволяет сделать Фабрику данных доступной для бизнес-пользователей, которые хотят визуально обнаруживать, изучать и подготавливать данные в большом масштабе без написания кода. Первичная обработка потоков данных предоставляет возможность самостоятельной подготовки данных, аналогично потокам данных в Microsoft Excel, Power Query или Microsoft Power BI. Бизнес-пользователи могут осуществлять подготовку и интеграцию данных с помощью пользовательского интерфейса в стиле электронной таблицы с параметрами преобразования выпадающего списка.

Фабрика данных является рекомендуемым подходом для реализации интеграции данных и процессов ETL/ELT для среды Azure Synapse, особенно если нужно выполнить рефакторинг для существующих устаревших процессов.

Службы Майкрософт для передачи физических данных

В следующих разделах обсуждаются несколько продуктов и служб, которые корпорация Майкрософт предоставляет для помощи клиентам в передаче данных.

Azure ExpressRoute

Azure ExpressRoute используется для создания частных подключений между центрами обработки данных Azure и инфраструктурой в локальной среде или в среде совместного размещения. Подключения ExpressRoute не осуществляются через общедоступный Интернет, обеспечивая повышенную надежность и быстродействие, а также более низкую задержку по сравнению с обычными интернет-подключениями. В некоторых случаях использование подключений ExpressRoute для передачи данных между локальными системами и Azure приносит существенную экономию.

AzCopy

AzCopy — это служебная программа командной строки, которая копирует файлы в Хранилище BLOB-объектов Azure через стандартное подключение к Интернету. В проекте миграции хранилища можно использовать AzCopy для отправки извлеченных, сжатых текстовых файлов с разделителями перед загрузкой в Azure Synapse с помощью PolyBase. AzCopy может отправлять отдельные файлы, выбранные файлы или папки с файлами. Если экспортированные файлы имеют формат Parquet, используйте вместо этого собственное средство Parquet для чтения.

Azure Data Box

Azure Data Box — это служба Майкрософт, которая предоставляет защищаемый законодательством об интеллектуальной собственности физическое устройство хранения, на которое можно скопировать данные для миграции. Затем это устройство отправляется в центр обработки данных Azure для передачи данных в облачное хранилище. Эта служба может быть экономически эффективной для больших объемов данных (десятков или сотен терабайтов) и в тех случаях, когда пропускную способность сети невозможно или очень сложно увеличить. Azure Data Box обычно используется для однократной загрузки исторических данных при миграции большого объема данных в Azure Synapse.

Что такое Шлюз Azure Data Box (предварительная версия)?

Шлюз Azure Data Box — это еще одна служба, которая представляет собой устройство шлюза для облачного хранилища, размещенное в локальной среде для отправки в Azure изображений, мультимедийных файлов и других данных. Используйте Шлюз Data Box для задач однократной миграции или непрерывной добавочной передачи данных.

Службы Майкрософт для приема данных

В следующих разделах обсуждаются продукты и службы, которые корпорация Майкрософт предоставляет для помощи клиентам в приеме данных.

COPY INTO;

Инструкция COPY INTO обеспечивает наибольшую гибкость приема данных с высокой пропускной способностью в Azure Synapse. Дополнительные сведения о возможностях COPY INTO см. в статье COPY (Transact-SQL).

PolyBase

PolyBase — это самый быстрый и самый масштабируемый метод для массовой загрузки данных в Azure Synapse. PolyBase использует архитектуру MPP (с массовой параллельной обработкой) в Azure Synapse для параллельной загрузки данных с целью достижения максимальной пропускной способности. PolyBase может считывать данные из неструктурированных файлов в Хранилище BLOB-объектов Azure или напрямую из внешних источников данных и других реляционных баз данных через соединители.

Совет

PolyBase может загружать данные параллельно из Хранилища BLOB-объектов Azure в Azure Synapse.

PolyBase также может напрямую считывать из файлов, сжатых с помощью gzip — это уменьшает физический объем данных, перемещаемых в процессе загрузки. PolyBase поддерживает популярные форматы данных, такие как текст с разделителями, ORC и Parquet.

Совет

Вы можете вызвать PolyBase из Фабрики данных в рамках конвейера миграции.

PolyBase тесно интегрирован с Фабрикой данных и поддерживает быстрое развитие процессов ETL/ELT для загрузки данных. Вы можете запланировать процессы загрузки данных через визуальный интерфейс, который повышает производительность и снижает вероятность ошибок по сравнению с написанием кода вручную. Корпорация Майкрософт рекомендует использовать PolyBase для приема данных в Azure Synapse, особенно при больших объемах данных.

PolyBase использует для загрузки данных инструкции CREATE TABLE AS или INSERT...SELECT. CREATE TABLE AS минимизирует ведение журнала для достижения максимальной пропускной способности. Наиболее эффективным форматом для загрузки данных являются сжатые текстовые файлы с разделителями. Для обеспечения максимальной пропускной способности разделите большие входные файлы на несколько небольших и загрузите их параллельно. Для максимально быстрой загрузки в промежуточную таблицу определите целевую таблицу в качестве типа HEAP и используйте распределение циклического перебора.

PolyBase имеет некоторые ограничения, например не допускает строки с длиной более 1 мегабайта и не поддерживает вложенные форматы фиксированной ширины, такие как JSON и XML.

Партнеры Microsoft для миграций Netezza

Партнеры Майкрософт предлагают инструменты, услуги и опыт для переноса устаревшей локальной платформы хранилища данных в Azure Synapse.

Дальнейшие действия

Дополнительные сведения о реализации современных хранилищ данных приведены в следующей статье данной серии: За пределами миграции Netezza: реализация современного хранилища данных в Microsoft Azure.