Средства миграции хранилища данных Netezza в Azure Synapse Analytics
Эта статья представляет собой шестую из семи статей, посвященных рекомендациям по миграции данных из Netezza в Azure Synapse Analytics. Основное внимание в этой статье уделяется рекомендациям по средствам Майкрософт и сторонних поставщиков.
Средства миграции хранилища данных
Миграция существующего хранилища данных в Azure Synapse обеспечивает следующие преимущества:
Глобально безопасная, масштабируемая, экономичная, ориентированная на облако база данных с оплатой по мере использования.
Обширная аналитическая экосистема Майкрософт, существующая в Azure. Эта экосистема состоит из технологий, которые помогут модернизировать хранилище данных после миграции и расширить аналитические возможности для повышения ценности.
Несколько средств корпорации Майкрософт и сторонних партнеров помогут выполнить миграцию из существующих хранилищ данных в Azure Synapse. В этой статье описываются следующие типы средств:
Средства миграции данных и баз данных Майкрософт.
Сторонние средства автоматизации хранилища данных для автоматизации и документирования миграции в Azure Synapse.
Сторонние средства миграции хранилища данных для миграции схемы и данных в Azure Synapse.
Сторонние средства для компенсации различий в реализациях SQL между вашим текущим решением СУБД хранилища данных и Azure Synapse.
Средства миграции данных Майкрософт
Корпорация Майкрософт предлагает несколько средств, которые помогут выполнить миграцию существующего хранилища данных в Azure Synapse, например:
Службы Майкрософт для передачи физических данных.
Службы Майкрософт для приема данных.
В следующих разделах данные средства рассмотрены более подробно.
Фабрика данных Microsoft Azure
Фабрика данных — это полностью управляемая гибридная служба интеграции данных с оплатой по мере использования для высокомасштабируемой ETL- и ELT-обработки. Она использует Apache Spark для параллельной обработки и анализа данных в памяти, чтобы максимизировать пропускную способность.
Совет
Фабрика данных позволяет создавать масштабируемые конвейеры интеграции данных без написания кода.
Соединители Фабрики данных поддерживают подключение к внешним источникам данных и баз данных и имеют шаблоны для распространенных задач интеграции данных. Визуальный пользовательский интерфейс на основе браузера позволяет специалистам, не являющимся программистами, создавать и запускать конвейеры для приема, преобразования и загрузки данных. Более опытные программисты могут включать настраиваемый код, например программы Python.
Совет
Фабрика данных обеспечивает возможность совместной разработки между бизнесом и ИТ-специалистами.
Фабрика данных также является инструментом оркестрации и лучшим средством Майкрософт для автоматизации комплексного процесса миграции. Автоматизация снижает риск, усилия и время при выполнении миграции, а также делает процесс миграции легко воспроизводимым. На следующей диаграмме показан поток данных для сопоставления в рамках Фабрики данных.
На следующем снимке экрана представлен пример потока данных для первичной обработки в рамках Фабрики данных Azure.
В Фабрике данных вы можете разрабатывать простые или комплексные процессы ETL и ELT без написания кода или обслуживания, всего в несколько щелчков мыши. Процессы ETL/ELT включают прием, перемещение, подготовку, преобразование и обработку данных. Вы можете разрабатывать и управлять планированием и триггерами в Фабрике данных для создания автоматизированной среды интеграции и загрузки данных. В Фабрике данных можно определять процессы массовой загрузки данных PolyBase, управлять ими и планировать их.
Совет
Фабрика данных включает в себя средства миграции данных и всего хранилища данных в Azure.
Фабрику данных можно использовать для реализации гибридной средой, в которой безопасно и согласованно размещаются локальные, облачные, потоковые и SaaS-данные, и для управления такой средой. Данные SaaS могут поступать от разных приложений, например Salesforce.
Новая возможность Фабрики данных — потоки данных для первичной обработки. Она позволяет сделать Фабрику данных доступной для бизнес-пользователей, которые хотят визуально обнаруживать, изучать и подготавливать данные в большом масштабе без написания кода. Первичная обработка потоков данных предоставляет возможность самостоятельной подготовки данных, аналогично потокам данных в Microsoft Excel, Power Query или Microsoft Power BI. Бизнес-пользователи могут осуществлять подготовку и интеграцию данных с помощью пользовательского интерфейса в стиле электронной таблицы с параметрами преобразования выпадающего списка.
Фабрика данных является рекомендуемым подходом для реализации интеграции данных и процессов ETL/ELT для среды Azure Synapse, особенно если нужно выполнить рефакторинг для существующих устаревших процессов.
Службы Майкрософт для передачи физических данных
В следующих разделах обсуждаются несколько продуктов и служб, которые корпорация Майкрософт предоставляет для помощи клиентам в передаче данных.
Azure ExpressRoute
Azure ExpressRoute используется для создания частных подключений между центрами обработки данных Azure и инфраструктурой в локальной среде или в среде совместного размещения. Подключения ExpressRoute не осуществляются через общедоступный Интернет, обеспечивая повышенную надежность и быстродействие, а также более низкую задержку по сравнению с обычными интернет-подключениями. В некоторых случаях использование подключений ExpressRoute для передачи данных между локальными системами и Azure приносит существенную экономию.
AzCopy
AzCopy — это служебная программа командной строки, которая копирует файлы в Хранилище BLOB-объектов Azure через стандартное подключение к Интернету. В проекте миграции хранилища можно использовать AzCopy для отправки извлеченных, сжатых текстовых файлов с разделителями перед загрузкой в Azure Synapse с помощью PolyBase. AzCopy может отправлять отдельные файлы, выбранные файлы или папки с файлами. Если экспортированные файлы имеют формат Parquet, используйте вместо этого собственное средство Parquet для чтения.
Azure Data Box
Azure Data Box — это служба Майкрософт, которая предоставляет защищаемый законодательством об интеллектуальной собственности физическое устройство хранения, на которое можно скопировать данные для миграции. Затем это устройство отправляется в центр обработки данных Azure для передачи данных в облачное хранилище. Эта служба может быть экономически эффективной для больших объемов данных (десятков или сотен терабайтов) и в тех случаях, когда пропускную способность сети невозможно или очень сложно увеличить. Azure Data Box обычно используется для однократной загрузки исторических данных при миграции большого объема данных в Azure Synapse.
Что такое Шлюз Azure Data Box (предварительная версия)?
Шлюз Azure Data Box — это еще одна служба, которая представляет собой устройство шлюза для облачного хранилища, размещенное в локальной среде для отправки в Azure изображений, мультимедийных файлов и других данных. Используйте Шлюз Data Box для задач однократной миграции или непрерывной добавочной передачи данных.
Службы Майкрософт для приема данных
В следующих разделах обсуждаются продукты и службы, которые корпорация Майкрософт предоставляет для помощи клиентам в приеме данных.
COPY INTO;
Инструкция COPY INTO обеспечивает наибольшую гибкость приема данных с высокой пропускной способностью в Azure Synapse. Дополнительные сведения о возможностях COPY INTO
см. в статье COPY (Transact-SQL).
PolyBase
PolyBase — это самый быстрый и самый масштабируемый метод для массовой загрузки данных в Azure Synapse. PolyBase использует архитектуру MPP (с массовой параллельной обработкой) в Azure Synapse для параллельной загрузки данных с целью достижения максимальной пропускной способности. PolyBase может считывать данные из неструктурированных файлов в Хранилище BLOB-объектов Azure или напрямую из внешних источников данных и других реляционных баз данных через соединители.
Совет
PolyBase может загружать данные параллельно из Хранилища BLOB-объектов Azure в Azure Synapse.
PolyBase также может напрямую считывать из файлов, сжатых с помощью gzip — это уменьшает физический объем данных, перемещаемых в процессе загрузки. PolyBase поддерживает популярные форматы данных, такие как текст с разделителями, ORC и Parquet.
Совет
Вы можете вызвать PolyBase из Фабрики данных в рамках конвейера миграции.
PolyBase тесно интегрирован с Фабрикой данных и поддерживает быстрое развитие процессов ETL/ELT для загрузки данных. Вы можете запланировать процессы загрузки данных через визуальный интерфейс, который повышает производительность и снижает вероятность ошибок по сравнению с написанием кода вручную. Корпорация Майкрософт рекомендует использовать PolyBase для приема данных в Azure Synapse, особенно при больших объемах данных.
PolyBase использует для загрузки данных инструкции CREATE TABLE AS
или INSERT...SELECT
.
CREATE TABLE AS
минимизирует ведение журнала для достижения максимальной пропускной способности. Наиболее эффективным форматом для загрузки данных являются сжатые текстовые файлы с разделителями. Для обеспечения максимальной пропускной способности разделите большие входные файлы на несколько небольших и загрузите их параллельно. Для максимально быстрой загрузки в промежуточную таблицу определите целевую таблицу в качестве типа HEAP
и используйте распределение циклического перебора.
PolyBase имеет некоторые ограничения, например не допускает строки с длиной более 1 мегабайта и не поддерживает вложенные форматы фиксированной ширины, такие как JSON и XML.
Партнеры Microsoft для миграций Netezza
Партнеры Майкрософт предлагают инструменты, услуги и опыт для переноса устаревшей локальной платформы хранилища данных в Azure Synapse.
Дальнейшие действия
Дополнительные сведения о реализации современных хранилищ данных приведены в следующей статье данной серии: За пределами миграции Netezza: реализация современного хранилища данных в Microsoft Azure.