Поделиться через


Параметры больших данных на платформе Microsoft SQL Server

Область применения: SQL Server 2019 (15.x) и более поздних версий

28 февраля 2025 г. кластеры больших данных SQL Server 2019 были сняты с эксплуатации. Дополнительные сведения см. в записи блога о объявлении.

Изменения поддержки PolyBase в SQL Server

Некоторые функции, связанные с масштабируемыми запросами, относятся к прекращению поддержки кластеров больших данных SQL Server 2019.

Функция масштабируемых групп PolyBase в Microsoft SQL Server выведена из эксплуатации. Функции группы горизонтального масштабирования удаляются из продукта в SQL Server 2022 (16.x). В рыночных версиях SQL Server 2019, SQL Server 2017 и SQL Server 2016 по-прежнему поддерживают функциональность до конца жизни этих продуктов. Виртуализация данных PolyBase продолжает полностью поддерживаться в качестве функции масштабирования в SQL Server.

Источники внешних данных Cloudera (CDP) и Hortonworks (HDP) для Hadoop также будут прекращены для всех представленных на рынке версий SQL Server и не включены в SQL Server 2022. Поддержка внешних источников данных ограничена версиями продуктов в основной поддержке соответствующим поставщиком. Рекомендуется использовать новую интеграцию хранилища объектов, доступную в SQL Server 2022 (16.x).

В SQL Server 2022 (16.x) и более поздних версиях пользователи должны настроить внешние источники данных для использования новых соединителей при подключении к службе хранилища Azure. В следующей таблице приводится сводка изменений:

Внешний источник данных From To
Azure Blob-хранилище wasb[s] abs
ADLS 2-го поколения abfs[s] adls

Note

Для хранилища BLOB-объектов Azure (abs) требуется использование подписанного общего ключа доступа (SAS) для секретного ключа в учетных данных базы данных. В SQL Server 2019 и в более ранних версиях wasb[s] соединитель использовал ключ учетной записи хранилища и учетные данные в области базы данных при проверке подлинности в учетной записи хранилища Azure.

Понимание архитектуры кластеров больших данных для возможностей замены и миграции

Чтобы создать решение для замены для системы хранения и обработки больших данных, важно понять, какие кластеры больших данных SQL Server 2019 предоставляют, а архитектура может помочь вам в выборе. Архитектура кластера больших данных выглядит следующим образом:

Схема, на которую показан обзор архитектуры кластеров больших данных SQL Server 2019.

Эта архитектура обеспечивает следующее сопоставление функций:

Component Benefit
Kubernetes Оркестратор с открытым исходным кодом для развертывания приложений на основе контейнеров и управления ими в большом масштабе. Предоставляет декларативный метод для создания и контроля устойчивости, избыточности и переносимости для всей среды с эластичным масштабированием.
Контроллер кластеров больших данных Предоставляет управление и безопасность кластера. Она содержит службу управления, хранилище конфигураций и другие службы уровня кластера, такие как Kibana, Grafana и elastic Search.
Compute Pool Предоставляет вычислительные ресурсы кластеру. Он содержит узлы с SQL Server на подах Linux. Поды в пуле вычислений делятся на экземпляры вычислений SQL для выполнения конкретных задач обработки. Этот компонент также предоставляет виртуализацию данных с помощью PolyBase для запроса внешних источников данных без перемещения или копирования данных.
Data Pool Предоставляет сохраняемость данных для кластера. Пул данных состоит из одного или нескольких pod'ов, работающих под управлением SQL Server на Linux. Он используется для приема данных из запросов SQL или заданий Spark.
Storage Pool Пул хранилища состоит из модулей, включающих SQL Server на Linux, Spark и HDFS. Все узлы хранилища в кластере больших данных являются членами кластера HDFS.
App Pool Позволяет развертывать приложения в кластере больших данных, предоставляя интерфейсы для создания, управления и запуска приложений.

Дополнительные сведения об этих функциях см. в разделе "Общие сведения о кластерах больших данных SQL Server".

Варианты замены функций для больших данных и SQL Server

Функция операционных данных, облегченная SQL Server в кластерах больших данных, может быть заменена SQL Server локально в гибридной конфигурации или с помощью платформы Microsoft Azure. Microsoft Azure предлагает выбор полностью управляемых реляционных баз данных, NoSQL и баз данных в памяти, охватывающих собственные и открытые ядра с открытым исходным кодом, в соответствии с потребностями современных разработчиков приложений. Управление инфраструктурой, включая масштабируемость, доступность и безопасность, автоматизировано, экономит время и деньги, а также позволяет сосредоточиться на создании приложений, а управляемые Azure базы данных упрощают работу, создавая аналитические сведения о производительности с помощью встроенной аналитики, масштабирования без ограничений и управления угрозами безопасности. Дополнительные сведения см. в базах данных Azure.

Следующая точка принятия решений — расположение вычислительных ресурсов и хранилища данных для аналитики. Два варианта архитектуры — это облачные и гибридные развертывания. Большинство аналитических рабочих нагрузок можно перенести на платформу Microsoft Azure. Данные ,родившиеся в облаке" (в облачных приложениях), являются основными кандидатами для этих технологий, а службы перемещения данных могут безопасно и быстро переносить крупномасштабные локальные данные. Дополнительные сведения о параметрах перемещения данных см. в разделе "Решения для передачи данных".

В Microsoft Azure есть системы и сертификаты, позволяющие защитить данные и обработку данных в различных средствах. Дополнительные сведения об этих сертификатах см. в Центре управления безопасностью.

Note

Платформа Microsoft Azure обеспечивает очень высокий уровень безопасности, несколько сертификаций для различных отраслей и учитывает суверенитет данных для государственных требований. Microsoft Azure также имеет выделенную облачную платформу для рабочих нагрузок для государственных организаций. Безопасность не должна быть основной точкой принятия решений для локальных систем. Необходимо тщательно оценить уровень безопасности, предоставляемый Microsoft Azure, прежде чем принимать решение о сохранении решений больших данных в локальной среде.

В параметре архитектуры в облаке все компоненты находятся в Microsoft Azure. Ваша ответственность лежит на данных и коде, создаваемых для хранения и обработки рабочих нагрузок. Эти варианты подробно описаны в этой статье.

  • Этот вариант лучше всего подходит для широкого спектра компонентов для хранения и обработки данных, а также при необходимости сосредоточиться на конструкциях данных и обработке, а не на инфраструктуре.

В вариантах гибридной архитектуры некоторые компоненты сохраняются в локальной среде, а другие размещаются в поставщике облачных служб. Подключение между ними разработано для оптимального размещения процесса над данными.

  • Этот вариант лучше всего подходит, если у вас есть значительные инвестиции в локальные технологии и архитектуры, но вы хотите использовать предложения Microsoft Azure или при наличии целевых объектов обработки и приложений, находящихся в локальной среде или для глобальной аудитории.

Дополнительные сведения о создании масштабируемых архитектур см. в статье "Создание масштабируемой системы для массовых данных".

In-cloud

Azure SQL с Synapse

Вы можете заменить функциональные возможности кластеров больших данных SQL Server с помощью одного или нескольких вариантов базы данных SQL Azure для операционных данных и Microsoft Azure Synapse для рабочих нагрузок аналитики.

Microsoft Azure Synapse — это корпоративная служба аналитики, которая ускоряет анализ между хранилищами данных и системами больших данных, используя распределенные конструкции обработки и данных. Azure Synapse объединяет технологии SQL, используемые в корпоративном хранилище данных, технологии Spark, используемые для больших данных, конвейеры для интеграции данных и ETL/ELT, а также глубокую интеграцию с другими службами Azure, такими как Power BI, Cosmos DB и Машинное обучение Azure.

При необходимости используйте Microsoft Azure Synapse в качестве замены для кластеров больших данных SQL Server 2019:

  • Используйте бессерверные и выделенные модели ресурсов. Для прогнозируемой производительности и затрат можно создавать выделенные пулы SQL, чтобы резервировать вычислительные мощности для данных, хранящихся в таблицах SQL.
  • Обработайте незапланированные или "взрывные" рабочие нагрузки, доступ к постоянно доступной конечной точке SQL без сервера.
  • Используйте встроенные возможности потоковой передачи для передачи данных из облачных источников данных в таблицы SQL.
  • Интеграция ИИ с SQL с помощью моделей машинного обучения для оценки данных с помощью функции T-SQL PREDICT.
  • Используйте модели машинного обучения с алгоритмами SparkML и интеграцией машинного обучения Azure для Apache Spark 2.4, поддерживающим Linux Foundation Delta Lake.
  • Используйте упрощенную модель ресурсов, которая освобождает вас от необходимости беспокоиться об управлении кластерами.
  • Обработка данных, требующих быстрого запуска Spark и агрессивного автомасштабирования.
  • Обработка данных с использованием .NET для Spark позволяет повторно использовать ваш опыт в C# и существующий код .NET в приложении Spark.
  • Работа с таблицами, определенными на файлах в озере данных, которые без труда могут быть обработаны как Spark, так и Hive.
  • Используйте SQL с Spark для непосредственного изучения и анализа файлов Parquet, CSV, TSV и JSON, хранящихся в озере данных.
  • Включите быструю масштабируемую загрузку данных между базами данных SQL и Spark.
  • Прием данных из 90+ источников данных.
  • Включите ETL без программирования с активностями потока данных.
  • Оркестрация записных книжек, заданий Spark, хранимых процедур, скриптов SQL и т. д.
  • Мониторинг ресурсов, использования и пользователей в SQL и Spark.
  • Используйте управление доступом на основе ролей, чтобы упростить доступ к ресурсам аналитики.
  • Напишите код на SQL или Spark и интегрируйте его с процессами CI/CD организации.

Архитектура Microsoft Azure Synapse выглядит следующим образом:

Схема, демонстрирующая архитектуру Azure Synapse.

Дополнительные сведения о Microsoft Azure Synapse см. в статье "Что такое Azure Synapse Analytics?

Azure SQL плюс Машинное обучение Azure

Вы можете заменить функциональные возможности кластеров больших данных SQL Server с помощью одного или нескольких вариантов базы данных SQL Azure для операционных данных и машинного обучения Microsoft Azure для прогнозных рабочих нагрузок.

Машинное обучение Azure — это облачная служба, которая может использоваться для любого типа машинного обучения, от классического машинного обучения до глубокого обучения, защищенного и неуправляемого обучения. Если вы предпочитаете писать код Python или R с помощью пакета SDK или работать с параметрами без кода или низкого кода в студии, вы можете создавать, обучать и отслеживать модели машинного обучения и глубокого обучения в рабочей области машинного обучения Azure. С помощью Машинного обучения Azure можно начать обучение на локальном компьютере, а затем масштабироваться в облаке. Служба также взаимодействует с популярными средствами глубокого обучения и подкреплением с открытым исходным кодом, такими как PyTorch, TensorFlow, scikit-learn и Ray RLlib.

При необходимости используйте машинное обучение Microsoft Azure в качестве замены для кластеров больших данных SQL Server 2019:

  • Веб-среда на основе конструктора для машинного обучения: перетаскивание модулей для создания экспериментов и последующего развертывания конвейеров в среде с низким кодом.
  • Записные книжки Jupyter: используйте наши примеры записных книжек или создайте собственные записные книжки, чтобы использовать наш пакет SDK для примеров Python для машинного обучения.
  • Скрипты R или записные книжки, в которых вы используете пакет SDK для R для написания собственного кода или использования модулей R в конструкторе.
  • Акселератор решений "Многие модели" основан на машинном обучении Azure и позволяет обучать, управлять ими сотни или даже тысячи моделей машинного обучения.
  • Расширения машинного обучения для Visual Studio Code (предварительная версия) предоставляют полнофункциональную среду разработки для создания проектов машинного обучения и управления ими.
  • Машинное обучение Azure — это интерфейс Command-Line командной строки (CLI), которое включает в себя расширение Azure CLI, которое предоставляет команды для управления ресурсами Машинного обучения Azure из командной строки.
  • Интеграция с платформами с открытым кодом, такими как PyTorch, TensorFlow и scikit-learn, а также многое другое для обучения, развертывания и управления комплексным процессом машинного обучения.
  • Обучение с подкреплением с помощью Ray RLlib.
  • MLflow для отслеживания метрик и развертывания моделей или Kubeflow для создания сквозных конвейеров рабочих процессов.

Архитектура развертывания Машинного обучения Microsoft Azure выглядит следующим образом:

Схема, на котором показана архитектура машинного обучения Azure для рабочей области и ее компонентов.

Дополнительные сведения об машинном обучении Microsoft Azure см. в статье о работе машинного обучения Azure.

SQL для Azure от Databricks

Вы можете заменить функциональные возможности кластеров больших данных SQL Server с помощью одного или нескольких вариантов базы данных SQL Azure для операционных данных и Microsoft Azure Databricks для рабочих нагрузок аналитики.

Azure Databricks — это платформа аналитики данных, оптимизированная для платформы облачных служб Microsoft Azure. Azure Databricks предлагает две среды для разработки приложений с интенсивными данными: Аналитика SQL Azure Databricks и рабочая область Azure Databricks.

Аналитика SQL Azure Databricks предоставляет простую платформу для аналитиков, которые хотят запускать sql-запросы в их озере данных, создавать несколько типов визуализаций для изучения результатов запросов с разных перспектив, а также создания и совместного использования панелей мониторинга.

Рабочая область Azure Databricks предоставляет интерактивную рабочую область, которая обеспечивает совместную работу между инженерами данных, специалистами по обработке и анализу данных и инженерами машинного обучения. Для конвейера больших данных данные (необработанные или структурированные) передаются в Azure через фабрику данных Azure в пакетах или передаются практически в режиме реального времени с помощью Apache Kafka, Центров событий или Центра Интернета вещей. Эти данные попадают в озеро данных для долгосрочного хранения в Azure Blob Storage или Azure Data Lake Storage. В рамках рабочего процесса аналитики используйте Azure Databricks для чтения данных из нескольких источников данных и превратите их в прорывные аналитические сведения с помощью Spark.

При необходимости используйте Microsoft Azure Databricks в качестве замены для кластеров больших данных SQL Server 2019:

  • Полностью управляемые кластеры Spark с помощью Spark SQL и Кадров данных.
  • Потоковая передача для обработки и анализа данных в режиме реального времени для аналитических и интерактивных приложений, интеграция с HDFS, Flume и Kafka.
  • Доступ к библиотеке MLlib, состоящей из распространенных алгоритмов обучения и служебных программ, включая классификацию, регрессию, кластеризацию, совместную фильтрацию, уменьшение размерности и примитивы базовой оптимизации.
  • Документация вашего прогресса в записных книжках на R, Python, Scala или SQL.
  • Визуализация данных на нескольких шагах с помощью знакомых инструментов, таких как Matplotlib, ggplot или d3.
  • Интерактивные панели мониторинга для создания динамических отчетов.
  • GraphX для вычислений графов и графов для широкого диапазона вариантов использования от когнитивной аналитики до изучения данных.
  • Создание кластеров за считанные секунды с динамическими кластерами с автоматическим масштабированием и их совместное использование между командами.
  • Программный доступ к кластеру с помощью REST API.
  • Мгновенный доступ к последним функциям Apache Spark с каждым выпуском.
  • API Spark Core: включает поддержку R, SQL, Python, Scala и Java.
  • Интерактивная рабочая область для изучения и визуализации.
  • Полностью управляемые конечные точки SQL в облаке.
  • SQL-запросы, которые выполняются на полностью управляемых SQL-конечных точках, настроенных по задержке запросов и числу одновременных пользователей.
  • Интеграция с идентификатором Microsoft Entra (ранее — Azure Active Directory).
  • Ролевой доступ с детализированными разрешениями пользователей для записных книжек, кластеров, заданий и данных.
  • Enterprise-grade SLAs.
  • Панели мониторинга для обмена аналитическими сведениями, объединяющими визуализации и текст, чтобы поделиться аналитическими выводами, полученными из запросов.
  • Оповещения помогают отслеживать и интегрировать, а также получать уведомления, когда поле, возвращаемое запросом, соответствует пороговой значению. Используйте оповещения, чтобы отслеживать бизнес-операции, или интегрируйте их с другими инструментами для обслуживания таких процессов, как регистрация пользователей или обработка запросов в службу поддержки.
  • Корпоративная безопасность, включая интеграцию идентификатора Microsoft Entra, элементы управления на основе ролей и соглашения об уровне обслуживания, которые защищают данные и бизнес.
  • Интеграция со службами Azure и базами данных Azure и хранилищами, включая Synapse Analytics, Cosmos DB, Data Lake Store и хранилище BLOB-объектов.
  • Интеграция с Power BI и другими средствами бизнес-аналитики, такими как Tableau Software.

Архитектура развертывания Microsoft Azure Databricks выглядит следующим образом:

Схема: архитектура рабочей области Azure Databricks и ее компонентов и потоков данных от людей к приложениям.

Для получения дополнительной информации о Microsoft Azure Databricks см. статью "Что такое Databricks: наука о данных и инженерия?"

Hybrid

Зеркальная база данных Fabric

Как решение для репликации данных, Зеркальное отображение базы данных в Fabric — это низкая стоимость и малое время задержки, что позволяет объединять данные из различных систем в единую платформу аналитики. Вы можете непрерывно реплицировать существующее хранилище данных непосредственно в OneLake Fabric, включая данные из Базы данных SQL Azure, Snowflake и Cosmos DB.

Используя самые актуальные данные в запрашиваемом формате в OneLake, теперь можно использовать все различные службы в Fabric, такие как выполнение аналитики с помощью Spark, выполнение записных книжек, проектирование данных, визуализация с помощью отчетов Power BI и многое другое.

Зеркальное отображение в Fabric обеспечивает простой способ ускорения времени на получение аналитических сведений и решений, а также для разбиения силосов данных между технологическими решениями без разработки дорогостоящих процессов извлечения, преобразования и загрузки (ETL) для перемещения данных.

При использовании функции Mirroring в Fabric вам не нужно объединять различные сервисы от нескольких поставщиков. Вместо этого вы можете наслаждаться высоко интегрированным, комплексным и простым продуктом, который предназначен для упрощения потребностей аналитики, и построен для открытости и совместной работы между технологическими решениями, которые могут читать формат таблицы Delta Lake с открытым исходным кодом.

Дополнительные сведения можно найти здесь

SQL Server 2022 (16.x) содержит новую функцию, которая позволяет подключение между таблицами SQL Server и платформой Microsoft Azure Synapse, Azure Synapse Link для SQL. Azure Synapse Link для SQL Server 2022 (16.x) предоставляет автоматические потоки изменений, которые отслеживают изменения в SQL Server и загружают их в Azure Synapse Analytics. Он обеспечивает практически анализ в режиме реального времени и гибридную транзакционную и аналитическую обработку с минимальным воздействием на операционные системы. После того как данные попадут в Synapse, вы можете объединить их с различными источниками данных независимо от их размера, масштаба или формата и запускать эффективную аналитику для всех данных, выбирая Azure Machine Learning, Spark или Power BI. Так как автоматические каналы изменений передают только новые или измененные данные, передача данных выполняется гораздо быстрее и теперь позволяет получать аналитику практически в реальном времени с минимальным влиянием на производительность исходной базы данных в SQL Server 2022 (16.x).

Для ваших операционных и значительной части аналитических нагрузок SQL Server может обрабатывать масштабные размеры баз данных. Дополнительные сведения о максимальных спецификациях по емкости для SQL Server см. в разделе "Ограничения вычислительных ресурсов по выпускам SQL Server". Использование нескольких экземпляров SQL Server на отдельных компьютерах с распределёнными запросами T-SQL позволяет создать среду с возможностью расширения для приложений.

Использование PolyBase позволяет экземпляру SQL Server запрашивать данные с помощью T-SQL непосредственно из SQL Server, Oracle, Teradata, MongoDB и Cosmos DB без отдельной установки программного обеспечения подключения клиента. Вы также можете использовать универсальный соединитель ODBC в экземпляре на основе Microsoft Windows для подключения к дополнительным поставщикам с помощью сторонних драйверов ODBC. PolyBase позволяет запросам T-SQL присоединять данные из внешних источников к реляционным таблицам в экземпляре SQL Server. Это позволяет данным оставаться в исходном расположении и формате. Внешние данные можно виртуализировать с помощью экземпляра SQL Server, чтобы его можно было запрашивать на месте, как и любую другую таблицу в SQL Server. SQL Server 2022 (16.x) также позволяет выполнять специальные запросы и резервное копирование и восстановление по Object-Store (с использованием S3-API) аппаратного или программного хранилища.

Две общие эталонные архитектуры — использовать SQL Server на автономном сервере для структурированных запросов данных и отдельную установку масштабируемой нереляционной системы (например, Apache Hadoop или Apache Spark) для локальной связи с Synapse, а другой вариант — использовать набор контейнеров в кластере Kubernetes со всеми компонентами решения.

Microsoft SQL Server в Windows, Apache Spark и локальном хранилище объектов

Вы можете установить SQL Server в Windows или Linux и увеличить масштаб архитектуры оборудования, используя возможность запроса хранилища объектов SQL Server 2022 (16.x) и функцию PolyBase, чтобы включить запросы ко всем данным в вашей системе.

Установка и настройка масштабируемой платформы, например Apache Hadoop или Apache Spark, позволяет запрашивать нереляционные данные в масштабе. Использование центрального набора систем Object-Storage, поддерживающих S3-API, позволяет SQL Server 2022 (16.x) и Spark получать доступ к одному набору данных во всех системах.

Соединитель Microsoft Apache Spark для SQL Server и SQL Azure также позволяет запрашивать данные непосредственно из SQL Server с помощью заданий Spark. Дополнительные сведения о соединителе Apache Spark для SQL Server и SQL Azure см. в разделе "Соединитель Apache Spark: SQL Server и SQL Azure".

Для развертывания можно также использовать систему оркестрации контейнеров Kubernetes. Это позволяет декларативной архитектуре, которая может выполняться локально или в любом облаке, поддерживающем Kubernetes или платформу Red Hat OpenShift. Дополнительные сведения о развертывании SQL Server в среде Kubernetes см. в статье "Развертывание кластера контейнеров SQL Server в Azure " или просмотр развертывания SQL Server 2019 в Kubernetes.

Используйте SQL Server и Hadoop/Spark локально в качестве замены для кластеров больших данных SQL Server 2019, если вам необходимо:

  • Сохранение всего решения в локальной среде
  • Использование выделенного оборудования для всех частей решения
  • Доступ к реляционным и нереляционным данным из одной архитектуры в обоих направлениях
  • Совместное использование единого набора нереляционных данных между SQL Server и масштабируемой нереляционной системой

Выполните миграцию

После выбора места расположения (In-Cloud или гибридного решения) для миграции необходимо взвесить факторы простоя и расходов, чтобы решить, запускать ли новую систему и перемещать данные из предыдущей системы в новую в режиме реального времени (параллельная миграция), или сделать резервное копирование и восстановление, или начать систему заново, используя существующие источники данных (миграция на месте).

Следующее решение состоит в том, чтобы переписать текущие функциональные возможности в вашей системе с помощью нового выбора архитектуры или переместить как можно больше кода в новую систему. Хотя бывший выбор может занять больше времени, он позволяет использовать новые методы, концепции и преимущества, которые предоставляет новая архитектура. В этом случае планы доступа к данным и функциональности являются основными элементами планирования, на которых следует сосредоточиться.

Если вы планируете перенести текущую систему с минимальными изменениями кода, совместимость языка — это основное внимание для планирования.

Code migration

Следующим шагом является аудит кода, который использует текущая система и какие изменения необходимо выполнить в новой среде.

Для миграции кода следует учитывать два основных вектора:

  1. Источники и приемники
  2. Functionality migration

Источники и приемники

Первая задача миграции кода — определить методы подключения к источнику данных, строки или API, которые код использует для доступа к импортированным данным, его пути и конечному назначению. Задокументируйте эти источники и создайте карту с расположениями новой архитектуры.

  • Если текущее решение использует конвейерную систему для перемещения данных через систему, сопоставьте новые архитектурные источники, шаги и приемники с компонентами конвейера.
  • Если новое решение также заменяет архитектуру конвейера , обратитесь к системе как к новой установке для планирования, даже если вы повторно используете оборудование или облачную платформу в качестве замены.

Functionality migration

Наиболее сложной работой, необходимой для миграции, является ссылка, обновление или создание документации по функциям текущей системы. Если вы планируете обновление на месте и пытаетесь сократить объем изменений в коде как можно меньше, этот шаг занимает больше всего времени.

Однако миграция с предыдущей технологии часто является оптимальным временем для ознакомления с последними достижениями в области технологий и использования преимуществ, которые она предоставляет. Часто вы можете получить больше безопасности, производительности, выбора функций и даже оптимизации затрат путем перезаписи текущей системы.

В любом случае у вас есть два основных фактора, участвующих в миграции: код и языки, поддерживаемые новой системой, и варианты перемещения данных. Обычно можно изменить строки подключения, чтобы переключиться с текущего кластера больших данных на экземпляр SQL Server и среду Spark. Информация о подключении к данным и изменения в коде должны быть минимальными.

Если вы предполагаете перезапись текущих функциональных возможностей, сопоставите новые библиотеки, пакеты и библиотеки DLL с архитектурой, выбранной для миграции. Вы найдете список библиотек, языков и функций, которые предлагает каждое решение в справочнике по документации, показанной в предыдущих разделах. Определите все подозрительные или неподдерживаемые языки и запланируйте их замену с учетом выбранной архитектуры.

Параметры миграции данных

Существует два распространенных подхода к перемещению данных в крупномасштабной аналитической системе. Первое — создать процесс перехода, при котором исходная система продолжает обрабатывать данные, и эти данные объединены в меньший агрегированный набор данных отчета. Затем новая система начинается с свежих данных и используется с даты миграции.

В некоторых случаях все данные должны переходить из устаревшей системы в новую систему. В этом случае можно установить исходные хранилища файлов из кластеров больших данных SQL Server, если новая система поддерживает их, а затем скопировать данные по частям в новую систему или выполнить физическое перемещение.

Перенос текущих данных из кластеров больших данных SQL Server 2019 в другую систему сильно зависит от двух факторов: расположения текущих данных и назначения в локальной или облачной среде.

Миграция локальных данных

Для локальной миграции можно перенести данные SQL Server с помощью стратегии резервного копирования и восстановления или настроить репликацию для перемещения некоторых или всех реляционных данных. Службы SQL Server Integration Services также можно использовать для копирования данных из SQL Server в другое место. Дополнительные сведения о перемещении данных с помощью SSIS см. в SQL Server Integration Services.

Для данных HDFS в текущей среде кластера больших данных SQL Server стандартный подход заключается в подключении данных к автономному кластеру Spark и либо использовании процесса Object Storage для перемещения данных, чтобы экземпляр SQL Server 2022 (16.x) мог получить к ним доступ, либо оставить их as-is и продолжить обработку с помощью заданий Spark.

Миграция данных в облаке

Для данных, расположенных в облачном хранилище или локальном хранилище, можно использовать фабрику данных Azure, которая имеет более 90 соединителей для полного конвейера передачи, с планированием, мониторингом, оповещениями и другими службами. Дополнительные сведения о фабрике данных Azure см. в статье "Что такое Фабрика данных Azure"?

Если вы хотите безопасно и быстро перемещать большие объемы данных из локального хранилища данных в Microsoft Azure, можно использовать службу импорта и экспорта Azure. Служба импорта и экспорта Azure используется для безопасного импорта больших объемов данных в хранилище BLOB-объектов Azure и файлов Azure путем доставки дисков в центр обработки данных Azure. Кроме того, эту службу можно использовать, чтобы переносить данные из хранилища BLOB-объектов Azure на диски и передавать на локальные сайты. Данные с одного или нескольких дисков можно импортировать в хранилище BLOB-объектов Azure или службу файлов Azure. Для очень больших объемов данных эта служба может быть самым быстрым путем.

Если вы хотите передать данные с помощью дисков, предоставленных корпорацией Майкрософт, можно использовать диск Azure Data Box для импорта данных в Azure. Дополнительные сведения см. в статье "Что такое служба импорта и экспорта Azure"?

Дополнительные сведения об этих вариантах и решениях, сопровождающих их, см. в статье "Использование Azure Data Lake Storage 1-го поколения" для требований к большим данным.