Варианты для больших данных на платформе Microsoft SQL Server

Область применения: SQL Server 2019 (15.x) и более поздних версий

28 февраля 2025 г. кластеры больших данных SQL Server 2019 были сняты с эксплуатации. Подробнее см. в записи блога с объявлением.

Изменения в поддержке PolyBase в SQL Server

Прекращение поддержки надстройки Кластеры больших данных SQL Server 2019 затронет ряд функций, связанных с запросами горизонтального масштабирования.

Функция PolyBase для масштабирования в Microsoft SQL Server была снята с производства. Функции группы горизонтального масштабирования удалены из продукта в SQL Server 2022 (16.x). В рыночных версиях SQL Server 2019, SQL Server 2017 и SQL Server 2016 по-прежнему поддерживают функциональность до конца жизни этих продуктов. Виртуализация данных PolyBase по-прежнему полностью поддерживается как функция масштабирования в SQL Server.

Cloudera (CDP) и Hortonworks (HDP) внешние источники данных Hadoop также будут прекращены для всех версий SQL Server, которые есть на рынке, и не включены в SQL Server 2022. Поддержка внешних источников данных ограничена версиями продуктов в основной поддержке соответствующим поставщиком. Рекомендуется использовать новую интеграцию хранилища объектов, доступную в SQL Server 2022 (16.x).

В SQL Server 2022 (16.x) и более поздних версиях пользователи должны настроить свои внешние источники данных для использования новых коннекторов при подключении к службам хранилища Azure. В следующей таблице приводится сводка изменений:

Внешний источник данных	From	To
Хранилище BLOB-объектов Azure	`wasb[s]`	`abs`
ADLS 2-го поколения	`abfs[s]`	`adls`

Note

Хранилище BLOB-объектов Azure (abs) потребует использования Подписанного доступа (SAS) для секрета в учетных данных, ограниченных областью базы данных. В SQL Server 2019 и более ранних версиях wasb[s] соединитель использовал ключ учетной записи хранилища вместе с учетными данными, указанными в области базы данных, для аутентификации в учетной записи хранилища Azure.

Понимание архитектуры кластеров больших данных для вариантов замены и миграции

Чтобы создать альтернативное решение для системы хранения и обработки больших данных, важно понять, что предлагают кластерные технологии больших данных SQL Server 2019, и как их архитектура может помочь информировать ваш выбор. Архитектура кластера больших данных:

Эта архитектура предоставляет следующее сопоставление функций:

Component	Benefit
Kubernetes	Оркестратор с открытым кодом для развертывания приложений в большом масштабе на основе контейнеров и управления такими приложениями. Предоставляет декларативный метод создания и контроля устойчивости, избыточности и переносимости для всей среды с эластичным масштабированием.
Контроллер Кластеры больших данных	Обеспечивает управление кластером и его безопасностью. Он включает службу контроля, хранилище конфигурации, а также другие службы уровня кластера, такие как Kibana, Grafana и Elastic Search.
Пул вычислений	Предоставляет кластеру вычислительные ресурсы. Он содержит узлы, на которых pods с SQL Server работают на Linux. Поды в пуле вычислительных мощностей делятся на SQL Compute экземпляры для выполнения специфических задач обработки. Этот компонент также обеспечивает виртуализацию данных с помощью PolyBase для запроса внешних источников данных без перемещения или копирования данных.
Пул данных	Обеспечивает сохраняемость данных для кластера. Пул данных состоит из одного или нескольких подов, работающих с SQL Server на Linux. Он используется для приема данных из SQL-запросов или заданий Spark.
Пул хранилища	Пул хранения состоит из pod-ов пула хранения, включающих SQL Server на Linux, Spark и HDFS. Все узлы хранилища в кластере больших данных входят в кластер HDFS.
Пул приложений	Обеспечивает развертывание приложений в кластерах больших данных, предоставляя интерфейсы для создания, администрирования и запуска приложений.

Дополнительные сведения об этих функциях см. в разделе Введение в Кластеры больших данных SQL Server.

Варианты замены функциональных возможностей для больших данных и SQL Server

Функция операционных данных, управляемая SQL Server в кластерах больших данных, может быть заменена SQL Server на локальной среде в гибридной конфигурации или с помощью платформы Microsoft Azure. Microsoft Azure предоставляет возможность выбора полностью управляемых реляционных баз данных, баз данных NoSQL и выполняющихся в памяти баз данных (как с частными ядрами, так и с ядрами с открытым кодом), что позволяет удовлетворить потребности разработчиков современных приложений. Управление инфраструктурой, включая масштабируемость, доступность и безопасность, осуществляется автоматически, что экономит время и деньги, а также позволяет сосредоточиться на создании приложений. При этом базы данных под управлением Azure упрощают работу, отображая полезные сведения о производительности благодаря внедренной аналитике, масштабированию без ограничений и управлению угрозами безопасности. Дополнительные сведения см. на странице Базы данных Azure.

Следующая точка принятия решений — это расположение вычислительных ресурсов и хранилища данных для аналитики. На выбор предлагается два варианта архитектуры: облачные и гибридные развертывания. Большинство аналитических рабочих нагрузок можно перенести на платформу Microsoft Azure. Порождаемые облаком данные (создаваемые в облачных приложениях) — основной кандидат для таких технологий. При этом службы перемещения данных также могут быстро и безопасно переносить большие объемы локальные данные. Дополнительные сведения о параметрах перемещения данных см. в статье Решения для передачи данных.

В Microsoft Azure есть системы и сертификаты, позволяющие защитить данные и обработку данных в различных средствах. Дополнительные сведения об этих сертификатах см. в центре управления безопасностью.

Note

Платформа Microsoft Azure обеспечивает очень высокий уровень безопасности, несколько сертификатов для различных отраслей и соблюдение независимости данных для государственных учреждений. Microsoft Azure также имеет выделенную облачную платформу для государственных рабочих нагрузок. При принятии решений в отношении локальных систем не следует ориентироваться только на безопасность. Перед принятием решения о локальном хранении решений для работы с большими данными следует тщательно оценить уровень безопасности, предоставляемый Microsoft Azure.

В случае облачной архитектуры все компоненты находятся в Microsoft Azure. Ответственность за данные и код, создаваемый вами для хранения и обработки рабочих нагрузок, лежит на вас. Эти варианты подробно описываются далее в этой статье.

Этот вариант лучше всего подходит для широкого спектра компонентов для хранения и обработки данных, а также при необходимости сосредоточиться на конструкциях данных и обработке, а не на инфраструктуре.

В случае гибридной архитектуры одни компоненты хранятся локально, а другие — у поставщика облачных служб. Связь между ними спроектирована для оптимального размещения вычислительных процессов относительно данных.

Этот вариант лучше всего подходит, если у вас есть значительные инвестиции в локальные технологии и архитектуры, но вы хотите использовать предложения Microsoft Azure или при наличии целевых объектов обработки и приложений, находящихся в локальной среде или для глобальной аудитории.

Дополнительные сведения о создании масштабируемых архитектур см. в статье Создание масштабируемой системы для больших объемов данных.

In-cloud

Azure SQL и Машинное обучение Azure

Вы можете заменить функциональные возможности Кластера больших данных SQL Server с помощью одного или нескольких вариантов баз данных SQL Azure для операционных данных, а также Машинного обучения Microsoft Azure для прогнозируемых рабочих нагрузок.

Машинное обучение Azure — это облачная служба, которую можно использовать для машинного обучения любого вида: классического и глубокого, а также контролируемого и неконтролируемого. Если вы предпочитаете писать код Python или R, используя пакет SDK, или варианты без кода или с минимальным созданием кода, например в студии, вы можете создавать, изучать и отслеживать модели машинного обучения и глубокого обучения в рабочей области Машинного обучения Azure. Машинное обучение Azure позволяет начать обучение на локальном компьютере, а затем перенести его в облако. Служба также взаимодействует с популярными средствами для глубокого обучения с подкреплением с открытым кодом, такими как PyTorch, TensorFlow, scikit-learn и Ray RLlib.

Используйте Машинное обучение Microsoft Azure в качестве замены Кластеров больших данных SQL Server 2019, если требуется:

Веб-среда, основанная на использовании дизайнера для Машинного обучения: перетаскивайте модули, чтобы создавать эксперименты, а затем разворачивайте конвейеры в low-code среде разработки.
Записные книжки Jupyter: используйте наши примеры записных книжек или создайте собственные записные книжки, чтобы использовать наш пакет SDK для примеров Python для машинного обучения.
Скрипты R или записные книжки, в которых используется пакет SDK для R для написания собственного кода, или модули R в конструкторе.
Акселератор решений для многих моделей, основанный на службе Машинного обучения Azure, который позволяет обучать, использовать и обслуживать сотни и даже тысячи моделей машинного обучения.
Расширения машинного обучения для Visual Studio Code (предварительная версия) предоставляют вам полнофункциональную среду разработки для создания и управления вашими проектами машинного обучения.
Интерфейс командной строки для машинного обучения (CLI) в Azure Machine Learning включает в себя расширение для Azure CLI, которое предоставляет команды управления ресурсами машинного обучения Azure из командной строки.
Интеграция с платформами с открытым кодом (PyTorch, TensorFlow, scikit-learn и многими другими) для обучения, развертывания и управления всеми этапами машинного обучения.
Обучение с подкреплением с помощью Ray RLlib.
MLflow для мониторинга метрик и развертывания моделей или Kubeflow для создания конвейеров сквозных рабочих процессов.

Архитектура развертывания Машинного обучения Microsoft Azure выглядит следующим образом:

Схема, показывающая архитектуру рабочей области и ее компонентов в Azure Machine Learning.

Дополнительные сведения о Машинном обучении Microsoft Azure см. в статье Машинное обучение Azure.

Azure SQL от Databricks

Вы можете заменить функциональные возможности Кластера больших данных SQL Server с помощью одного или нескольких вариантов баз данных SQL Azure для операционных данных, а также Microsoft Azure Databricks для аналитических рабочих нагрузок.

Azure Databricks — это платформа аналитики данных, оптимизированная для платформы облачных служб Microsoft Azure. Azure Databricks предлагает две среды для разработки приложений с интенсивными данными: Аналитика SQL Azure Databricks и рабочая область Azure Databricks.

Аналитика SQL в Azure Databricks предоставляет простую в использовании платформу для аналитиков, которым нужно выполнять SQL-запросы к озеру данных, создавать разные типы визуализации для просмотра результатов запросов в разных контекстах, а также создавать и совместно использовать панели мониторинга.

Рабочая область Azure Databricks предоставляет интерактивную рабочую область, которая предоставляет возможности совместной работы специалистов по инжинирингу данных, специалистов по обработке и анализу данных и специалистов по машинному обучению. В конвейере больших данных эти данные (необработанные или структурированные) принимаются в Azure через Фабрику данных Azure в виде пакетов или передаются в рамках потоковой передачи практически в реальном времени с помощи Apache Kafka, концентраторов событий или Центра Интернета вещей. Эти данные помещаются в озеро данных для долгосрочного хранения в Azure Blob Storage или Azure Data Lake Storage. В рамках рабочего процесса аналитики вы можете использовать Azure Databricks для считывания данных из множества источников данных и получения полезных сведений с помощью Spark.

Используйте Microsoft Azure Databricks в качестве замены Кластеров больших данных SQL Server 2019, если требуется:

Полностью управляемые кластеры Spark с использованием Spark SQL и DataFrame.
Передача потоковых данных для обработки и анализа в режиме реального времени, предназначенная для аналитических и интерактивных приложений, с интеграцией в HDFS, Flume и Kafka.
Доступ к библиотеке MLlib, состоящей из распространенных алгоритмов обучения и служебных программ, включая классификацию, регрессию, кластеризацию, совместную фильтрацию, уменьшение размерности и примитивы базовой оптимизации.
Документация хода выполнения в записных книжках в R, Python, Scala или SQL.
Визуализация данных за несколько шагов с помощью таких привычных средств, как Matplotlib, ggplot или d3.
Интерактивные панели мониторинга для создания динамических отчетов.
GraphX для графов и их вычисления для широкой области вариантов использования, начиная с когнитивной аналитики и заканчивая исследованием данных.
Создание кластера за считанные секунды с помощью динамических кластеров с авто масштабированием и их совместное использование в разных командах.
Программный доступ к кластеру с помощью интерфейсов REST API.
Мгновенный доступ к последним функциям Apache Spark с каждым выпуском.
API ядра Spark, включая поддержку для R, SQL, Python, Scala и Java.
Интерактивная рабочая область для исследования и визуализации.
Полностью управляемые конечные точки SQL в облаке.
Запросы SQL, выполняемые на полностью управляемых конечных точках SQL, размер которых соответствует требованиям к задержке запросов и числу одновременно работающих пользователей.
Интеграция с идентификатором Microsoft Entra (ранее — Azure Active Directory).
Ролевой доступ для детального управления пользовательскими разрешениями на записные книжки, кластеры, задания и данные.
Соглашения об уровне обслуживания корпоративного уровня.
Панели мониторинга для обмена аналитическими сведениями, объединяющие визуализации и текст для обмена аналитическими сведениями, полученными из запросов.
Оповещения помогают отслеживать и интегрировать, а также уведомляют, когда поле, возвращаемое запросом, соответствует пороговому значению. Используйте оповещения, чтобы отслеживать бизнес-операции, или интегрируйте их с другими инструментами для обслуживания таких процессов, как регистрация пользователей или обработка запросов в службу поддержки.
Корпоративная безопасность, включая интеграцию идентификатора Microsoft Entra, элементы управления на основе ролей и соглашения об уровне обслуживания, которые защищают данные и бизнес.
Интеграция с такими службами, базами данных и службами хранения Azure, как Synapse Analytics, Cosmos DB, Data Lake Store и Хранилище BLOB-объектов.
Интеграция с Power BI и другими средствами бизнес-аналитики, такими как Tableau Software.

Архитектура развертывания Microsoft Azure Databricks выглядит следующим образом:

Схема: архитектура рабочей области Azure Databricks и ее компонентов и потоков данных от людей к приложениям.

Дополнительные сведения о Microsoft Azure Databricks см. в статье Что такое Databricks для обработки, анализа и инжиниринга данных.

Hybrid

Зеркальное отображение в Microsoft Fabric

Концепция копирования данных через зеркалирование базы данных в Fabric представляет собой недорогое решение с низкой задержкой, позволяющее объединять данные из различных систем в единую аналитическую платформу. Вы можете непрерывно реплицировать существующую инфраструктуру данных непосредственно в Fabric's OneLake, в том числе данные из SQL Server 2016+, Базы данных SQL Azure, Управляемого экземпляра SQL Azure, Oracle, Snowflake, Cosmos DB и многого другого.

Используя самые актуальные данные в запрашиваемом формате в OneLake, теперь можно использовать все различные службы в Fabric, такие как выполнение аналитики с помощью Spark, выполнение записных книжек, проектирование данных, визуализация с помощью отчетов Power BI и многое другое.

Зеркальное отображение в Fabric обеспечивает простой способ ускорения получения ценной аналитики и принятия решений, а также для устранения изолированности данных между различными технологическими решениями без разработки дорогостоящих процессов извлечения, преобразования и загрузки (ETL) для перемещения данных.

При функции зеркалирования в Fabric вам не нужно объединять различные сервисы от нескольких поставщиков. Вместо этого вы можете наслаждаться высоко интегрированным, комплексным и простым продуктом, который предназначен для упрощения потребностей аналитики, и построен для открытости и совместной работы между технологическими решениями, которые могут читать формат таблицы Delta Lake с открытым исходным кодом.

Дополнительные сведения см. в разделе:

Microsoft SQL Server в Windows, Apache Spark и локальном хранилище объектов

Вы можете установить SQL Server в Windows или Linux и увеличить масштаб архитектуры оборудования, используя возможность запроса хранилища объектов SQL Server 2022 (16.x) и функцию PolyBase, чтобы включить запросы ко всем данным в вашей системе.

Установка и настройка платформы с горизонтальным увеличением масштаба, например Apache Hadoop или Apache Spark, позволяет выполнять запросы нереляционных данных в большом масштабе. Использование центрального набора систем Object-Storage, поддерживающих S3-API, позволяет SQL Server 2022 (16.x) и Spark получать доступ к одному набору данных во всех системах.

Для развертывания можно также использовать систему оркестрации контейнеров Kubernetes. Это позволит использовать декларативную архитектуру, которая может работать в локальной среде или в любом облаке, поддерживающем Kubernetes или платформу Red Hat OpenShift. Дополнительные сведения о развертывании SQL Server в среде Kubernetes см. в статье "Развертывание кластера контейнеров SQL Server в Azure " или просмотр развертывания SQL Server 2019 в Kubernetes.

Используйте SQL Server и Hadoop/Spark локально в качестве замены Кластера больших данных SQL Server 2019, если требуется:

Сохраните всё решение на локальных серверах.
Для всех частей решения используется выделенное оборудование.
Нужен доступ к реляционным и нереляционным данным из одной и той же архитектуры в обоих направлениях.
Предоставьте общий доступ к одному набору нереляционных данных между SQL Server и системой горизонтального масштабирования нереляционных данных.

Выполните миграцию

После выбора расположения (в облаке или гибридной) для миграции необходимо взвесить векторы простоя и затрат, чтобы определить, выполняете ли вы новую систему и перемещаете данные из предыдущей системы в новую в режиме реального времени (параллельной миграции) или резервное копирование и восстановление или новое начало системы из существующих источников данных (миграция на месте).

Далее необходимо решить, следует ли переписать текущую функциональность в вашей системе, используя новый архитектурный выбор, или же переместить как можно больше кода в новую систему. Хотя бывший выбор может занять больше времени, он позволяет использовать новые методы, концепции и преимущества, которые предоставляет новая архитектура. В этом случае при планировании следует в первую очередь сосредоточиться на картах функциональных возможностей и доступа к данным.

Если планируется перенос текущей системы с минимальным изменением кода, при планировании следует уделить основное внимание совместимости языков.

Миграция кода

Следующим шагом является аудит кода, используемого в текущей системе, и изменений, которые необходимо внести в новой среде.

При переносе кода необходимо учитывать два основных вектора:

Источники и ресиверы
Миграция функций

Источники и ресиверы

Первая задача при переносе кода заключается в определении методов подключения к источникам данных, строк или интерфейсов API, используемых кодом для доступа к импортируемым данным, пути к ним и конечному месту назначения. Задокументируйте эти источники и создайте карту расположений новой архитектуры.

Если текущее решение использует систему конвейера для перемещения данных через систему, сопоставьте новые архитектурные источники, этапы и приёмники с компонентами конвейера.
Если в новом решении заменяется также архитектура конвейера, при планировании систему следует рассматривать как новую установку, даже если вы повторно используете в качестве замены ту же аппаратную или облачную платформу.

Миграция функций

Наиболее сложная задача, которую необходимо выполнить при миграции, — создание ссылок, обновление или создание документации для функциональных возможностей текущей системы. Если вы планируете обновление на месте и пытаетесь сократить объем перезаписи кода как можно больше, этот шаг занимает больше всего времени.

Тем не менее, миграция с предыдущей технологии зачастую является оптимальным моментом для обновления системы путем внедрения в нее новейших технологических усовершенствований и использования преимуществ предоставляемых ею конструкций. Перезапись текущей системы зачастую позволяет повысить безопасность и производительность, а также улучшить выбор компонентов и даже оптимизировать затраты.

В любом случае у вас есть два основных фактора, связанных с миграцией: код и языки, поддерживаемые новой системой, а также варианты перемещения данных. Как правило, вы сможете изменять строки подключения из текущего кластера больших данных к экземпляру SQL Server и в среду Spark. Сведения о подключении к данным и переключение кода должно быть сведено к минимуму.

Если вы предполагаете перезапись текущих функциональных возможностей, сопоставите новые библиотеки, пакеты и библиотеки DLL с архитектурой, выбранной для миграции. Список всех библиотек, языков и функций, предлагаемых каждым решением приведен в справочной документации, перечисленной в предыдущих разделах. Сопоставьте все подозрительные или неподдерживаемые языки и запланируйте замену с помощью выбранной архитектуры.

Параметры миграции данных

Для перемещения данных в масштабной аналитической системе можно использовать два распространенных подхода. Первый— создать процесс "переключения", где исходная система продолжает обработку данных, а эти данные объединяются в небольшой набор источников данных для отчетов. В этом случае новая система запускается с новыми данными и используется, начиная с даты переноса.

Иногда из устаревшей системы в новую необходимо перенести все данные. В этом случае можно подключить исходные хранилища файлов из Кластеров больших данных SQL Server, если новая система их поддерживает, а затем скопировать данные по частям в новую систему или обеспечить их физическое перемещение.

Перенос текущих данных из Кластера больших данных SQL Server 2019 в другую систему в значительной степени зависит от двух факторов: расположения текущих данных и их места назначения: локально или в облаке.

Миграция локальных данных

Для миграции между локальными средами можно перенести данные SQL Server с помощью стратегии резервного копирования и восстановления. Кроме того, можно настроить репликацию для перемещения некоторых или всех реляционных данных. Для копирования данных из SQL Server в другое расположение можно также использовать SQL Server Integration Services. Дополнительные сведения о перемещении данных с помощью SQL Server Integration Services см. в статье SQL Server Integration Services.

Для данных HDFS в текущей среде кластера больших данных SQL Server стандартный подход заключается в подключении данных к автономному кластеру Spark, а также использовать процесс хранилища объектов для перемещения данных, чтобы экземпляр SQL Server 2022 (16.x) смог получить доступ к нему или оставить его как есть и продолжать обрабатывать их с помощью заданий Spark.

Миграция данных в облаке

Для данных, расположенных в облачном хранилище или локально, можно использовать Фабрику данных Azure, которая содержит более 90 соединителей для полного конвейера передачи, с возможностями планирования, мониторинга, оповещения и другими службами. Дополнительные сведения о Фабрике данных Azure см. в статье Что такое фабрика данных Azure?.

Чтобы быстро и безопасно переместить большие объемы данных из локальной среды данных в Microsoft Azure, можно воспользоваться службой "Импорт и экспорт Azure". Служба "Импорт и экспорт Azure" используется для безопасного импорта больших объемов данных в Хранилище BLOB-объектов Azure и службу "Файлы Azure" путем отправки дисков в центр обработки данных Azure. Кроме того, эту службу можно использовать, чтобы переносить данные из хранилища BLOB-объектов Azure на диски и передавать на локальные сайты. Данные с одного или нескольких дисков можно импортировать в хранилище BLOB-объектов Azure или службу файлов Azure. Использование этой службы может оказаться самым быстрым путем для очень больших объемов данных.

Если вам нужно передать данные с помощью дисков, предоставленных корпорацией Майкрософт, для импорта данных в Azure можно использовать диск Azure Data Box. Дополнительные сведения см. в статье Что такое служба "Импорт и экспорт Azure"?.

Дополнительные сведения об этих вариантах и связанных с ними решениях см. в разделе Использование Data Lake Storage 1-го поколения для обеспечения соответствия требованиям больших данных.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-10-31