Использование SQL Server 2022 в качестве концентратора данных, запрашивающего файлы и резервное копирование и восстановление для поставщиков хранилища объектов

Завершено

SQL Server 2022 предоставляет возможности виртуализации данных для доступа к данным, хранящимся в форматах, таких как таблицы parquet и разностные таблицы по таким источникам, как Хранилище BLOB-объектов Azure, Azure Data Lake служба хранилища и поставщики совместимых объектов S3. Кроме того, SQL Server 2022 улучшает возможности удаленного резервного копирования и восстановления, поддерживая поставщиков хранилища объектов, совместимых с S3.

Виртуализация данных в SQL Server

Polybase, представленная в SQL Server 2016, поддерживает доступ к данным за пределами SQL Server с помощью инструкций Transact-SQL (T-SQL), таких как OPENROWSET и CREATE EXTERNAL TABLE. Эта концепция называется виртуализацией данных, так как пользователи могут получать доступ к данным за пределами SQL Server без перемещения данных в SQL Server. В SQL Server 2019 добавлена поддержка виртуализации данных с помощью драйверов ODBC. Доступ к данным использует программное обеспечение, называемое службами Polybase. SQL Server 2022 добавляет поддержку в ядро СУБД с помощью интерфейсов REST API для доступа к данным в Хранилище BLOB-объектов Azure, Azure Data Lake служба хранилища и поставщиков хранилища объектов, совместимых с S3.

На следующем рисунке показана полная степень поддержки виртуализации данных в SQL Server 2022.

Diagram of the data virtualization options in SQL Server 2022.

Виртуализация данных с помощью соединителей REST API

Виртуализация данных SQL Server 2022 теперь включает доступ к новым соединителям источников данных с помощью интерфейсов REST API, встроенных в подсистему SQL Server. Эти новые соединители источников данных часто используются для поддержки большого набора файлов для создания озера данных. SQL Server теперь можно использовать в качестве концентратора данных для запроса файлов в озере данных без перемещения данных.

Соединители REST API

Следующие новые соединители поддерживаются с помощью REST API:

  • Хранилище BLOB-объектов Azure

    С помощью соединителя absисточника данных можно получить доступ к файлам, хранящимся в Хранилище BLOB-объектов Azure контейнерах. Хранилище BLOB-объектов Azure является масштабируемым, высокодоступным, избыточным, экономичным с многоуровневым хранилищем, защищенным и оптимизированным для озер данных. Дополнительные сведения см. в статье о виртуализации данных с помощью Хранилище BLOB-объектов Azure.

  • Azure Data Lake Storage

    Используя соединитель adlsисточника данных, вы можете получить доступ к файлу, хранящимся в Azure Data Lake служба хранилища (ADLS). ADLS строится на основе Хранилище BLOB-объектов Azure и обеспечивает семантику файловой системы, безопасность на уровне файлов и масштабирование. Все эти возможности основаны на Хранилище BLOB-объектов Azure обеспечивают низкие затраты, многоуровневый доступ, высокий уровень безопасности, высокий уровень доступности и устойчивость. Дополнительные сведения см. в статье о виртуализации данных с помощью Azure Data Lake служба хранилища.

  • Поставщики хранилища объектов, совместимые с S3

    Используя соединитель источника данных s3, вы можете получить доступ к файлу, хранящейся в хранилище объектов, совместимом с S3 . S3 стал популярным протоколом хранения объектов и поддерживается многими поставщиками, как в облаках, так и в локальной среде. Хранилище объектов S3 обеспечивает масштабирование, снижение затрат, геораспространителя и надежный транспорт данных. Дополнительные сведения см. в разделе виртуализации данных с поставщиками хранилища объектов, совместимыми с S3.

Использование T-SQL для виртуализации данных

T-SQL предоставляет следующие инструкции для поддержки виртуализации данных с помощью соединителей REST API:

  • OPENROWSET

    Инструкция T-SQL OPENROWSET позволяет получить доступ к любому соединителю данных REST API, где вы предоставляете сведения о подключении к определенному источнику данных, файлу или сведениям о папке.

  • CREATE EXTERNAL TABLE

    Инструкцию T-SQL CREATE EXTERNAL TABLE можно использовать для создания виртуальной таблицы, которая является сопоставлением файлов в любом соединителе данных REST API. Затем можно получить доступ к внешней таблице так же, как к таблице SQL Server, кроме данных, хранящихся в удаленном источнике данных. Метаданные внешней таблицы хранятся в системных таблицах SQL Server.

  • CREATE EXTERNAL TABLE AS SELECT

    Новая возможность в SQL Server 2022 — создать внешнюю таблицу на основе запроса из существующей таблицы SQL Server (или другой внешней таблицы), также известной как CREATE EXTERNAL TABLE AS SELECT. Результатом запроса будет новая внешняя таблица и файлы будут созданы в удаленном источнике данных на основе результатов инструкции SELECT. Этот метод можно использовать для экспорта данных SQL Server в файлы в удаленном источнике данных.

Поддержка нового формата собственного файла

SQL Server позволяет создать формат файла для определения структуры файла в удаленном источнике данных. Например, форматы файлов можно использовать для определения структуры JSON-файла, так как JSON не является собственным поддерживаемым форматом файла. SQL Server 2022 теперь распознает собственные форматы файлов parquet и разностных таблиц.

  • Parquet

    Parquet — это двоичный формат с открытым исходным кодом с схемой, встроенной в файл. Файлы Parquet используют формат хранилища столбцов, который делает их эффективными для сжатия и извлечения. Дополнительные сведения и примеры см. в файле Virtualize Parquet в хранилище объектов, совместимом с S3, с PolyBase.

  • Разностные таблицы

    Delta lake — это архитектура хранилища с открытым исходным кодом с помощью разностных таблиц. Разностные таблицы — это файлы на основе parquet, но также предлагают базовую поддержку транзакций и журналов. Дополнительные сведения об использовании разностных таблиц с azure Data Lake служба хранилища см. в статье Virtualize delta table with PolyBase.

Резервное копирование и восстановление с помощью поставщиков хранилища объектов, совместимых с S3

SQL Server 2022 расширяет инструкции BACKUP TO URL и RESTORE FROM URL-адреса T-SQL для поддержки поставщиков совместимого хранилища объектов S3. Большинство вариантов резервного копирования и восстановления доступны с помощью этой новой возможности. Дополнительные сведения см. в разделе Резервное копирование SQL Server на URL-адрес совместимого с S3 хранилища объектов.

Список распространенных поставщиков хранилища объектов, совместимых с S3, см. в разделе "Поставщики хранилища объектов, совместимых с S3".

Проверка знаний

1.

SQL Server 2022 использует REST API для обеспечения виртуализации данных для какого типа источников данных?

2.

Виртуализация данных SQL Server 2022 теперь поддерживает формат файлов, популярный для озер данных?