Виртуализация данных CSV-файла из пула носителей (кластеры больших данных)

Мақала
03/18/2023

Важно!

Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, а программное обеспечение будет по-прежнему поддерживаться с помощью SQL Server накопительных обновлений до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.

Кластеры больших данных SQL Server могут виртуализировать данные из CSV-файлов в HDFS. Этот процесс позволяет сохранять данные в исходном расположении, но их можно запрашивать из экземпляра SQL Server, как любую таблицу. Эта функция использует соединители PolyBase и уменьшает потребность в процессах извлечения, преобразования и загрузки. Дополнительные сведения о виртуализации данных см. в статье Общие сведения о виртуализации данных с помощью PolyBase

Предварительные требования

Выбор или отправка CSV-файла для виртуализации данных

В Azure Data Studio (ADS) установите подключение к главному экземпляру SQL Server в кластере больших данных. После подключения разверните элементы HDFS в обозревателе объектов, чтобы указать CSV-файлы, которые необходимо виртуализировать.

В рамках этого учебника мы создадим каталог с именем Data.

Щелкните правой кнопкой мыши контекстное меню корневого каталога HDFS.
Выберите Создать каталог.
Назовите новый каталог Data.

Отправьте пример данных. Для простых целей пошагового руководства используйте образец CSV-файла данных. В этой статье используются данные о причинах задержек рейсов авиакомпаний по сведениям Министерства транспорта США. Скачайте необработанные данные и извлеките их на компьютер. Присвойте файлу имя airline_delay_causes.csv.

Чтобы отправить пример файла после его извлечения, сделайте следующее.

В Azure Data Studio щелкните правой кнопкой мыши созданный каталог.
Щелкните Upload files (Передать файлы).

пример csv-файла в HDFS

Azure Data Studio передает файлы в HDFS в кластере больших данных.

Создание внешнего источника данных пула носителей в целевой базе данных

Внешний источник данных пула носителей не создается по умолчанию в базе данных в кластере больших данных. Перед тем как создать внешнюю таблицу, создайте внешний источник данных по умолчанию SqlStoragePool в целевой базе данных с помощью приведенного ниже запроса Transact-SQL. Предварительно необходимо переключить контекст запроса на целевую базу данных.

-- Create the default storage pool source for SQL Big Data Cluster
IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlStoragePool')
    CREATE EXTERNAL DATA SOURCE SqlStoragePool
    WITH (LOCATION = 'sqlhdfs://controller-svc/default');

Создание внешней таблицы

В ADS щелкните CSV-файл правой кнопкой мыши и выберите пункт Создать внешнюю таблицу из CSV-файла в контекстном меню. Вы также можете создавать внешние таблицы из CSV-файлов, используя каталог в файловой системе HDFS, если файлы в каталоге имеют ту же схему. Это делает возможной виртуализацию данных на уровне каталогов без необходимости обрабатывать отдельные файлы и получать результирующий набор для объединенных данных. Azure Data Studio пошагово поможет вам создать внешнюю таблицу.

Укажите базу данных, источник данных, имя таблицы, схему и имя для формата внешнего файла таблицы.

Выберите Далее.

Просмотр данных

Azure Data Studio обеспечивает предварительный просмотр импортированных данных.

Снимок экрана: окно

Изучив предпросмотр, нажмите Далее для продолжения.

Изменение столбцов

В следующем окне можно изменить столбцы внешней таблицы, которую вы хотите создать. Вы можете изменить имя столбца и тип данных, а также разрешить для строк значение NULL.

Снимок экрана: окно

После проверки целевых столбцов нажмите Далее.

Сводка

На этом шаге предоставляется сводка выбранных значений. Он предоставляет имя SQL Server, имя базы данных, имя таблицы, схему таблицы и сведения о внешней таблице. На этом шаге можно создать скрипт или создать таблицу. Создать скрипт — создание скрипта в T-SQL для создания внешнего источника данных. Создать таблицу — создание внешнего источника данных.

Экран сводки

При выборе Создать таблицу SQL Server создаст внешнюю таблицу в целевой базе данных.

При выборе Создать скрипт Azure Data Studio создаст запрос T-SQL для создания внешней таблицы.

После создания таблицу можно запрашивать напрямую с помощью T-SQL из экземпляра SQL Server.

Дальнейшие действия

Дополнительные сведения о Кластере больших данных SQL Server и связанных сценариях см. в статье Общие сведения о Кластеры больших данных SQL Server.

Бөлісу құралы: