Настройка распределения по уровням HDFS в Кластерах больших данных SQL Server
Область применения: SQL Server 2019 (15.x)
Распределение по уровням HDFS дает возможность подключить внешнюю файловую систему, совместимую с HDFS, к HDFS. В этой статье описывается настройка распределения по уровням HDFS для Кластеров больших данных SQL Server. В настоящее время мы поддерживаем подключение к Azure Data Lake Storage 2-го поколения и Amazon S3.
Внимание
Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, и программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений SQL Server до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.
Общие сведения о распределении по уровням HDFS
Благодаря распределению по уровням приложения могут легко получать доступ к данным в различных внешних хранилищах так, как будто данные находятся в локальной системе HDFS. Подключение — это операция с метаданными, предполагающая копирование метаданных, описывающих пространство имен во внешней файловой системе, в локальную систему HDFS. Метаданные включают в себя сведения о внешних каталогах и файлах, а также их разрешения и списки управления доступом. Соответствующие данные копируются по требованию, когда к ним осуществляется доступ, например с помощью запроса. К данным во внешней файловой системе теперь можно обращаться из кластера больших данных SQL Server. Вы можете выполнять задания Spark и запросы SQL к этим данным так же, как к любым локальным данным, хранящимся в системе HDFS в кластере.
В этом семиминутном видео представлен обзор уровней HDFS:
Кэширование
В настоящее время 1 % общего объема хранилища HDFS по умолчанию резервируется для кэширования подключенных данных. Кэширование настраивается глобально для всех подключенных ресурсов.
Примечание.
Распределение по уровням HDFS — это функция, разработанная корпорацией Майкрософт. Ее более ранняя версия была выпущена в составе дистрибутива Apache Hadoop 3.1. Подробные сведения см. на странице https://issues.apache.org/jira/browse/HDFS-9806.
В следующих разделах приводится пример настройки распределения по уровням HDFS для источника данных Azure Data Lake Storage 2-го поколения.
Refresh
Распределение по уровням HDFS поддерживает обновление. Обновите существующий подключенный ресурс, чтобы получить последний моментальный снимок удаленных данных.
Необходимые компоненты
Инструкции по подключению
Мы поддерживаем подключение к Azure Data Lake Storage 2-го поколения и Amazon S3. Инструкции по подключению для этих типов хранилища см. в следующих статьях:
- Подключение ADLS 2-го поколения для распределения по уровням HDFS в кластере больших данных
- Подключение S3 для распределения по уровням HDFS в кластере больших данных
Известные проблемы и ограничения
Ниже перечислены известные проблемы и текущие ограничения при использовании распределения по уровням HDFS в Кластерах больших данных SQL Server.
Если подключенный ресурс долго остается в состоянии
CREATING
, скорее всего, произошел сбой. В этом случае отмените команду и при необходимости удалите подключенный ресурс. Перед повторной попыткой проверьте правильность параметров и учетных данных.Подключенные ресурсы нельзя создавать в существующих каталогах.
Подключенные ресурсы нельзя создавать в существующих подключенных ресурсах.
Если какие-либо из предков точки подключения не существуют, они будут созданы с разрешениями по умолчанию r-xr-xr-x (555).
Создание подключения может потребовать некоторого времени в зависимости от количества и размера подключаемых файлов. Во время этого процесса файлы в подключаемом ресурсе не доступны пользователям. Во время создания подключаемого ресурса все файлы добавляются во временную папку, которая по умолчанию находится по пути
/_temporary/_mounts/<mount-location>
.Команда создания подключаемого ресурса выполняется асинхронно. После выполнения команды можно проверить состояние подключаемого ресурса.
При создании подключаемого ресурса аргумент, используемый для --mount-path, представляет собой уникальный идентификатор подключаемого ресурса. В последующих командах следует использовать ту же строку (включая символ "/" в конце, если он имеется).
Подключаемые ресурсы доступны только для чтения. В подключаемом ресурсе нельзя создавать каталоги или файлы.
Мы не рекомендуем подключать каталоги или файлы, которые могут меняться. После создания подключаемого ресурса любые изменения, вносимые в удаленном расположении, не отражаются в подключаемом ресурсе в HDFS. Если в удаленном расположении есть изменения, вы можете удалить и повторно создать подключаемый ресурс, чтобы обновить состояние.
Следующие шаги
Дополнительные сведения о Кластеры больших данных SQL Server 2019 см. в Кластеры больших данных sql Server 2019.