Подключение S3 для распределения по уровням HDFS в кластере больших данных
В следующих разделах приводится пример настройки распределения по уровням HDFS для источника данных хранилища S3.
Важно!
Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, и программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений SQL Server до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.
Необходимые компоненты
- Развернутый кластер больших данных
- Средства работы с большими данными
- azdata
- kubectl
- Создание и отправка данных в контейнер S3
- Загрузка файлов CSV или Parquet в контейнер S3. Это внешние данные HDFS, которые будут подключены к HDFS в кластере больших данных.
Access keys
Установка переменной среды для учетных данных ключей доступа
Откройте командную строку на клиентском компьютере, который может получать доступ к кластеру больших данных. Задайте переменную среды в следующем формате. Учетные данные нужно задавать в виде списка с разделителями-запятыми. В Windows используется команда "set". В Linux следует использовать команду "export".
set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
fs.s3a.secret.key=<Secret Access Key of the key>
Совет
Дополнительные сведения о создании ключей доступа S3 см. в разделе Ключи доступа S3.
Подключение удаленного хранилища HDFS
После подготовки файла учетных данных с ключами доступа вы можете начать процесс подключения. Чтобы подключить удаленное хранилище HDFS в S3 к локальному хранилищу HDFS в кластере больших данных, выполните следующие действия.
Используйте kubectl для определения IP-адреса службы конечной точки controller-svc-external в кластере больших данных. Найдите параметр External-IP.
kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
Войдите в azdata, используя внешний IP-адрес конечной точки контроллера, а также имя и пароль пользователя кластера:
azdata login -e https://<IP-of-controller-svc-external>:30080/
Задайте переменную среды MOUNT_CREDENTIALS в соответствии с приведенными выше инструкциями.
Подключите удаленное хранилище HDFS в Azure с помощью команды azdata bdc hdfs mount create. Замените значения заполнителей, после чего выполните следующую команду:
azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
Примечание.
Команда mount create выполняется асинхронной. Сейчас сообщения об успешном подключении не реализованы. Чтобы проверить состояние подключений, обратитесь к разделу status.
Если подключение выполнено успешно, вы сможете запрашивать данные HDFS и выполнять задания Spark для их обработки. Данные для вашего кластера больших данных будут отображаться в HDFS в месте, которое задается атрибутом --mount-path
.
Получение состояния подключений
Чтобы просмотреть состояние всех подключений в вашем кластере больших данных, выполните следующую команду:
azdata bdc hdfs mount status
Чтобы просмотреть состояние подключения с заданным путем в HDFS, выполните следующую команду:
azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>
Обновление подключения
В следующем примере выполняется обновление подключения.
azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>
Удаление подключения
Чтобы удалить подключение, используйте azdata bdc hdfs mount delete
команду и укажите путь подключения в HDFS:
azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>