Руководство. Загрузка примеров данных в кластер больших данных SQL Server
Область применения: SQL Server 2019 (15.x)
Внимание
Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, и программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений SQL Server до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.
В этом руководстве объясняется, как использовать скрипт для загрузки примеров данных в Кластеры больших данных SQL Server 2019. Этот пример данных используется во многих других руководствах в этой документации.
Совет
Дополнительные примеры для SQL Server 2019 можно найти Кластеры больших данных в репозитории GitHub sql-server-samples. Путь к ним: sql-server-samples/samples/features/sql-big-data-cluster/.
Необходимые компоненты
- Развернутый кластер больших данных
- Средства работы с большими данными
- azdata
- kubectl
- sqlcmd
- curl
Отправка примера данных
В следующих шагах используется скрипт начальной загрузки для скачивания резервной копии базы данных SQL Server и загрузки этих данных в ваш кластер больших данных. Чтобы упростить работу, эти действия были разнесены по разделам для Windows и Linux. Если вы хотите использовать простой механизм проверки подлинности по имени пользователя и паролю, настройте переменные среды AZDATA_USERNAME и AZDATA_PASSWORD перед выполнением скрипта. В противном случае скрипт будет использовать для подключения к главному экземпляру SQL Server и шлюзу Knox интегрированную проверку подлинности. Кроме того, для использования встроенной проверки подлинности нужно указать DNS-имена для конечных точек.
Windows
Следующие действия описывают использование клиента Windows для загрузки примера данных в кластер больших данных.
Откройте новую командную строку Windows.
Внимание
Не используйте Windows PowerShell для выполнения этих действий. В PowerShell этот скрипт завершится ошибкой, так как он будет использовать версию curl для PowerShell.
Используйте curl, чтобы скачать скрипт начальной загрузки для примера данных.
curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
Скачайте скрипт bootstrap-sample-db.sql Transact-SQL. Этот скрипт вызывается скриптом начальной загрузки.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
Скрипту начальной загрузки требуются следующие позиционные параметры для кластера больших данных.
Параметр Описание <CLUSTER_NAMESPACE> Имя, присвоенное кластеру больших данных. <SQL_MASTER_ENDPOINT> DNS-имя или IP-адрес главного экземпляра. <KNOX_ENDPOINT> DNS-имя или IP-адрес шлюза HDFS/Spark. Совет
Используйте kubectl, чтобы найти IP-адрес для основного экземпляра SQL Server и Knox. Запустите
kubectl get svc -n <your-big-data-cluster-name>
и просмотрите IP-адреса EXTERNAL для основного экземпляра (master-svc-external) и Knox (gateway-svc-external). Имя кластера по умолчанию — mssql-cluster.Запустите скрипт начальной загрузки.
.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Linux
Следующие действия описывают использование клиента Linux для загрузки примера данных в кластер больших данных.
Скачайте скрипт начальной загрузки и назначьте ему разрешения исполняемого файла.
curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh" chmod +x bootstrap-sample-db.sh
Скачайте скрипт bootstrap-sample-db.sql Transact-SQL. Этот скрипт вызывается скриптом начальной загрузки.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
Скрипту начальной загрузки требуются следующие позиционные параметры для кластера больших данных.
Параметр Описание <CLUSTER_NAMESPACE> Имя, присвоенное кластеру больших данных. <SQL_MASTER_ENDPOINT> DNS-имя или IP-адрес главного экземпляра. <KNOX_ENDPOINT> DNS-имя или IP-адрес шлюза HDFS/Spark. Совет
Используйте kubectl, чтобы найти IP-адрес для основного экземпляра SQL Server и Knox. Запустите
kubectl get svc -n <your-big-data-cluster-name>
и просмотрите IP-адреса EXTERNAL для основного экземпляра (master-svc-external) и Knox (gateway-svc-external). Имя кластера по умолчанию — mssql-cluster.Запустите скрипт начальной загрузки.
./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Следующие шаги
После выполнения скрипта начальной загрузки кластер больших данных будет иметь примеры баз данных и данные HDFS. В следующих руководствах этот пример данных используется для демонстрации возможностей кластера больших данных.
Виртуализация данных
- Руководство по запросу HDFS в кластере больших данных SQL Server
- Руководство. Запрос Oracle из кластера больших данных SQL Server
Прием данных
- Руководство. Прием данных в пул данных SQL Server с помощью Transact-SQL
- Руководство. Прием данных в пул данных SQL Server с заданиями Spark
Записные книжки: