Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Область применения: SQL Server 2019 (15.x)
Important
Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.
В этом руководстве объясняется, как использовать скрипт для загрузки примеров данных в кластеры больших данных SQL Server 2019. Многие из других учебников в документации используют эти примеры данных.
Tip
Дополнительные примеры для кластеров больших данных SQL Server 2019 можно найти в репозитории GitHub sql-server-samples . Они находятся в sql-server-samples/samples/features/sql-big-data-cluster/ path.
Prerequisites
- Развернутый кластер больших данных
-
Средства работы с большими данными
- azdata
- kubectl
- sqlcmd
- curl
Загрузка примеров данных
В следующих шагах используется скрипт начальной загрузки для скачивания резервной копии базы данных SQL Server и загрузки данных в кластер больших данных. Для удобства использования эти действия были разделены на разделы Windows и Linux . Если вы хотите использовать базовое имя пользователя или пароль в качестве механизма проверки подлинности, установите AZDATA_USERNAME и AZDATA_PASSWORD переменные среды перед выполнением скрипта. В противном случае скрипт будет использовать встроенную проверку подлинности для подключения к главному экземпляру SQL Server и шлюзу Knox. Кроме того, DNS-имя следует указать для конечных точек, чтобы использовать встроенную проверку подлинности.
Windows
Ниже описано, как использовать клиент Windows для загрузки примеров данных в кластер больших данных.
Откройте новую командную строку Windows.
Important
Не используйте Windows PowerShell для этих действий. В PowerShell скрипт завершится сбоем, так как он будет использовать версию Curl PowerShell.
Используйте curl , чтобы скачать скрипт начальной загрузки для примера данных.
curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"Скачайте скрипт bootstrap-sample-db.sql Transact-SQL . Этот скрипт вызывается скриптом начальной загрузки.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"Скрипт начальной загрузки требует следующих позиционных параметров для кластера больших данных:
Parameter Description <CLUSTER_NAMESPACE> Имя, присвоенное кластеру больших данных. <SQL_MASTER_ENDPOINT> DNS-имя или IP-адрес главного экземпляра. <KNOX_ENDPOINT> DNS-имя или IP-адрес шлюза HDFS/Spark. Tip
Используйте kubectl , чтобы найти IP-адреса для главного экземпляра SQL Server и Knox. Запустите
kubectl get svc -n <your-big-data-cluster-name>и просмотрите адреса EXTERNAL-IP для главного экземпляра (master-svc-external) и Knox (gateway-svc-external). Имя кластера по умолчанию — mssql-cluster.Запустите скрипт начальной загрузки.
.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Linux
Ниже описано, как использовать клиент Linux для загрузки примеров данных в кластер больших данных.
Скачайте скрипт начальной загрузки и назначьте ему права на выполнение.
curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh" chmod +x bootstrap-sample-db.shСкачайте скрипт bootstrap-sample-db.sql Transact-SQL . Этот скрипт вызывается скриптом начальной загрузки.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"Скрипт начальной загрузки требует следующих позиционных параметров для кластера больших данных:
Parameter Description <CLUSTER_NAMESPACE> Имя, присвоенное кластеру больших данных. <SQL_MASTER_ENDPOINT> DNS-имя или IP-адрес главного экземпляра. <KNOX_ENDPOINT> DNS-имя или IP-адрес шлюза HDFS/Spark. Tip
Используйте kubectl , чтобы найти IP-адреса для главного экземпляра SQL Server и Knox. Запустите
kubectl get svc -n <your-big-data-cluster-name>и просмотрите адреса EXTERNAL-IP для главного экземпляра (master-svc-external) и Knox (gateway-svc-external). Имя кластера по умолчанию — mssql-cluster.Запустите скрипт начальной загрузки.
./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Next steps
После выполнения сценария начальной загрузки, ваш кластер для обработки больших объемов данных содержит образцы баз данных и данные HDFS. В следующих руководствах используются примеры данных для демонстрации возможностей кластера больших данных:
Data Virtualization:
- Руководство по запросу HDFS в кластере больших данных SQL Server
- Руководство: Запросы к Oracle из кластера больших данных SQL Server
Data ingestion:
- Руководство. Прием данных в пул данных SQL Server с помощью Transact-SQL
- Руководство: Загрузка данных в пул SQL Server с помощью заданий Spark
Notebooks: