Руководство. Загрузка примеров данных в кластер больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

Important

Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.

В этом руководстве объясняется, как использовать скрипт для загрузки примеров данных в кластеры больших данных SQL Server 2019. Многие из других учебников в документации используют эти примеры данных.

Tip

Дополнительные примеры для кластеров больших данных SQL Server 2019 можно найти в репозитории GitHub sql-server-samples . Они находятся в sql-server-samples/samples/features/sql-big-data-cluster/ path.

Prerequisites

Развернутый кластер больших данных
Средства работы с большими данными
- azdata
- kubectl
- sqlcmd
- curl

Загрузка примеров данных

В следующих шагах используется скрипт начальной загрузки для скачивания резервной копии базы данных SQL Server и загрузки данных в кластер больших данных. Для удобства использования эти действия были разделены на разделы Windows и Linux . Если вы хотите использовать базовое имя пользователя или пароль в качестве механизма проверки подлинности, установите AZDATA_USERNAME и AZDATA_PASSWORD переменные среды перед выполнением скрипта. В противном случае скрипт будет использовать встроенную проверку подлинности для подключения к главному экземпляру SQL Server и шлюзу Knox. Кроме того, DNS-имя следует указать для конечных точек, чтобы использовать встроенную проверку подлинности.

Windows

Ниже описано, как использовать клиент Windows для загрузки примеров данных в кластер больших данных.

Откройте новую командную строку Windows.

Important

Не используйте Windows PowerShell для этих действий. В PowerShell скрипт завершится сбоем, так как он будет использовать версию Curl PowerShell.

Используйте curl , чтобы скачать скрипт начальной загрузки для примера данных.

curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"

Скачайте скрипт bootstrap-sample-db.sql Transact-SQL . Этот скрипт вызывается скриптом начальной загрузки.

curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"

Скрипт начальной загрузки требует следующих позиционных параметров для кластера больших данных:

Parameter	Description
<CLUSTER_NAMESPACE>	Имя, присвоенное кластеру больших данных.
<SQL_MASTER_ENDPOINT>	DNS-имя или IP-адрес главного экземпляра.
<KNOX_ENDPOINT>	DNS-имя или IP-адрес шлюза HDFS/Spark.

Tip

Используйте kubectl , чтобы найти IP-адреса для главного экземпляра SQL Server и Knox. Запустите kubectl get svc -n <your-big-data-cluster-name> и просмотрите адреса EXTERNAL-IP для главного экземпляра (master-svc-external) и Knox (gateway-svc-external). Имя кластера по умолчанию — mssql-cluster.

Запустите скрипт начальной загрузки.

.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>

Linux

Ниже описано, как использовать клиент Linux для загрузки примеров данных в кластер больших данных.

Скачайте скрипт начальной загрузки и назначьте ему права на выполнение.

curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
chmod +x bootstrap-sample-db.sh

Скачайте скрипт bootstrap-sample-db.sql Transact-SQL . Этот скрипт вызывается скриптом начальной загрузки.

curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"

Скрипт начальной загрузки требует следующих позиционных параметров для кластера больших данных:

Parameter	Description
<CLUSTER_NAMESPACE>	Имя, присвоенное кластеру больших данных.
<SQL_MASTER_ENDPOINT>	DNS-имя или IP-адрес главного экземпляра.
<KNOX_ENDPOINT>	DNS-имя или IP-адрес шлюза HDFS/Spark.

Tip

Запустите скрипт начальной загрузки.

./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>

Next steps

После выполнения сценария начальной загрузки, ваш кластер для обработки больших объемов данных содержит образцы баз данных и данные HDFS. В следующих руководствах используются примеры данных для демонстрации возможностей кластера больших данных:

Data Virtualization:

Data ingestion:

Notebooks:

Руководство. Запуск примера записной книжки в кластере больших данных SQL Server 2019

Last updated on 2019-08-21