教程:将示例数据加载到 SQL Server 大数据群集中
适用于: SQL Server 2019 (15.x)
重要
Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持,在此之前,该软件将继续通过 SQL Server 累积更新进行维护。 有关详细信息,请参阅公告博客文章和 Microsoft SQL Server 平台上的大数据选项。
本教程介绍如何使用脚本将示例数据加载到 SQL Server 2019 大数据群集 中。 文档中的许多其他教程也使用此示例数据。
提示
可在 sql-server-samples GitHub 存储库中找到 SQL Server 2019 大数据群集 的其他示例。 它们位于 sql-server-samples/samples/features/sql-big-data-cluster/ 路径中。
先决条件
加载示例数据
以下步骤使用启动脚本下载 SQL Server 数据库备份并将数据加载到大数据群集中。 为了便于使用,这些步骤已划分为 Windows 和 Linux 部分。 若要将基本用户名/密码用作身份验证机制,请先设置 AZDATA_USERNAME 和 AZDATA_PASSWORD 环境变量,再执行脚本。 否则,脚本会使用集成身份验证连接到 SQL Server 主实例和 Knox 网关。 此外,若要使用集成身份验证,还应为终结点指定 DNS 名称。
Windows
以下步骤介绍如何使用 Windows 客户端将示例数据加载到大数据群集中。
打开新的 Windows 命令提示符。
重要
不要使用 Windows PowerShell 执行这些步骤。 在 PowerShell 中,脚本将失败,因为它将使用 PowerShell 的 curl 版本。
使用 curl 下载示例数据的启动脚本。
curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
下载 bootstrap-sample-db.sql Transact-SQL 脚本。 此脚本由启动脚本调用。
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
启动脚本需要大数据群集的以下位置参数:
参数 说明 <CLUSTER_NAMESPACE> 为大数据群集提供的名称。 <SQL_MASTER_ENDPOINT> 主实例的 DNS 名称或 IP 地址。 <KNOX_ENDPOINT> HDFS/Spark 网关的 DNS 名称或 IP 地址。 提示
使用 kubectl 查找 SQL Server 主实例和 Knox 的 IP 地址。 运行
kubectl get svc -n <your-big-data-cluster-name>
并查看主实例 (master-svc-external) 和 Knox (gateway-svc-external) 的外部 IP 地址。 群集的默认名称为 mssql-cluster。运行启动脚本。
.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Linux
以下步骤介绍如何使用 Linux 客户端将示例数据加载到大数据群集中。
下载启动脚本并为其分配可执行权限。
curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh" chmod +x bootstrap-sample-db.sh
下载 bootstrap-sample-db.sql Transact-SQL 脚本。 此脚本由启动脚本调用。
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
启动脚本需要大数据群集的以下位置参数:
参数 说明 <CLUSTER_NAMESPACE> 为大数据群集提供的名称。 <SQL_MASTER_ENDPOINT> 主实例的 DNS 名称或 IP 地址。 <KNOX_ENDPOINT> HDFS/Spark 网关的 DNS 名称或 IP 地址。 提示
使用 kubectl 查找 SQL Server 主实例和 Knox 的 IP 地址。 运行
kubectl get svc -n <your-big-data-cluster-name>
并查看主实例 (master-svc-external) 和 Knox (gateway-svc-external) 的外部 IP 地址。 群集的默认名称为 mssql-cluster。运行启动脚本。
./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
后续步骤
运行启动脚本后,大数据群集具有示例数据库和 HDFS 数据。 以下教程使用示例数据来演示大数据群集功能:
数据虚拟化:
数据引入:
笔记本: