教學課程:將範例資料載入 SQL Server 巨量資料叢集

適用於:SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 巨量資料叢集附加元件將會淘汰。 SQL Server 2019 巨量資料叢集的支援將於 2025 年 2 月 28 日結束。 平台上將完全支援含軟體保證 SQL Server 2019 的所有現有使用者,而且軟體將會持續透過 SQL Server 累積更新來維護,直到該時間為止。 如需詳細資訊,請參閱公告部落格文章Microsoft SQL Server 平台上的巨量資料選項

本教學課程說明如何使用指令碼將範例資料載入 SQL Server 2019 巨量資料叢集中。 文件中的許多其他教學課程都使用此範例資料。

提示

您可以在 sql-server-samples GitHub 存放庫中找到 SQL Server 2019 巨量資料叢集的其他範例。 這些範例位於 sql-server-samples/samples/features/sql-big-data-cluster/ 路徑中。

Prerequisites

載入範例資料

下列步驟會使用啟動程序指令碼來下載 SQL Server 資料庫備份,並將資料載入您的巨量資料叢集中。 為了方便,這些步驟已細分為 WindowsLinux 章節。 如果您想要使用基本使用者名稱/密碼作為驗證機制,請在執行指令碼之前,先設定 AZDATA_USERNAME 與 AZDATA_PASSWORD 環境變數。 否則,指令碼將使用整合式驗證來連線到 SQL Server 主要執行個體與 Knox 閘道。 此外,也應該為端點指定 DNS 名稱以使用整合式驗證。

Windows

下列步驟描述如何使用 Windows 用戶端將範例資料載入您的巨量資料叢集。

  1. 開啟新的 Windows 命令提示字元。

    重要

    請勿使用 Windows PowerShell 執行這些步驟。 指令碼在 PowerShell 中會失敗,因為其會使用 curl 的 PowerShell 版本。

  2. 使用 url 下載範例資料的啟動程序指令碼。

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. 下載 bootstrap-sample-db.sql Transact-SQL 指令碼。 此指令碼是由啟動程序指令碼所呼叫。

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. 啟動程序指令碼需要巨量資料叢集的下列位置參數:

    參數 Description
    <CLUSTER_NAMESPACE> 您為巨量資料叢集提供的名稱。
    <SQL_MASTER_ENDPOINT> 主要執行個體的 DNS 名稱或 IP 位址。
    <KNOX_ENDPOINT> HDFS/Spark 閘道的 DNS 名稱或 IP 位址。

    提示

    使用 kubectl 來尋找 SQL Server 主要執行個體和 Knox 的 IP 位址。 執行 kubectl get svc -n <your-big-data-cluster-name> 並查看主要執行個體 (master-svc-external) 和 Knox (gateway-svc-external) 的外部 IP 位址。 叢集的預設名稱是 mssql-cluster

  5. 執行啟動程序指令碼。

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

下列步驟描述如何使用 Linux 用戶端將範例資料載入您的巨量資料叢集。

  1. 下載啟動程序指令碼,並為其指派可執行檔的權限。

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. 下載 bootstrap-sample-db.sql Transact-SQL 指令碼。 此指令碼是由啟動程序指令碼所呼叫。

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. 啟動程序指令碼需要巨量資料叢集的下列位置參數:

    參數 Description
    <CLUSTER_NAMESPACE> 您為巨量資料叢集提供的名稱。
    <SQL_MASTER_ENDPOINT> 主要執行個體的 DNS 名稱或 IP 位址。
    <KNOX_ENDPOINT> HDFS/Spark 閘道的 DNS 名稱或 IP 位址。

    提示

    使用 kubectl 來尋找 SQL Server 主要執行個體和 Knox 的 IP 位址。 執行 kubectl get svc -n <your-big-data-cluster-name> 並查看主要執行個體 (master-svc-external) 和 Knox (gateway-svc-external) 的外部 IP 位址。 叢集的預設名稱是 mssql-cluster

  4. 執行啟動程序指令碼。

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

下一步

執行啟動程序指令碼之後,您的巨量資料叢集會具有範例資料庫和 HDFS 資料。 下列教學課程使用範例資料來示範巨量資料叢集功能:

資料虛擬化:

資料擷取:

Notebooks: