チュートリアル:SQL Server ビッグ データ クラスターにサンプル データを読み込む

適用対象: SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 ビッグ データ クラスターのアドオンは廃止されます。 SQL Server 2019 ビッグ データ クラスターのサポートは、2025 年 2 月 28 日に終了します。 ソフトウェア アシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。 詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグ データ オプション」を参照してください。

このチュートリアルでは、スクリプトを使用して SQL Server 2019 ビッグ データ クラスターにサンプル データを読み込む方法について説明します。 ドキュメントに記載されている他のチュートリアルの多くで、このサンプル データが使用されています。

ヒント

SQL Server 2019 ビッグ データ クラスターの追加のサンプルは、sql-server-samples GitHub リポジトリにあります。 それらは、パス sql-server-samples/samples/features/sql-big-data-cluster/ に置かれています。

前提条件

サンプル データを読み込む

次の手順では、ブートストラップ スクリプトを使用して SQL Server データベースのバックアップをダウンロードし、ご利用のビッグ データ クラスターにそのデータを読み込みます。 使いやすいように、これらの手順は 「Windows」セクションと「Linux」セクションに分けられています。 認証メカニズムとして基本的なユーザー名とパスワードを使用する場合は、スクリプトを実行する前に AZDATA_USERNAME と AZDATA_PASSWORD の環境変数を設定します。 それ以外の場合、スクリプトでは SQL Server マスター インスタンスと Knox ゲートウェイへの接続に統合認証が使用されます。 また、統合認証を使用するには、エンドポイントに対して DNS 名を指定する必要があります。

Windows

次の手順では、Windows クライアントを使用して、ご利用のビッグ データ クラスターにサンプル データを読み込む方法について説明します。

  1. 新しい Windows コマンド プロンプトを開きます。

    重要

    これらの手順には、Windows PowerShell を使用しないでください。 Powershell では、PowerShell バージョンの curl が使用されるため、スクリプトは失敗します。

  2. curl を使用して、サンプル データ用のブートストラップ スクリプトをダウンロードします。

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. bootstrap-sample-db.sql Transact-SQL スクリプトがダウンロードされます。 このスクリプトは、ブートストラップ スクリプトによって呼び出されます。

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. ブートストラップ スクリプトでは、ご利用のビッグ データ クラスターに関する次の位置指定パラメーターが必要です。

    パラメーター 説明
    <CLUSTER_NAMESPACE> ビッグ データ クラスターに付ける名前。
    <SQL_MASTER_ENDPOINT> マスター インスタンスの DNS 名または IP アドレス。
    <KNOX_ENDPOINT> HDFS および Spark ゲートウェイの DNS 名または IP アドレス。

    ヒント

    kubectl を使用して、SQL Server マスター インスタンスと Knox の IP アドレスを検索します。 kubectl get svc -n <your-big-data-cluster-name> を実行して、マスター インスタンスの EXTERNAL-IP アドレス (master-svc-external) と Knox (gateway-svc-external) を確認します。 クラスターの既定の名前は mssql-cluster です。

  5. ブートストラップ スクリプトを実行します。

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

次の手順では、Linux クライアントを使用して、ご利用のビッグ データ クラスターにサンプル データを読み込む方法について説明します。

  1. ブートストラップ スクリプトをダウンロードし、実行可能ファイルのアクセス許可を割り当てます。

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. bootstrap-sample-db.sql Transact-SQL スクリプトがダウンロードされます。 このスクリプトは、ブートストラップ スクリプトによって呼び出されます。

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. ブートストラップ スクリプトでは、ご利用のビッグ データ クラスターに関する次の位置指定パラメーターが必要です。

    パラメーター 説明
    <CLUSTER_NAMESPACE> ビッグ データ クラスターに付ける名前。
    <SQL_MASTER_ENDPOINT> マスター インスタンスの DNS 名または IP アドレス。
    <KNOX_ENDPOINT> HDFS および Spark ゲートウェイの DNS 名または IP アドレス。

    ヒント

    kubectl を使用して、SQL Server マスター インスタンスと Knox の IP アドレスを検索します。 kubectl get svc -n <your-big-data-cluster-name> を実行して、マスター インスタンスの EXTERNAL-IP アドレス (master-svc-external) と Knox (gateway-svc-external) を確認します。 クラスターの既定の名前は mssql-cluster です。

  4. ブートストラップ スクリプトを実行します。

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

次のステップ

ブートストラップ スクリプトが実行されると、ご利用のビッグ データ クラスターにはサンプル データベースと HDFS データが取り込まれます。 次のチュートリアルでは、サンプル データを使用してビッグ データ クラスターの機能を実演します。

データの仮想化:

データ インジェスト:

Notebooks: