ビッグデータクラスターで Apache Spark と Apache Hadoop を構成する

[アーティクル]
03/21/2023

重要

Microsoft SQL Server 2019 ビッグデータクラスターのアドオンは廃止されます。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日に終了します。ソフトウェアアシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグデータオプション」を参照してください。

ビッグデータクラスターで Apache Spark と Apache Hadoop を構成するには、展開時にクラスタープロファイルを変更する必要があります。

ビッグデータクラスターには、次の 4 つの構成カテゴリがあります。

sql
hdfs
spark
gateway

sql、hdfs、spark、sql がサービスです。各サービスは同じ名前の構成カテゴリにマップされます。すべてのゲートウェイ構成は、カテゴリ gateway に属します。

たとえば、サービス hdfs のすべての構成は、カテゴリ hdfs に属します。 Hadoop (コアサイト)、HDFS、Zookeeper の構成はすべて、カテゴリ hdfs に属し、Livy、Spark、Yarn、Hive、メタストアの構成はすべて、カテゴリ spark に属すことにご注意ください。

サポートされている構成には、SQL Server ビッグデータクラスターの展開時に構成できる Apache Spark と Hadoop のプロパティがリストアップされています。

次のセクションでは、クラスターで変更できないプロパティをリストアップしています。

クラスタープロファイルによる構成

クラスタープロファイルには、リソースとサービスがあります。展開時に、次の 2 つの方法のいずれかで構成を指定することができます。

1 つ目は、リソースレベルでの構成です。

次の例は、プロファイルの修正プログラムファイルを示しています。

{ 
       "op": "add", 
       "path": "spec.resources.zookeeper.spec.settings", 
       "value": { 
         "hdfs": { 
           "zoo-cfg.syncLimit": "6" 
         } 
       } 
}

または:

{ 
       "op": "add", 
       "path": "spec.resources.gateway.spec.settings", 
       "value": { 
         "gateway": { 
           "gateway-site.gateway.httpclient.socketTimeout": "95s" 
         } 
       } 
}

2 つ目は、サービスレベルでの構成です。複数のリソースを 1 つのサービスに割り当て、サービスに対して構成を指定します。

次は、HDFS ブロックサイズを設定するためのプロファイルの修正プログラムファイル例です。

{ 
      "op": "add", 
      "path": "spec.services.hdfs.settings", 
      "value": { 
        "hdfs-site.dfs.block.size": "268435456" 
     } 
}

サービス hdfs は次のように定義されます。

{ 
  "spec": { 
   "services": { 
     "hdfs": { 
        "resources": [ 
          "nmnode-0", 
          "zookeeper", 
          "storage-0", 
          "sparkhead" 
        ], 
        "settings":{ 
          "hdfs-site.dfs.block.size": "268435456" 
        } 
      } 
    } 
  } 
}

Note

リソースレベルの構成は、サービスレベルの構成をオーバーライドします。 1 つのリソースを複数のサービスに割り当てることができます。

記憶域プールで Spark を有効にする

サポートされている Apache の構成に加えて、Spark ジョブをストレージプールで実行できるかどうかを構成する機能も用意されています。このブール値 includeSparkは、spec.resources.storage-0.spec.settings.spark にある bdc.json 構成ファイル内にあります。

bdc.json の記憶域プール定義の例は次のようになることがあります。

...
"storage-0": {
                "metadata": {
                    "kind": "Pool",
                    "name": "default"
                },
                "spec": {
                    "type": "Storage",
                    "replicas": 2,
                    "settings": {
                        "spark": {
                            "includeSpark": "true"
                        }
                    }
                }
            }

制限事項

構成は、カテゴリレベルでのみ指定することができます。同じサブカテゴリで複数の構成を指定するために、クラスタープロファイルで共通プレフィックスを抽出することはできません。

{ 
      "op": "add", 
      "path": "spec.services.hdfs.settings.core-site.hadoop", 
      "value": { 
        "proxyuser.xyz.users": "*", 
        "proxyuser.abc.users": "*" 
     } 
}

次の方法で共有

ビッグデータクラスターで Apache Spark と Apache Hadoop を構成する

クラスタープロファイルによる構成

記憶域プールで Spark を有効にする

制限事項

次のステップ

フィードバック

その他のリソース

次の方法で共有

ビッグ データ クラスターで Apache Spark と Apache Hadoop を構成する

クラスター プロファイルによる構成

記憶域プールで Spark を有効にする

制限事項

次のステップ

フィードバック

その他のリソース

ビッグデータクラスターで Apache Spark と Apache Hadoop を構成する

クラスタープロファイルによる構成