Bagikan melalui


Mengonfigurasi Apache Spark dan Apache Hadoop di Kluster Big Data

Penting

Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk SQL Server 2019 Kluster Big Data akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung sepenuhnya pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan Opsi big data di platform Microsoft SQL Server.

Untuk mengonfigurasi Apache Spark dan Apache Hadoop di Kluster Big Data, Anda perlu memodifikasi profil kluster pada waktu penyebaran.

Kluster Big Data memiliki empat kategori konfigurasi:

  • sql
  • hdfs
  • spark
  • gateway

sql, , hdfsspark, sql adalah layanan. Setiap layanan memetakan ke kategori konfigurasi bernama yang sama. Semua konfigurasi gateway masuk ke kategori gateway.

Misalnya, semua konfigurasi dalam layanan hdfs termasuk dalam kategori hdfs. Perhatikan bahwa semua konfigurasi Hadoop (situs inti), HDFS dan Zookeeper termasuk dalam kategori hdfs; semua konfigurasi Livy, Spark, Yarn, Apache Hive, Metastore termasuk dalam kategori spark.

Konfigurasi yang didukung mencantumkan properti Apache Spark & Hadoop yang dapat Anda konfigurasikan saat menyebarkan Kluster Big Data SQL Server.

Bagian berikut ini mencantumkan properti yang tidak dapat Anda ubah dalam kluster:

Konfigurasi melalui profil kluster

Di profil kluster ada sumber daya dan layanan. Pada waktu penyebaran, kita dapat menentukan konfigurasi dengan salah satu dari dua cara:

  • Pertama, di tingkat sumber daya:

    Contoh berikut adalah file patch untuk profil:

    { 
           "op": "add", 
           "path": "spec.resources.zookeeper.spec.settings", 
           "value": { 
             "hdfs": { 
               "zoo-cfg.syncLimit": "6" 
             } 
           } 
    }
    

    Atau:

    { 
           "op": "add", 
           "path": "spec.resources.gateway.spec.settings", 
           "value": { 
             "gateway": { 
               "gateway-site.gateway.httpclient.socketTimeout": "95s" 
             } 
           } 
    } 
    
  • Kedua, pada tingkat layanan. Tetapkan beberapa sumber daya ke layanan, dan tentukan konfigurasi ke layanan.

Berikut ini adalah contoh file patch untuk profil untuk mengatur ukuran blok HDFS:

{ 
      "op": "add", 
      "path": "spec.services.hdfs.settings", 
      "value": { 
        "hdfs-site.dfs.block.size": "268435456" 
     } 
} 

Layanan hdfs ini didefinisikan sebagai:

{ 
  "spec": { 
   "services": { 
     "hdfs": { 
        "resources": [ 
          "nmnode-0", 
          "zookeeper", 
          "storage-0", 
          "sparkhead" 
        ], 
        "settings":{ 
          "hdfs-site.dfs.block.size": "268435456" 
        } 
      } 
    } 
  } 
} 

Catatan

Konfigurasi tingkat sumber daya mengambil alih konfigurasi tingkat layanan. Satu sumber daya dapat ditetapkan ke beberapa layanan.

Mengaktifkan Spark di Kumpulan Penyimpanan

Selain konfigurasi Apache yang didukung, kami juga menawarkan kemampuan untuk mengonfigurasi apakah pekerjaan Spark dapat berjalan di kumpulan Penyimpanan atau tidak. Nilai boolean ini, includeSpark, ada dalam bdc.json file konfigurasi di spec.resources.storage-0.spec.settings.spark.

Contoh definisi kumpulan penyimpanan di bdc.json mungkin terlihat seperti ini:

...
"storage-0": {
                "metadata": {
                    "kind": "Pool",
                    "name": "default"
                },
                "spec": {
                    "type": "Storage",
                    "replicas": 2,
                    "settings": {
                        "spark": {
                            "includeSpark": "true"
                        }
                    }
                }
            }

Pembatasan

Konfigurasi hanya dapat ditentukan pada tingkat kategori. Untuk menentukan beberapa konfigurasi dengan sub-kategori yang sama, kami tidak dapat mengekstrak awalan umum dalam profil kluster.

{ 
      "op": "add", 
      "path": "spec.services.hdfs.settings.core-site.hadoop", 
      "value": { 
        "proxyuser.xyz.users": "*", 
        "proxyuser.abc.users": "*" 
     } 
} 

Langkah berikutnya