Configurare Apache Spark e Apache Hadoop nei cluster Big Data

Important

I cluster Big Data di Microsoft SQL Server 2019 sono stati ritirati. Il supporto per i cluster Big Data di SQL Server 2019 è terminato a partire dal 28 febbraio 2025. Per altre informazioni, vedere il post di blog sull'annuncio e le opzioni per Big Data nella piattaforma Microsoft SQL Server.

Per configurare Apache Spark e Apache Hadoop nei cluster Big Data, è necessario modificare il profilo del cluster in fase di distribuzione.

Un cluster Big Data ha quattro categorie di configurazione:

sql
hdfs
spark
gateway

sql, hdfs, spark, sql sono servizi. Ogni servizio viene mappato alla stessa categoria di configurazione denominata. Tutte le configurazioni del gateway passano alla categoria gateway.

Ad esempio, tutte le configurazioni nel servizio hdfs appartengono alla categoria hdfs. Si noti che tutte le configurazioni Hadoop (core-site), HDFS e Zookeeper appartengono alla categoria hdfs. Tutte le configurazioni Livy, Spark, Yarn, Hive, Metastore appartengono alla categoria spark.

Le configurazioni supportate elencano le proprietà apache Spark e Hadoop che è possibile configurare quando si distribuisce un cluster Big Data di SQL Server.

Le sezioni seguenti elencano le proprietà che non è possibile modificare in un cluster:

Configurazioni tramite profilo del cluster

Nel profilo del cluster sono disponibili risorse e servizi. In fase di distribuzione, è possibile specificare le configurazioni in uno dei due modi seguenti:

In primo luogo, a livello di risorsa:

Gli esempi seguenti sono i file di patch per il profilo:

{ 
       "op": "add", 
       "path": "spec.resources.zookeeper.spec.settings", 
       "value": { 
         "hdfs": { 
           "zoo-cfg.syncLimit": "6" 
         } 
       } 
}

Or:

{ 
       "op": "add", 
       "path": "spec.resources.gateway.spec.settings", 
       "value": { 
         "gateway": { 
           "gateway-site.gateway.httpclient.socketTimeout": "95s" 
         } 
       } 
}

In secondo luogo, a livello di servizio. Assegnare più risorse a un servizio e specificare le configurazioni al servizio.

Di seguito è riportato un esempio del file patch per il profilo per l'impostazione delle dimensioni del blocco HDFS:

{ 
      "op": "add", 
      "path": "spec.services.hdfs.settings", 
      "value": { 
        "hdfs-site.dfs.block.size": "268435456" 
     } 
}

Il servizio hdfs è definito come:

{ 
  "spec": { 
   "services": { 
     "hdfs": { 
        "resources": [ 
          "nmnode-0", 
          "zookeeper", 
          "storage-0", 
          "sparkhead" 
        ], 
        "settings":{ 
          "hdfs-site.dfs.block.size": "268435456" 
        } 
      } 
    } 
  } 
}

Note

Le configurazioni a livello di risorsa sostituiscono le configurazioni a livello di servizio. Una risorsa può essere assegnata a più servizi.

Abilitare Spark nel pool di archiviazione

Oltre alle configurazioni Apache supportate, è anche possibile configurare se i processi Spark possono essere eseguiti nel pool di archiviazione. Questo valore booleano, includeSpark, si trova nel file di configurazione in bdc.jsonspec.resources.storage-0.spec.settings.spark.

Una definizione di pool di archiviazione di esempio in bdc.json può essere simile alla seguente:

...
"storage-0": {
                "metadata": {
                    "kind": "Pool",
                    "name": "default"
                },
                "spec": {
                    "type": "Storage",
                    "replicas": 2,
                    "settings": {
                        "spark": {
                            "includeSpark": "true"
                        }
                    }
                }
            }

Limitations

Le configurazioni possono essere specificate solo a livello di categoria. Per specificare più configurazioni con la stessa sottocategoria, non è possibile estrarre il prefisso comune nel profilo del cluster.

{ 
      "op": "add", 
      "path": "spec.services.hdfs.settings.core-site.hadoop", 
      "value": { 
        "proxyuser.xyz.users": "*", 
        "proxyuser.abc.users": "*" 
     } 
}

Next steps

Last updated on 2020-08-04

Condividi tramite

Configurare Apache Spark e Apache Hadoop nei cluster Big Data

Configurazioni tramite profilo del cluster

Abilitare Spark nel pool di archiviazione

Limitations

Next steps

Risorse aggiuntive