Condividi tramite


Proprietà di configurazione di Apache Spark e Apache Hadoop (HDFS)

Si applica a:SQL Server 2019 (15.x)

Important

I cluster Big Data di Microsoft SQL Server 2019 sono stati ritirati. Il supporto per i cluster Big Data di SQL Server 2019 è terminato a partire dal 28 febbraio 2025. Per altre informazioni, vedere il post di blog sull'annuncio e le opzioni per Big Data nella piattaforma Microsoft SQL Server.

I cluster Big Data supportano la configurazione in fase di distribuzione e post-distribuzione dei componenti Apache Spark e Hadoop negli ambiti del servizio e delle risorse. I cluster Big Data usano gli stessi valori di configurazione predefiniti del rispettivo progetto open source per la maggior parte delle impostazioni. Le impostazioni da modificare sono elencate di seguito insieme a una descrizione e al relativo valore predefinito. Oltre alla risorsa gateway, non esiste alcuna differenza tra le impostazioni configurabili nell'ambito del servizio e l'ambito della risorsa.

È possibile trovare tutte le configurazioni possibili e le impostazioni predefinite per ognuna nel sito della documentazione di Apache associato:

Di seguito sono elencate anche le impostazioni non supportate per la configurazione.

Note

Per includere Spark nel pool di archiviazione, impostare il valore includeSpark booleano nel bdc.json file di configurazione in spec.resources.storage-0.spec.settings.spark. Per istruzioni, vedere Configurare Apache Spark e Apache Hadoop nei cluster Big Data .

Impostazioni predefinite specifiche dei cluster Big Data

Le impostazioni di Spark seguenti sono quelle con impostazioni predefinite specifiche di BDC, ma configurabili dall'utente. Le impostazioni gestite dal sistema non sono incluse.

Setting Name Description Type Default Value
capacity-scheduler.yarn.scheduler.capacity.maximum-applications Numero massimo di applicazioni nel sistema che possono essere attive simultaneamente sia in esecuzione che in sospeso. int 10000
capacity-scheduler.yarn.scheduler.capacity.resource-calculator Implementazione di ResourceCalculator da usare per confrontare le risorse nell'utilità di pianificazione. string org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
capacity-scheduler.yarn.scheduler.capacity.root.queues Utilità di pianificazione della capacità con coda predefinita denominata root. string default
capacity-scheduler.yarn.scheduler.capacity.root.default.capacity Capacità della coda in percentuale (%) come capacità minima della coda di risorse assoluta per la coda radice. int 100
spark-defaults-conf.spark.driver.cores Numero di core da usare per il processo del driver, solo in modalità cluster. int 1
spark-defaults-conf.spark.driver.memoryOverhead Quantità di memoria off-heap da allocare per ogni driver in modalità cluster. int 384
spark-defaults-conf.spark.executor.instances Numero di executor per l'allocazione statica. int 1
spark-defaults-conf.spark.executor.cores Numero di core da usare in ogni executor. int 1
spark-defaults-conf.spark.driver.memory Quantità di memoria da usare per il processo del driver. string 1g
spark-defaults-conf.spark.executor.memory Quantità di memoria da usare per ogni processo di executor. string 1g
spark-defaults-conf.spark.executor.memoryOverhead Quantità di memoria off-heap da allocare per ogni executor. int 384
yarn-site.yarn.nodemanager.resource.memory-mb Quantità di memoria fisica, in MB, che può essere allocata per i contenitori. int 8192
yarn-site.yarn.scheduler.maximum-allocation-mb Allocazione massima per ogni richiesta di contenitore in Resource Manager. int 8192
yarn-site.yarn.nodemanager.resource.cpu-vcores Numero di core CPU che possono essere allocati per i contenitori. int 32
yarn-site.yarn.scheduler.maximum-allocation-vcores Allocazione massima per ogni richiesta di contenitore in Resource Manager, in termini di core CPU virtuali. int 8
yarn-site.yarn.nodemanager.linux-container-executor.secure-mode.pool-user-count Numero di utenti del pool per l'executor del contenitore Linux in modalità protetta. int 6
yarn-site.yarn.scheduler.capacity.maximum-am-resource-percent Percentuale massima di risorse nel cluster che può essere usata per eseguire master applicazioni. float 0.1
yarn-site.yarn.nodemanager.container-executor.class Executor di contenitori per uno o più sistemi operativi specifici. string org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor
capacity-scheduler.yarn.scheduler.capacity.root.default.user-limit-factor Multiplo della capacità della coda che può essere configurata per consentire a un singolo utente di acquisire più risorse. int 1
capacity-scheduler.yarn.scheduler.capacity.root.default.maximum-capacity Capacità massima della coda in percentuale (%) come float OR come capacità massima della coda di risorse assoluta. L'impostazione di questo valore su -1 imposta la capacità massima su 100%. int 100
capacity-scheduler.yarn.scheduler.capacity.root.default.state Lo stato della coda può essere in esecuzione o arrestato. string RUNNING
capacity-scheduler.yarn.scheduler.capacity.root.default.maximum-application-lifetime Durata massima di un'applicazione inviata a una coda in secondi. Qualsiasi valore minore o uguale a zero verrà considerato disabilitato. int -1
capacity-scheduler.yarn.scheduler.capacity.root.default.default-application-lifetime Durata predefinita di un'applicazione inviata a una coda in secondi. Qualsiasi valore minore o uguale a zero verrà considerato disabilitato. int -1
capacity-scheduler.yarn.scheduler.capacity.node-locality-delay Numero di opportunità di pianificazione perse dopo la quale CapacityScheduler tenta di pianificare contenitori locali rack. int 40
capacity-scheduler.yarn.scheduler.capacity.rack-locality-additional-delay Numero di opportunità di pianificazione aggiuntive perse rispetto a quelle con ritardo di localizzazione dei nodi, dopo le quali CapacityScheduler tenta di pianificare i contenitori disattivati. int -1
hadoop-env.HADOOP_HEAPSIZE_MAX Dimensioni massime heap predefinite di tutti i processi JVM Hadoop. int 2048
yarn-env.YARN_RESOURCEMANAGER_HEAPSIZE Dimensioni dell'heap di Yarn ResourceManager. int 2048
yarn-env.YARN_NODEMANAGER_HEAPSIZE Dimensioni dell'heap di Yarn NodeManager. int 2048
mapred-env.HADOOP_JOB_HISTORYSERVER_HEAPSIZE Dimensioni dell'heap di Hadoop Job HistoryServer. int 2048
hive-env.HADOOP_HEAPSIZE Dimensioni dell'heap di Hadoop per Hive. int 2048
livy-conf.livy.server.session.timeout-check Controllare il timeout della sessione del server Livy. bool true
livy-conf.livy.server.session.timeout-check.skip-busy Non occupato per Controllare il timeout della sessione del server Livy. bool true
livy-conf.livy.server.session.timeout Timeout per la sessione del server livy in (ms/s/m | min/h/d/y). string 2h
livy-conf.livy.server.yarn.poll-interval Intervallo di polling per yarn nel server Livy in (ms/s/m | min/h/d/y). string 500ms
livy-conf.livy.rsc.jars Jar Livy RSC. string local:/opt/livy/rsc-jars/livy-api.jar,local:/opt/livy/rsc-jars/livy-rsc.jar,local:/opt/livy/rsc-jars/netty-all.jar
livy-conf.livy.repl.jars Jar livy repl. string local:/opt/livy/repl_2.11-jars/livy-core.jar,local:/opt/livy/repl_2.11-jars/livy-repl.jar,local:/opt/livy/repl_2.11-jars/commons-codec.jar
livy-conf.livy.rsc.sparkr.package Pacchetto SparkR LIVy RSC. string hdfs:///system/livy/sparkr.zip
livy-env.LIVY_SERVER_JAVA_OPTS Opzioni Java del server Livy. string -Xmx2g
spark-defaults-conf.spark.r.backendConnectionTimeout Timeout della connessione impostato dal processo R sulla connessione a RBackend in secondi. int 86400
spark-defaults-conf.spark.pyspark.python Opzione Python per Spark. string /opt/bin/python3
spark-defaults-conf.spark.yarn.jars Yarn jars. string local:/opt/spark/jars/*
spark-history-server-conf.spark.history.fs.cleaner.maxAge Validità massima dei file di cronologia processi prima dell'eliminazione dalla cronologia del file system in (ms/s/m | min/h/d/y). string 7d
spark-history-server-conf.spark.history.fs.cleaner.interval Intervallo di pulizia per la cronologia spark in (ms/s/m | min/h/d/y). string 12h
hadoop-env.HADOOP_CLASSPATH Imposta il classpath Hadoop aggiuntivo. string
spark-env.SPARK_DAEMON_MEMORY Memoria del daemon Spark. string 2g
yarn-site.yarn.log-aggregation.retain-seconds Quando l'aggregazione dei log è abilitata, questa proprietà determina il numero di secondi di conservazione dei log. int 604800
yarn-site.yarn.nodemanager.log-aggregation.compression-type Tipo di compressione per l'aggregazione dei log per Yarn NodeManager. string gz
yarn-site.yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds Intervallo di secondi per il monitoraggio del rollback nell'aggregazione log NodeManager. int 3600
yarn-site.yarn.scheduler.minimum-allocation-mb Allocazione minima per ogni richiesta di contenitore in Resource Manager, in MB. int 512
yarn-site.yarn.scheduler.minimum-allocation-vcores Allocazione minima per ogni richiesta di contenitore in Resource Manager in termini di core CPU virtuali. int 1
yarn-site.yarn.nm.liveness-monitor.expiry-interval-ms Tempo di attesa fino a quando un gestore nodi non viene considerato inattivo. int 180000
yarn-site.yarn.resourcemanager.zk-timeout-ms Timeout sessione 'ZooKeeper' in millisecondi. int 40000
capacity-scheduler.yarn.scheduler.capacity.root.default.acl_application_max_priority Elenco di controllo di accesso di chi può inviare applicazioni con priorità configurata. Ad esempio, [user={name} group={name} max_priority={priority} default_priority={priority}]. string *
includeSpark Valore booleano per configurare se i processi Spark possono essere eseguiti nel pool di archiviazione. bool true
enableSparkOnK8s Valore booleano per configurare se abilitare o meno Spark in K8s, che aggiunge contenitori per K8s nella testa spark. bool false
sparkVersion Versione di Spark string 2.4
spark-env.PYSPARK_ARCHIVES_PATH Percorso dei file JAR di archivio pyspark usati nei processi Spark. string local:/opt/spark/python/lib/pyspark.zip,local:/opt/spark/python/lib/py4j-0.10.7-src.zip

Nelle sezioni seguenti sono elencate le configurazioni non supportate.

Impostazioni predefinite specifiche dei cluster Big Data

Le impostazioni HDFS seguenti sono quelle con impostazioni predefinite specifiche di BDC, ma configurabili dall'utente. Le impostazioni gestite dal sistema non sono incluse.

Setting Name Description Type Default Value
hdfs-site.dfs.replication Replica di blocchi predefinita. int 2
hdfs-site.dfs.namenode.provided.enabled Consente al nodo del nome di gestire le risorse di archiviazione fornite. bool true
hdfs.site.dfs.namenode.mount.acls.enabled Impostare su true per ereditare gli elenchi di controllo di accesso (elenchi di controllo di accesso) dagli archivi remoti durante il montaggio. bool false
hdfs-site.dfs.datanode.provided.enabled Consente al nodo dati di gestire le risorse di archiviazione fornite. bool true
hdfs-site.dfs.datanode.provided.volume.lazy.load Abilitare il caricamento differita nel nodo dati per le risorse di archiviazione fornite. bool true
hdfs-site.dfs.provided.aliasmap.inmemory.enabled Abilitare la mappa alias in memoria per le risorse di archiviazione fornite. bool true
hdfs-site.dfs.provided.aliasmap.class Classe utilizzata per specificare il formato di input dei blocchi nelle risorse di archiviazione fornite. string org.apache.hadoop.hdfs.server.common.blockaliasmap.impl.InMemoryLevelDBAliasMapClient
hdfs-site.dfs.namenode.provided.aliasmap.class Classe utilizzata per specificare il formato di input dei blocchi nelle risorse di archiviazione fornite per namenode. string org.apache.hadoop.hdfs.server.common.blockaliasmap.impl.NamenodeInMemoryAliasMapClient
hdfs-site.dfs.provided.aliasmap.load.retries Numero di tentativi nel nodo dati per caricare l'aliasmap fornito. int 0
hdfs-site.dfs.provided.aliasmap.inmemory.batch-size Dimensioni del batch durante l'iterazione del database che esegue il backup dell'aliasmap. int 500
hdfs-site.dfs.datanode.provided.volume.readthrough Abilitare la procedura di lettura per le risorse di archiviazione fornite nel nodo dati. bool true
hdfs-site.dfs.provided.cache.capacity.mount Abilitare il montaggio della capacità della cache per le risorse di archiviazione fornite. bool true
hdfs-site.dfs.provided.overreplication.factor Fattore di sovraplicazione per le risorse di archiviazione fornite. Numero di blocchi di cache nel cluster BDC creato per ogni blocco HDFS remoto. float 1
hdfs-site.dfs.provided.cache.capacity.fraction Frazione di capacità della cache per l'archiviazione specificata. Frazione della capacità totale nel cluster che può essere usata per memorizzare nella cache i dati dagli archivi forniti. float 0.01
hdfs-site.dfs.provided.cache.capacity.bytes Capacità del cluster da usare come spazio della cache per i blocchi forniti, in byte. int -1
hdfs-site.dfs.ls.limit Limitare il numero di file stampati da ls. int 500
hdfs-env.HDFS_NAMENODE_OPTS Opzioni del nodo dei nomi HDFS. string -Dhadoop.security.logger=INFO,RFAS -Xmx2g
hdfs-env.HDFS_DATANODE_OPTS Opzioni del nodo dati HDFS. string -Dhadoop.security.logger=ERROR,RFAS -Xmx2g
hdfs-env.HDFS_ZKFC_OPTS Opzioni HDFS ZKFC. string -Xmx1g
hdfs-env.HDFS_JOURNALNODE_OPTS Opzioni JournalNode di HDFS. string -Xmx2g
hdfs-env.HDFS_AUDIT_LOGGER Opzioni del logger di controllo HDFS. string INFO,RFAAUDIT
core-site.hadoop.security.group.mapping.ldap.search.group.hierarchy.levels Livelli di gerarchia per il gruppo di ricerca LDAP Hadoop del sito principale. int 10
core-site.fs.permissions.umask-mode Modalità umask di autorizzazione. string 077
core-site.hadoop.security.kms.client.failover.max.retries Numero massimo di tentativi per il failover client. int 20
zoo-cfg.tickTime Tick Time per la configurazione di "ZooKeeper". int 2000
zoo-cfg.initLimit Init Time per la configurazione di "ZooKeeper". int 10
zoo-cfg.syncLimit Tempo di sincronizzazione per la configurazione di "ZooKeeper". int 5
zoo-cfg.maxClientCnxns Numero massimo di connessioni client per la configurazione di "ZooKeeper". int 60
zoo-cfg.minSessionTimeout Timeout minimo della sessione per la configurazione di "ZooKeeper". int 4000
zoo-cfg.maxSessionTimeout Timeout massimo sessione per la configurazione di "ZooKeeper". int 40000
zoo-cfg.autopurge.snapRetainCount Snap Retain count for Autopurge 'ZooKeeper' config.Snap Retain count for Autopurge 'ZooKeeper' config. int 3
zoo-cfg.autopurge.purgeInterval Intervallo di ripulitura per la configurazione di 'ZooKeeper'. int 0
zookeeper-java-env.JVMFLAGS Flag JVM per l'ambiente Java in "ZooKeeper". string -Xmx1G -Xms1G
zookeeper-log4j-properties.zookeeper.console.threshold Soglia per la console log4j in 'ZooKeeper'. string INFO
zoo-cfg.zookeeper.request.timeout Controlla il timeout della richiesta "ZooKeeper" in millisecondi. int 40000
kms-site.hadoop.security.kms.encrypted.key.cache.size Dimensioni della cache per la chiave crittografata nei km hadoop. int 500

Impostazioni predefinite specifiche dei cluster Big Data

Le impostazioni del gateway seguenti sono quelle con impostazioni predefinite specifiche di BDC, ma configurabili dall'utente. Le impostazioni gestite dal sistema non sono incluse. Le impostazioni del gateway possono essere configurate solo nell'ambito della risorsa .

Setting Name Description Type Default Value
gateway-site.gateway.httpclient.socketTimeout Socket Timeout per il client HTTP nel gateway in (ms/s/m). string 90s
gateway-site.sun.security.krb5.debug Debug per la sicurezza Kerberos. bool true
knox-env.KNOX_GATEWAY_MEM_OPTS Opzioni di memoria del gateway Knox. string -Xmx2g

Configurazioni Spark non supportate

Le configurazioni seguenti spark non sono supportate e non possono essere modificate nel contesto del cluster Big Data.

Category Sub-Category File Unsupported Configurations
yarn-site yarn-site.xml yarn.log-aggregation-enable
yarn.log.server.url
yarn.nodemanager.pmem-check-enabled
yarn.nodemanager.vmem-check-enabled
yarn.nodemanager.aux-services
yarn.resourcemanager.address
yarn.nodemanager.address
yarn.client.failover-no-ha-proxy-provider
yarn.client.failover-proxy-provider
yarn.http.policy
yarn.nodemanager.linux-container-executor.secure-mode.use-pool-user
yarn.nodemanager.linux-container-executor.secure-mode.pool-user-prefix
yarn.nodemanager.linux-container-executor.nonsecure-mode.local-user
yarn.acl.enable
yarn.admin.acl
yarn.resourcemanager.hostname
yarn.resourcemanager.principal
yarn.resourcemanager.keytab
yarn.resourcemanager.webapp.spnego-keytab-file
yarn.resourcemanager.webapp.spnego-principal
yarn.nodemanager.principal
yarn.nodemanager.keytab
yarn.nodemanager.webapp.spnego-keytab-file
yarn.nodemanager.webapp.spnego-principal
yarn.resourcemanager.ha.enabled
yarn.resourcemanager.cluster-id
yarn.resourcemanager.zk-address
yarn.resourcemanager.ha.rm-ids
yarn.resourcemanager.hostname.*
capacity-scheduler capacity-scheduler.xml yarn.scheduler.capacity.root.acl_submit_applications
yarn.scheduler.capacity.root.acl_administer_queue
yarn.scheduler.capacity.root.default.acl_application_max_priority
yarn-env yarn-env.sh
spark-defaults-conf spark-defaults.conf spark.yarn.archive
spark.yarn.historyServer.address
spark.eventLog.enabled
spark.eventLog.dir
spark.sql.warehouse.dir
spark.sql.hive.metastore.version
spark.sql.hive.metastore.jars
spark.extraListeners
spark.metrics.conf
spark.ssl.enabled
spark.authenticate
spark.network.crypto.enabled
spark.ssl.keyStore
spark.ssl.keyStorePassword
spark.ui.enabled
spark-env spark-env.sh SPARK_NO_DAEMONIZE
SPARK_DIST_CLASSPATH
spark-history-server-conf spark-history-server.conf spark.history.fs.logDirectory
spark.ui.proxyBase
spark.history.fs.cleaner.enabled
spark.ssl.enabled
spark.authenticate
spark.network.crypto.enabled
spark.ssl.keyStore
spark.ssl.keyStorePassword
spark.history.kerberos.enabled
spark.history.kerberos.principal
spark.history.kerberos.keytab
spark.ui.filters
spark.acls.enable
spark.history.ui.acls.enable
spark.history.ui.admin.acls
spark.history.ui.admin.acls.groups
livy-conf livy.conf livy.keystore
livy.keystore.password
livy.spark.master
livy.spark.deploy-mode
livy.rsc.jars
livy.repl.jars
livy.rsc.pyspark.archives
livy.rsc.sparkr.package
livy.repl.enable-hive-context
livy.superusers
livy.server.auth.type
livy.server.launch.kerberos.keytab
livy.server.launch.kerberos.principal
livy.server.auth.kerberos.principal
livy.server.auth.kerberos.keytab
livy.impersonation.enabled
livy.server.access-control.enabled
livy.server.access-control.*
livy-env livy-env.sh
hive-site hive-site.xml javax.jdo.option.ConnectionURL
javax.jdo.option.ConnectionDriverName
javax.jdo.option.ConnectionUserName
javax.jdo.option.ConnectionPassword
hive.metastore.uris
hive.metastore.pre.event.listeners
hive.security.authorization.enabled
hive.security.metastore.authenticator.manager
hive.security.metastore.authorization.manager
hive.metastore.use.SSL
hive.metastore.keystore.path
hive.metastore.keystore.password
hive.metastore.truststore.path
hive.metastore.truststore.password
hive.metastore.kerberos.keytab.file
hive.metastore.kerberos.principal
hive.metastore.sasl.enabled
hive.metastore.execute.setugi
hive.cluster.delegation.token.store.class
hive-env hive-env.sh

Configurazioni HDFS non supportate

Le configurazioni seguenti hdfs non sono supportate e non possono essere modificate nel contesto del cluster Big Data.

Category Sub-Category File Unsupported Configurations
core-site core-site.xml fs.defaultFS
ha.zookeeper.quorum
hadoop.tmp.dir
hadoop.rpc.protection
hadoop.security.auth_to_local
hadoop.security.authentication
hadoop.security.authorization
hadoop.http.authentication.simple.anonymous.allowed
hadoop.http.authentication.type
hadoop.http.authentication.kerberos.principal
hadoop.http.authentication.kerberos.keytab
hadoop.http.filter.initializers
hadoop.security.group.mapping.*
hadoop.security.key.provider.path
mapred-env mapred-env.sh
hdfs-site hdfs-site.xml dfs.namenode.name.dir
dfs.datanode.data.dir
dfs.namenode.acls.enabled
dfs.namenode.datanode.registration.ip-hostname-check
dfs.client.retry.policy.enabled
dfs.permissions.enabled
dfs.nameservices
dfs.ha.namenodes.nmnode-0
dfs.namenode.rpc-address.nmnode-0.*
dfs.namenode.shared.edits.dir
dfs.ha.automatic-failover.enabled
dfs.ha.fencing.methods
dfs.journalnode.edits.dir
dfs.client.failover.proxy.provider.nmnode-0
dfs.namenode.http-address
dfs.namenode.httpS-address
dfs.http.policy
dfs.encrypt.data.transfer
dfs.block.access.token.enable
dfs.data.transfer.protection
dfs.encrypt.data.transfer.cipher.suites
dfs.https.port
dfs.namenode.keytab.file
dfs.namenode.kerberos.principal
dfs.namenode.kerberos.internal.spnego.principal
dfs.datanode.data.dir.perm
dfs.datanode.address
dfs.datanode.http.address
dfs.datanode.ipc.address
dfs.datanode.https.address
dfs.datanode.keytab.file
dfs.datanode.kerberos.principal
dfs.journalnode.keytab.file
dfs.journalnode.kerberos.principal
dfs.journalnode.kerberos.internal.spnego.principal
dfs.web.authentication.kerberos.keytab
dfs.web.authentication.kerberos.principal
dfs.webhdfs.enabled
dfs.permissions.superusergroup
hdfs-env hdfs-env.sh HADOOP_HEAPSIZE_MAX
zoo-cfg zoo.cfg secureClientPort
clientPort
dataDir
dataLogDir
4lw.commands.whitelist
zookeeper-java-env java.env ZK_LOG_DIR
SERVER_JVMFLAGS
zookeeper-log4j-properties log4j.properties (zookeeper) log4j.rootLogger
log4j.appender.CONSOLE.*

Note

Questo articolo contiene il termine elenco elementi consentiti, un termine che Microsoft considera non adatto in questo contesto. Il termine viene visualizzato in questo articolo perché è attualmente incluso nel software. Quando il termine verrà rimosso dal software, verrà rimosso dall'articolo.

Configurazioni non gateway supportate

Le configurazioni seguenti gateway per non sono supportate e non possono essere modificate nel contesto del cluster Big Data.

Category Sub-Category File Unsupported Configurations
gateway-site gateway-site.xml gateway.port
gateway.path
gateway.gateway.conf.dir
gateway.hadoop.kerberos.secured
java.security.krb5.conf
java.security.auth.login.config
gateway.websocket.feature.enabled
gateway.scope.cookies.feature.enabled
ssl.exclude.protocols
ssl.include.ciphers

Next steps

Configurare cluster Big Data di SQL Server