Nota
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare ad accedere o a cambiare directory.
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare a cambiare directory.
Important
I cluster Big Data di Microsoft SQL Server 2019 sono stati ritirati. Il supporto per i cluster Big Data di SQL Server 2019 è terminato a partire dal 28 febbraio 2025. Per altre informazioni, vedere il post di blog sull'annuncio e le opzioni per Big Data nella piattaforma Microsoft SQL Server.
Per configurare Apache Spark e Apache Hadoop nei cluster Big Data, è necessario modificare il profilo del cluster in fase di distribuzione.
Un cluster Big Data ha quattro categorie di configurazione:
sqlhdfssparkgateway
sql, hdfs, spark, sql sono servizi. Ogni servizio viene mappato alla stessa categoria di configurazione denominata. Tutte le configurazioni del gateway passano alla categoria gateway.
Ad esempio, tutte le configurazioni nel servizio hdfs appartengono alla categoria hdfs. Si noti che tutte le configurazioni Hadoop (core-site), HDFS e Zookeeper appartengono alla categoria hdfs. Tutte le configurazioni Livy, Spark, Yarn, Hive, Metastore appartengono alla categoria spark.
Le configurazioni supportate elencano le proprietà apache Spark e Hadoop che è possibile configurare quando si distribuisce un cluster Big Data di SQL Server.
Le sezioni seguenti elencano le proprietà che non è possibile modificare in un cluster:
-
Configurazioni non
sparksupportate -
Configurazioni non
hdfssupportate -
Configurazioni non
gatewaysupportate
Configurazioni tramite profilo del cluster
Nel profilo del cluster sono disponibili risorse e servizi. In fase di distribuzione, è possibile specificare le configurazioni in uno dei due modi seguenti:
In primo luogo, a livello di risorsa:
Gli esempi seguenti sono i file di patch per il profilo:
{ "op": "add", "path": "spec.resources.zookeeper.spec.settings", "value": { "hdfs": { "zoo-cfg.syncLimit": "6" } } }Or:
{ "op": "add", "path": "spec.resources.gateway.spec.settings", "value": { "gateway": { "gateway-site.gateway.httpclient.socketTimeout": "95s" } } }In secondo luogo, a livello di servizio. Assegnare più risorse a un servizio e specificare le configurazioni al servizio.
Di seguito è riportato un esempio del file patch per il profilo per l'impostazione delle dimensioni del blocco HDFS:
{
"op": "add",
"path": "spec.services.hdfs.settings",
"value": {
"hdfs-site.dfs.block.size": "268435456"
}
}
Il servizio hdfs è definito come:
{
"spec": {
"services": {
"hdfs": {
"resources": [
"nmnode-0",
"zookeeper",
"storage-0",
"sparkhead"
],
"settings":{
"hdfs-site.dfs.block.size": "268435456"
}
}
}
}
}
Note
Le configurazioni a livello di risorsa sostituiscono le configurazioni a livello di servizio. Una risorsa può essere assegnata a più servizi.
Abilitare Spark nel pool di archiviazione
Oltre alle configurazioni Apache supportate, è anche possibile configurare se i processi Spark possono essere eseguiti nel pool di archiviazione. Questo valore booleano, includeSpark, si trova nel file di configurazione in bdc.jsonspec.resources.storage-0.spec.settings.spark.
Una definizione di pool di archiviazione di esempio in bdc.json può essere simile alla seguente:
...
"storage-0": {
"metadata": {
"kind": "Pool",
"name": "default"
},
"spec": {
"type": "Storage",
"replicas": 2,
"settings": {
"spark": {
"includeSpark": "true"
}
}
}
}
Limitations
Le configurazioni possono essere specificate solo a livello di categoria. Per specificare più configurazioni con la stessa sottocategoria, non è possibile estrarre il prefisso comune nel profilo del cluster.
{
"op": "add",
"path": "spec.services.hdfs.settings.core-site.hadoop",
"value": {
"proxyuser.xyz.users": "*",
"proxyuser.abc.users": "*"
}
}