Verwenden eines Python-Skripts zum Bereitstellen eines Big Data-Clusters in SQL Server für Azure Red Hat OpenShift (ARO)
Gilt für: SQL Server 2019 (15.x)
Wichtig
Das Microsoft SQL Server 2019-Big Data-Cluster-Add-On wird eingestellt. Der Support für SQL Server 2019-Big Data-Clusters endet am 28. Februar 2025. Alle vorhandenen Benutzer*innen von SQL Server 2019 mit Software Assurance werden auf der Plattform vollständig unterstützt, und die Software wird bis zu diesem Zeitpunkt weiterhin über kumulative SQL Server-Updates verwaltet. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und unter Big Data-Optionen auf der Microsoft SQL Server-Plattform.
In diesem Tutorial verwenden Sie ein Python-Beispielskript, um SQL Server 2019: Big Data-Cluster in Azure Red Hat OpenShift (ARO) bereitzustellen. Diese Bereitstellungsoption wird ab dem kumulativen Update 5 von SQL Server 2019 unterstützt.
Tipp
ARO ist nur eine Option, mit der Kubernetes für Ihre Big Data-Cluster gehostet werden kann. Informationen zu anderen Bereitstellungsoptionen und zum Anpassen dieser Optionen finden Sie unter Bereitstellen von Big Data-Cluster für SQL Server in Kubernetes.
Warnung
Persistente Volumes, die mit der integrierten Speicherklasse managed-premium erstellt wurden, verfügen über eine Delete-Rückforderungsrichtlinie. Wenn Sie also den SQL Server-Big Data-Cluster löschen, werden sowohl die persistenten Volumeansprüche als auch die persistenten Volumes gelöscht. Sie sollten mithilfe des Provisioners „azure-disk“ benutzerdefinierte Speicherklassen mit einer Retain-Rückforderungsrichtlinie erstellen, wie unter Speicherklassen beschrieben. Im folgenden Skript wird die Speicherklasse managed-premium verwendet. Ausführlichere Informationen finden Sie unter Datenpersistenz.
Die hier verwendete Standardbereitstellung für Big-Data-Cluster besteht aus einer SQL-Masterinstanz, einer Computepoolinstanz, zwei Datenpoolinstanzen und zwei Speicherpoolinstanzen. Daten werden dauerhaft mit persistenten Kubernetes-Volumes gespeichert, die die Standardspeicherklassen von ARO verwenden. Die Standardkonfiguration, die in diesem Tutorial verwendet wird, eignet sich für Entwicklungs- und Testumgebungen.
Voraussetzungen
- Ein Azure-Abonnement.
- OpenShift-Befehlszeilenschnittstelle (oc)
- Python-Mindestversion 3.0
az
CLI- Azure Data CLI (
azdata
) - Azure Data Studio
Anmelden bei Ihrem Azure-Konto
Das Skript verwendet die Azure CLI, um die Erstellung eines ARO-Clusters zu automatisieren. Sie müssen sich mindestens einmal bei Ihrem Azure-Konto mit der Azure CLI anmelden, bevor Sie das Skript ausführen. Geben Sie über eine Eingabeaufforderung den folgenden Befehl ein:
az login
Instructions
Laden Sie sowohl das Python-Skript
deploy-sql-big-data-aro.py
als auch die YAML-Dateibdc-scc.yaml
herunter.Diese Dateien finden Sie in diesem Artikel unter:
Führen Sie das Skript folgendermaßen aus:
python deploy-sql-big-data-aro.py
Geben Sie bei Aufforderung Ihre Angabe für die Abonnement-ID in Azure und die Azure-Ressourcengruppe ein, in der die Ressourcen erstellt werden sollen. Optional können Sie auch eine Eingabe für andere Konfigurationen machen oder die angegebenen Standardwerte übernehmen. Beispiel:
azure_region
vm_size
für OpenShift-Workerknoten. Für ein optimales Benutzererlebnis beim Überprüfen grundlegender Szenarios empfehlen wir mindestens acht vCPUs und 64 GB Arbeitsspeicher für alle Workerknoten des Clusters. Das Skript verwendet standardmäßigStandard_D8s_v3
und drei Workerknoten. Für eine Standardgrößenkonfiguration für Big Data-Cluster werden außerdem 24 Datenträger für Ansprüche auf persistente Volumes für alle Komponenten verwendet.- „network configuration“ für OpenShift-Clusterbereitstellungen. Weitere Informationen zu den einzelnen Parametern finden Sie im Artikel zur ARO-Bereitstellung.
cluster_name
: Dieser Wert wird sowohl für ARO-Cluster als auch für Big Data-Cluster in SQL Server verwendet, die zusätzlich zu ARO erstellt werden. Es handelt sich beim Namen des Big Data-Clusters in SQL Server um einen Kubernetes-Namespace.username
- Hierbei handelt es sich um den Benutzernamen für die während der Bereitstellung für das Administratorkonto des Controllers, das Konto der SQL Server-Masterinstanz und das Gateway bereitgestellten Konten. Beachten Sie, dass dassa
-Konto in SQL Server für Sie automatisch deaktiviert wird, da dies als Best Practice gilt.password
: Derselbe Wert wird für alle Konten genutzt.
Der Big Data-Cluster in SQL Server wird nun für ARO bereitgestellt. Nun können Sie Azure Data Studio verwenden, um eine Verbindung mit dem Cluster herzustellen. Weitere Informationen finden Sie unter Herstellen einer Verbindung mit einem Big-Data-Cluster für SQL Server mithilfe von Azure Data Studio.
Bereinigung
Wenn Sie Big Data-Cluster für SQL Server in Azure testen, sollten Sie abschließend den ARO-Cluster löschen, um unerwartete Gebühren zu vermeiden. Entfernen Sie den Cluster nicht, wenn Sie ihn weiterhin verwenden möchten.
Warnung
Wenn Sie die folgenden Schritte ausführen, werden der ARO-Cluster und die Big Data-Cluster für SQL Server gelöscht. Wenn Sie über Datenbanken oder HDFS-Daten verfügen, die Sie beibehalten möchten, müssen Sie diese Daten sichern, bevor Sie den Cluster löschen.
Führen Sie den folgenden Azure CLI-Befehl aus, um den Big Data-Cluster und den ARO-Dienst in Azure zu entfernen. Ersetzen Sie dabei <resource group name>
durch die Azure-Ressourcengruppe, die Sie im Bereitstellungsskript angegeben haben:
az group delete -n <resource group name>
deploy-SQL-big-data-aro.py
Das Skript in diesem Abschnitt stellt den Big Data-Cluster in SQL Server für Azure Red Hat OpenShift bereit. Kopieren Sie das Skript in Ihre Arbeitsstation, und speichern Sie es als deploy-sql-big-data-aro.py
, bevor Sie mit der Bereitstellung beginnen.
#
# Prerequisites:
#
# Azure CLI, Azure Data CLI (`azdata`), OpenShift CLI (oc)
#
# Run `az login` at least once BEFORE running this script
#
from subprocess import check_output, CalledProcessError, STDOUT, Popen, PIPE, getoutput
from time import sleep
import os
import getpass
import json
def executeCmd (cmd):
if os.name=="nt":
process = Popen(cmd.split(),stdin=PIPE, shell=True)
else:
process = Popen(cmd.split(),stdin=PIPE)
stdout, stderr = process.communicate()
if (stderr is not None):
raise Exception(stderr)
#
# MUST INPUT THESE VALUES!!!!!
#
SUBSCRIPTION_ID = input("Provide your Azure subscription ID:").strip()
GROUP_NAME = input("Provide Azure resource group name to be created:").strip()
#
# This password will be use for Controller user, Gateway user and SQL Server Master SA accounts
AZDATA_USERNAME=input("Provide username to be used for Controller, SQL Server and Gateway endpoints - Press ENTER for using `admin`:").strip() or "admin"
AZDATA_PASSWORD = getpass.getpass("Provide password to be used for Controller user, Gateway user and SQL Server Master accounts:")
#
# Optionally change these configuration settings
#
AZURE_REGION=input("Provide Azure region - Press ENTER for using `westus2`:").strip() or "westus2"
# MASTER_VM_SIZE=input("Provide VM size for master nodes for the ARO cluster - Press ENTER for using `Standard_D2s_v3`:").strip() or "Standard_D2s_v3"
WORKER_VM_SIZE=input("Provide VM size for the worker nodes for the ARO cluster - Press ENTER for using `Standard_D8s_v3`:").strip() or "Standard_D8s_v3"
OC_NODE_COUNT=input("Provide number of worker nodes for ARO cluster - Press ENTER for using `3`:").strip() or "3"
VNET_NAME=input("Provide name of Virtual Network for ARO cluster - Press ENTER for using `aro-vnet`:").strip() or "aro-vnet"
VNET_ADDRESS_SPACE=input("Provide Virtual Network Address Space for ARO cluster - Press ENTER for using `10.0.0.0/16`:").strip() or "10.0.0.0/16"
MASTER_SUBNET_NAME=input("Provide Master Subnet Name for ARO cluster - Press ENTER for using `master-subnet`:").strip() or "master-subnet"
MASTER_SUBNET_IP_RANGE=input("Provide address range of Master Subnet for ARO cluster - Press ENTER for using `10.0.0.0/23`:").strip() or "10.0.0.0/23"
WORKER_SUBNET_NAME=input("Provide Worker Subnet Name for ARO cluster - Press ENTER for using `worker-subnet`:").strip() or "worker-subnet"
WORKER_SUBNET_IP_RANGE=input("Provide address range of Worker Subnet for ARO cluster - Press ENTER for using `10.0.2.0/23`:").strip() or "10.0.2.0/23"
#
# This is both Kubernetes cluster name and SQL Big Data cluster name
CLUSTER_NAME=input("Provide name of OpenShift cluster and SQL big data cluster - Press ENTER for using `sqlbigdata`:").strip() or "sqlbigdata"
#
# Deploy the ARO cluster
#
print ("Set azure context to subscription: "+SUBSCRIPTION_ID)
command = "az account set -s "+ SUBSCRIPTION_ID
executeCmd (command)
print ("Creating azure resource group: "+GROUP_NAME)
command="az group create --name "+GROUP_NAME+" --location "+AZURE_REGION
executeCmd (command)
command = "az network vnet create --resource-group "+GROUP_NAME+" --name "+VNET_NAME+" --address-prefixes "+VNET_ADDRESS_SPACE
print("Creating Virtual Network: "+VNET_NAME)
executeCmd(command)
command = "az network vnet subnet create --resource-group "+GROUP_NAME+" --vnet-name "+VNET_NAME+" --name "+MASTER_SUBNET_NAME+" --address-prefixes "+MASTER_SUBNET_IP_RANGE+" --service-endpoints Microsoft.ContainerRegistry"
print("Creating Master Subnet: "+MASTER_SUBNET_NAME)
executeCmd(command)
command = "az network vnet subnet create --resource-group "+GROUP_NAME+" --vnet-name "+VNET_NAME+" --name "+WORKER_SUBNET_NAME+" --address-prefixes "+WORKER_SUBNET_IP_RANGE+" --service-endpoints Microsoft.ContainerRegistry"
print("Creating Worker Subnet: "+WORKER_SUBNET_NAME)
executeCmd(command)
command = "az network vnet subnet update --name "+MASTER_SUBNET_NAME+" --resource-group "+GROUP_NAME+" --vnet-name "+VNET_NAME+" --disable-private-link-service-network-policies true"
print("Updating Master Subnet by disabling Private Link Policies")
executeCmd(command)
command = "az aro create --resource-group "+GROUP_NAME+" --name "+CLUSTER_NAME+" --vnet "+VNET_NAME+" --master-subnet "+MASTER_SUBNET_NAME+" --worker-subnet "+WORKER_SUBNET_NAME+" --worker-count "+OC_NODE_COUNT+" --worker-vm-size "+WORKER_VM_SIZE +" --only-show-errors"
print("Creating OpenShift cluster: "+CLUSTER_NAME)
executeCmd (command)
#
# Login to oc console
#
command = "az aro list-credentials --name "+CLUSTER_NAME+" --resource-group "+GROUP_NAME +" --only-show-errors"
output=json.loads(getoutput(command))
OC_CLUSTER_USERNAME = str(output['kubeadminUsername'])
OC_CLUSTER_PASSWORD = str(output['kubeadminPassword'])
command = "az aro show --name "+CLUSTER_NAME+" --resource-group "+GROUP_NAME +" --only-show-errors"
output=json.loads(getoutput(command))
APISERVER = str(output['apiserverProfile']['url'])
command = "oc login "+ APISERVER+ " -u " + OC_CLUSTER_USERNAME + " -p "+ OC_CLUSTER_PASSWORD
executeCmd (command)
#
# Setup pre-requisites for deploying BDC on OpenShift
#
#
#Creating new project/namespace
command = "oc new-project "+ CLUSTER_NAME
executeCmd (command)
#
# create custom SCC for BDC
command = "oc apply -f bdc-scc.yaml"
executeCmd (command)
#
#Bind the custom scc with service accounts in the BDC namespace
command = "oc create clusterrole bdc-role --verb=use --resource=scc --resource-name=bdc-scc -n " + CLUSTER_NAME
executeCmd (command)
command = "oc create rolebinding bdc-rbac --clusterrole=bdc-role --group=system:serviceaccounts:" + CLUSTER_NAME
executeCmd (command)
#
# Deploy big data cluster
#
print ('Set environment variables for credentials')
os.environ['AZDATA_PASSWORD'] = AZDATA_PASSWORD
os.environ['AZDATA_USERNAME'] = AZDATA_USERNAME
os.environ['ACCEPT_EULA']="Yes"
#
#Creating azdata configuration with aro-dev-test profile
command = "azdata bdc config init --source aro-dev-test --target custom --force"
executeCmd (command)
command="azdata bdc config replace -c custom/bdc.json -j ""metadata.name=" + CLUSTER_NAME + ""
executeCmd (command)
#
# Create BDC
command = "azdata bdc create --config-profile custom --accept-eula yes"
executeCmd(command)
#login into big data cluster and list endpoints
command="azdata login -n " + CLUSTER_NAME
executeCmd (command)
print("")
print("SQL Server big data cluster endpoints: ")
command="azdata bdc endpoint list -o table"
executeCmd(command)
bdc-scc.yaml
Das folgende YAML-Manifest definiert eine benutzerdefinierte Einschränkung für Sicherheitskontexte (Security Context Constraint, SCC) für die Big Data-Cluster-Bereitstellung. Kopieren Sie es in dasselbe Verzeichnis wie deploy-sql-big-data-aro.py
.
allowHostDirVolumePlugin: false
allowHostIPC: false
allowHostNetwork: false
allowHostPID: false
allowHostPorts: false
allowPrivilegeEscalation: true
allowPrivilegedContainer: false
allowedCapabilities:
- SETUID
- SETGID
- CHOWN
- SYS_PTRACE
apiVersion: security.openshift.io/v1
defaultAddCapabilities: null
fsGroup:
type: RunAsAny
kind: SecurityContextConstraints
metadata:
annotations:
kubernetes.io/description: SQL Server BDC custom scc is based on 'nonroot' scc plus additional capabilities required by BDC.
generation: 2
name: bdc-scc
readOnlyRootFilesystem: false
requiredDropCapabilities:
- KILL
- MKNOD
runAsUser:
type: MustRunAsNonRoot
seLinuxContext:
type: MustRunAs
supplementalGroups:
type: RunAsAny
volumes:
- configMap
- downwardAPI
- emptyDir
- persistentVolumeClaim
- projected
- secret