Tutorial: Laden von Beispieldaten in einen Big Data-Cluster für SQL Server
Gilt für: SQL Server 2019 (15.x)
Wichtig
Das Microsoft SQL Server 2019-Big Data-Cluster-Add-On wird eingestellt. Der Support für SQL Server 2019-Big Data-Clusters endet am 28. Februar 2025. Alle vorhandenen Benutzer*innen von SQL Server 2019 mit Software Assurance werden auf der Plattform vollständig unterstützt, und die Software wird bis zu diesem Zeitpunkt weiterhin über kumulative SQL Server-Updates verwaltet. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und unter Big Data-Optionen auf der Microsoft SQL Server-Plattform.
In diesem Tutorial wird erläutert, wie Sie ein Skript zum Laden von Beispieldaten in einen SQL Server 2019: Big Data-Cluster verwenden. In vielen anderen Tutorials der Dokumentation werden diese Beispieldaten verwendet.
Tipp
Weitere Beispiele für SQL Server 2019: Big Data-Cluster finden Sie im GitHub-Repository sql-server-samples. Sie befinden sich im Pfad sql-server-samples/samples/features/sql-big-data-cluster/.
Voraussetzungen
- Ein bereitgestellter Big Data-Cluster
- Big-Data-Tools
- azdata
- kubectl
- sqlcmd
- curl
Laden von Beispieldaten
In den folgenden Schritten wird ein Bootstrapskript zum Herunterladen einer SQL Server-Datenbanksicherung und zum Laden der Daten in ihren Big Data-Cluster verwendet. Zur einfachen Verwendung wurden diese Schritte in Windows- und Linux-Abschnitte aufgeteilt. Wenn Sie lediglich Benutzername und Kennwort als Authentifizierungsmechanismus verwenden möchten, legen Sie die Umgebungsvariablen AZDATA_USERNAME und AZDATA_PASSWORD fest, bevor Sie das Skript ausführen. Andernfalls stellt das Skript die Verbindung zur SQL Server-Masterinstanz und zum Knox-Gateway mithilfe der integrierten Authentifizierung her. Außerdem muss der jeweilige DNS-Name der Endpunkte angegeben werden, damit die integrierte Authentifizierung verwendet werden kann.
Windows
In den folgenden Schritten wird beschrieben, wie Sie einen Windows-Client verwenden, um die Beispieldaten in ihren Big Data-Cluster zu laden.
Öffnen Sie eine neue Windows-Eingabeaufforderung.
Wichtig
Verwenden Sie für diese Schritte nicht Windows PowerShell. In PowerShell kann das Skript nicht ausgeführt werden, da es die PowerShell-Version von curl verwendet.
Verwenden Sie curl, um das Bootstrapskript für die Beispieldaten herunterzuladen.
curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
Laden Sie das bootstrap-sample-db.sql-Transact-SQL-Skript herunter. Dieses Skript wird vom Bootstrapskript aufgerufen.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
Das Bootstrapskript erfordert die folgenden Positionsparameter für Ihren Big Data-Cluster:
Parameter Beschreibung <CLUSTER_NAMESPACE> Der Name, den Sie Ihrem Big Data-Cluster gegeben haben. <SQL_MASTER_ENDPOINT> Dieser Parameter steht für den DNS-Namen oder die IP-Adresse Ihrer Masterinstanz. <KNOX_ENDPOINT> Dieser Parameter steht für den DNS-Namen oder die IP-Adresse des HDFS/Spark-Gateways. Tipp
Suchen Sie mit kubectl die IP-Adressen für die SQL Server-Masterinstanz und Knox. Führen Sie
kubectl get svc -n <your-big-data-cluster-name>
aus, und sehen Sie sich die EXTERNAL-IP-Adressen für die Masterinstanz (master-svc-external) und Knox (gateway-svc-external) an. Der Standardname eines Clusters ist mssql-cluster.Führen Sie das Bootstrapskript aus.
.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Linux
In den folgenden Schritten wird beschrieben, wie Sie einen Linux-Client verwenden, um die Beispieldaten in ihren Big Data-Cluster zu laden.
Laden Sie das Bootstrapskript herunter, und weisen Sie ihm Ausführungsberechtigungen zu.
curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh" chmod +x bootstrap-sample-db.sh
Laden Sie das bootstrap-sample-db.sql-Transact-SQL-Skript herunter. Dieses Skript wird vom Bootstrapskript aufgerufen.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
Das Bootstrapskript erfordert die folgenden Positionsparameter für Ihren Big Data-Cluster:
Parameter Beschreibung <CLUSTER_NAMESPACE> Der Name, den Sie Ihrem Big Data-Cluster gegeben haben. <SQL_MASTER_ENDPOINT> Dieser Parameter steht für den DNS-Namen oder die IP-Adresse Ihrer Masterinstanz. <KNOX_ENDPOINT> Dieser Parameter steht für den DNS-Namen oder die IP-Adresse des HDFS/Spark-Gateways. Tipp
Suchen Sie mit kubectl die IP-Adressen für die SQL Server-Masterinstanz und Knox. Führen Sie
kubectl get svc -n <your-big-data-cluster-name>
aus, und sehen Sie sich die EXTERNAL-IP-Adressen für die Masterinstanz (master-svc-external) und Knox (gateway-svc-external) an. Der Standardname eines Clusters ist mssql-cluster.Führen Sie das Bootstrapskript aus.
./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Nächste Schritte
Nach Ausführen des Bootstrapskripts verfügt Ihr Big Data-Cluster über die Beispieldatenbanken und HDFS-Daten. In den folgenden Tutorials werden die Beispieldaten verwendet, um Big Data-Cluster-Funktionen zu veranschaulichen:
Datenvirtualisierung:
- Tutorial: Abfragen von HDFS in einem Big-Data-Cluster für SQL Server
- Tutorial: Abfragen von Oracle in einem Big-Data-Cluster für SQL Server
Datenerfassung:
- Tutorial: Erfassen von Daten in einem SQL Server-Datenpool mit Transact-SQL
- Tutorial: Erfassen von Daten in einem SQL Server-Datenpool mithilfe von Spark-Aufträgen
Notebooks: