Einführung in den Masterpool in Big Data-Cluster für SQL Server

Artikel
03/23/2023

Gilt für: SQL Server 2019 (15.x)

Wichtig

Das Microsoft SQL Server 2019-Big Data-Cluster-Add-On wird eingestellt. Der Support für SQL Server 2019-Big Data-Clusters endet am 28. Februar 2025. Alle vorhandenen Benutzer*innen von SQL Server 2019 mit Software Assurance werden auf der Plattform vollständig unterstützt, und die Software wird bis zu diesem Zeitpunkt weiterhin über kumulative SQL Server-Updates verwaltet. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und unter Big Data-Optionen auf der Microsoft SQL Server-Plattform.

In diesem Artikel wird die Rolle der SQL Server-Masterinstanz in einem SQL Server-Big Data-Cluster beschrieben. Der Masterpool enthält die Masterinstanz von SQL Server. Die Masterinstanz ist eine SQL Server-Instanz, die in einem SQL Server-Big Data-Cluster ausgeführt wird. Die Masterinstanz verwaltet die Konnektivität, Scale-Out-Abfragen, Metadaten und Benutzerdatenbanken sowie Machine Learning-Dienste.

Die SQL Server-Masterinstanz bietet folgende Funktionen:

Konnektivität

Die SQL Server-Masterinstanz stellt einen extern erreichbaren TDS-Endpunkt für den Cluster bereit. Sie können Anwendungen oder SQL Server-Tools wie Azure Data Studio oder SQL Server Management Studio mit diesem Endpunkt verbinden, genauso wie mit jeder anderen SQL Server-Instanz.

Horizontale Skalierung der Abfrageverwaltung

Die SQL Server-Masterinstanz enthält die Abfrage-Engine für die horizontale Skalierung, mit der Abfragen auf SQL Server-Instanzen auf Knoten im Computepool verteilt werden. Die Abfrage-Engine für die horizontale Skalierung bietet über Transact-SQL auch Zugriff auf alle Hive-Tabellen im Cluster, ohne dass zusätzliche Konfiguration erforderlich ist.

Metadaten und Benutzerdatenbanken

Zusätzlich zu den standardmäßigen SQL Server-Systemdatenbanken enthält die SQL Server-Masterinstanz Folgendes:

Eine Metadaten-Datenbank für HDFS-Tabellenmetadaten
Eine Zuordnung der Datenebenenshards
Details aus externen Tabellen, die Zugriff auf die Clusterdatenebene bieten.
In Benutzerdatenbanken definierte externe PolyBase-Datenquellen und externe Tabellen.

Sie können der SQL Server-Masterdatenbank auch Ihre eigenen Benutzerdatenbanken hinzufügen.

Dienste für maschinelles Lernen

Das Feature von SQL Server Machine Learning Services ist ein Add-On-Feature für die Datenbank-Engine. Das Machine Learning Services-Feature wird für die Ausführung von Java-, R- und Python-Code in SQL Server verwendet. Dieses Feature basiert auf dem SQL Server-Erweiterbarkeitsframework, das externe Prozesse von den Engine-Kernprozessen isoliert, aber in Form von gespeicherten Prozeduren, T-SQL-Skript mit R- oder Python-Anweisungen oder Java-, R- oder Python-Code mit T-SQL vollständig in die relationalen Daten integriert ist.

Als Teil eines SQL Server-Big Data-Clusters sind die Dienste für maschinelles Lernen standardmäßig in der SQL Server-Masterinstanz verfügbar. Sobald die externe Skriptausführung auf der SQL Server-Masterinstanz aktiviert ist, ist es möglich, Java-, R- und Python-Skripts mit sp_execute_external_script auszuführen.

Vorteile der Dienste für maschinelles Lernen in einem Big Data-Cluster

Über Big Data-Cluster für SQL Server lassen sich Big Data ganz einfach mit den Dimensionsdaten verknüpfen, die typischerweise in einer Unternehmensdatenbank gespeichert sind. Der Wert der Big Data vervielfacht sich, wenn diese nicht nur einem Teil der Organisation zur Verfügung stehen, sondern auch in Berichte, Dashboards und Anwendungen eingebunden werden können. Gleichzeitig können Data Scientists weiter die Tools des Spark/HDFS-Ökosystems nutzen und von einfachem Echtzeitzugriff auf die Daten in der SQL Server-Masterinstanz und in den externe Datenquellen profitieren, auf die über die Masterinstanz zugegriffen werden kann.

Mit Big Data-Cluster für SQL Server können Sie mit den Data Lakes Ihres Unternehmens mehr erreichen. SQL Server-Entwickler und Analysten stehen folgende Möglichkeiten offen:

Sie können Anwendungen erstellen, die Daten aus den Data Lakes des Unternehmens verwenden.
Sie können mithilfe von Transact-SQL-Abfragen Schlussfolgerungen aus allen Daten ziehen.
Sie können das vorhandene Ökosystem mit SQL Server-Tools und -Anwendungen verwenden, um auf Unternehmensdaten zuzugreifen und diese zu analysieren.
Sie können mithilfe von Datenvirtualisierung und Data Marts die Anzahl von Datenverschiebungen reduzieren.
Sie können weiterhin Spark für Big Data-Szenarien verwenden.
Sie können mit Spark oder SQL Server intelligente Unternehmensanwendungen erstellen, um Modelle mit Data Lakes zu trainieren.
Sie können Modelle in Produktionsdatenbanken operationalisieren, um eine optimale Leistung zu erzielen.
Sie können Daten direkt in Unternehmens-Data Marts streamen, um Echtzeitanalysen durchzuführen.
Sie können Daten mithilfe von interaktiven Analyse- und BI-Tools visuell erkunden.

Nächste Schritte

Weitere Informationen zu Big Data-Cluster für SQL Server finden Sie in den folgenden Ressourcen:

Share via