Einführung in Datenpools in Big Data-Cluster für SQL Server
Gilt für: SQL Server 2019 (15.x)
Wichtig
Das Microsoft SQL Server 2019-Big Data-Cluster-Add-On wird eingestellt. Der Support für SQL Server 2019-Big Data-Clusters endet am 28. Februar 2025. Alle vorhandenen Benutzer*innen von SQL Server 2019 mit Software Assurance werden auf der Plattform vollständig unterstützt, und die Software wird bis zu diesem Zeitpunkt weiterhin über kumulative SQL Server-Updates verwaltet. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und unter Big Data-Optionen auf der Microsoft SQL Server-Plattform.
In diesem Artikel ist die Rolle beschrieben, die SQL Server-Datenpools in einem SQL Server-Big Data-Cluster spielen. In den folgenden Abschnitten werden die Architektur, die Funktionen und die Nutzungsszenarios eines Datenpools beschrieben.
In diesem fünfminütigen Video werden Datenpools vorgestellt, und es wird gezeigt, wie Sie Daten aus Datenpools abfragen:
Datenpoolarchitektur
Ein Datenpool besteht aus mindestens einer SQL Server-Datenpoolinstanz, die einen persistenten SQL Server-Speicher für den Cluster bereitstellt. Datenpools ermöglichen das Abfragen von zwischengespeicherten Daten in Bezug auf externe Datenquellen und das Auslagern von Arbeit. Daten werden entweder mithilfe von T-SQL-Abfragen oder über Spark-Aufträge vom Datenpool erfasst. Zur Verbesserung der Leistung von großen Datasets werden die erfassten Daten in Shards unterteilt und auf alle SQL Server-Instanzen im Pool verteilt. Die Verteilungsmethoden Roundrobin sowie die Replikatverteilung werden unterstützt. Für die Optimierung des Lesezugriffs wird ein gruppierter Columnstore-Index für jede Tabelle in jeder Datenpoolinstanz erstellt. Ein Datenpool fungiert als Data Mart mit horizontaler Skalierung für Big Data-Cluster für SQL Server.
Der Zugriff auf die SQL Server-Instanzen im Datenpool wird über die SQL Server-Masterinstanz verwaltet. Neben externen PolyBase-Tabellen zum Speichen des Datencaches wird auch eine externe Datenquelle für den Datenpool erstellt. Im Hintergrund erstellt der Controller eine Datenbank im Datenpool mit Tabellen, die den externen Tabellen entsprechen. Der Workflow über die SQL Server-Masterinstanz ist transparent: Der Controller leitet die spezifischen Anforderungen, die an die externe Tabelle gesendet werden, an die SQL Server-Instanzen im Datenpool weiter, z. B. über den Computepool, führt Abfragen aus und gibt das Resultset zurück. Daten im Datenpool können nur erfasst oder abgefragt werden. Sie können nicht geändert werden. Zur Aktualisierung der Daten muss daher die Tabelle gelöscht und eine neue Tabelle erstellt werden, die anschließend wieder mit Daten aufgefüllt wird.
Datenpoolszenarios
Datenpools werden häufig zu Berichterstellungszwecken verwendet. Beispielsweise kann eine komplexe Abfrage, die mehrere PolyBase-Datenquellen verbindet und für einen Wochenbericht verwendet wird, in den Datenpool ausgelagert werden. Die zwischengespeicherten Daten ermöglichen schnelles Computing auf lokaler Ebene und sorgen dafür, dass Sie nicht zu den ursprünglichen Datasets zurückgehen müssen. Ebenso können Dashboarddaten, die regelmäßig aktualisiert werden müssen, im Datenpool zwischengespeichert werden, um die Berichterstellung zu optimieren. Darüber hinaus bietet das Zwischenspeichern von Datasets im Datenpool auch bei der Untersuchung von Wiederholungen in Bezug auf Machine Learning einen Vorteil.
Nächste Schritte
Weitere Informationen zu Big Data-Cluster für SQL Server finden Sie in den folgenden Ressourcen: