Virtualisieren der Parquet-Datei in einem S3-kompatiblen Objektspeicher mit PolyBase

Gilt für: SQL Server 2022 (16.x) und höhere Versionen

SQL Server 2022 (16.x) kann Daten aus Parquet-Dateien virtualisieren. Dieser Prozess ermöglicht es, dass die Daten am ursprünglichen Speicherort verbleiben und dennoch wie jede andere Tabelle von einer SQL Server-Instanz mit T-SQL-Befehlen abgefragt werden können. Für dieses Feature werden PolyBase-Connectors verwendet. Der Bedarf für ETL (Extrahieren, Transformieren und Laden)-Prozesse wird dabei minimiert.

Im folgenden Beispiel werden wir eine auf einem S3-kompatiblen Objektspeicher gespeicherte Parquet-Datei virtualisieren.

Weitere Informationen zur Datenvirtualisierung finden Sie unter Einführung in die Datenvirtualisierung mit PolyBase.

Voraussetzungen

Um die S3-kompatiblen Objektspeicherintegrationsfeatures zu verwenden, benötigen Sie die folgenden Tools und Ressourcen:

Installieren Sie das PolyBase-Feature für SQL Server.
Installieren Sie SQL Server Management Studio (SSMS).
S3-kompatibler Speicher.
Ein S3-Bucket wurde erstellt. Von SQL Server aus können keine Buckets erstellt oder konfiguriert werden.
Ein Benutzer (Access Key ID) und das Geheimnis (Secret Key ID) und dieser Benutzer ist Ihnen bekannt. Sie benötigen beide Elemente, um sich gegenüber dem Endpunkt des S3-Objektspeichers zu authentifizieren.
ListBucket-Berechtigung für S3-Benutzer*innen.
ReadOnly-Berechtigung für S3-Benutzer*innen.
TLS muss konfiguriert sein. Es wird vorausgesetzt, dass alle Verbindungen sicher über HTTPS (nicht über HTTP) übertragen werden. Der Endpunkt wird anhand eines Zertifikats überprüft, das auf dem SQL Server-Betriebssystemhost installiert ist.

Berechtigung

Damit Proxybenutzer*innen den Inhalt eines S3-Buckets lesen können, müssen Benutzer*innen die folgenden Aktionen für den S3-Endpunkt ausführen dürfen:

ListBucket;
ReadOnly;

Vorkonfiguration

Aktivieren von PolyBase in sp_configure:

exec sp_configure @configname = 'polybase enabled', @configvalue = 1
;
RECONFIGURE
;
exec sp_configure @configname = 'polybase enabled'
;

Vor dem Erstellen von datenbankweit gültigen Anmeldeinformationen muss die Benutzerdatenbank über einen Hauptschlüssel zum Schützen der Anmeldeinformationen verfügen. Weitere Informationen finden Sie unter CREATE MASTER KEY.

Erstellen einer datenbankweiten Anmeldeinformation

Das folgende Beispielskript erstellt eine datenbankbereichsbezogene Anmeldeinformation s3-dc in der Quellbenutzerdatenbank in SQL Server. Weitere Informationen finden Sie unter CREATE DATABASE SCOPED CREDENTIAL (Transact-SQL).

IF NOT EXISTS(SELECT * FROM sys.credentials WHERE name = 's3_dc')
BEGIN
 CREATE DATABASE SCOPED CREDENTIAL s3_dc
 WITH IDENTITY = 'S3 Access Key',
 SECRET = '<AccessKeyID>:<SecretKeyID>' ;
END

Überprüfen Sie die neue datenbankbezogene Anmeldeinformation mit sys.database_scoped_credentials (Transact-SQL):

SELECT * FROM sys.database_scoped_credentials;

Erstellen einer externen Datenquelle

Das folgende Beispielskript erstellt eine externe Datenquelle s3_ds in der Quellbenutzerdatenbank in SQL Server. Die externe Datenquelle verweist auf die Anmeldeinformationen für die Datenbank s3_dc. Weitere Informationen finden Sie unter CREATE EXTERNAL DATA SOURCE.

CREATE EXTERNAL DATA SOURCE s3_ds
WITH
(   LOCATION = 's3://<ip_address>:<port>/'
,   CREDENTIAL = s3_dc
);
GO

Überprüfen Sie die neue externe Datenquelle mit sys.external_data_sources.

SELECT * FROM sys.external_data_sources;

Virtuelle gehostete URLs

Einige S3-kompatible Speichersysteme (z. B. Amazon Web Services) verwenden URLs im virtual_hosted-Stil, um die Ordnerstruktur im S3-Bucket zu implementieren. Fügen Sie das folgende CONNECTION_OPTIONS hinzu, um die Erstellung von externen Tabellen zu ermöglichen, die auf Ordner im S3-Bucket verweisen, z. B. CONNECTION_OPTIONS = '{"s3":{"url_style":"virtual_hosted"}}'.

Ohne diese CONNECTION_OPTIONS-Einstellung können Sie beim Abfragen externer Tabellen, die auf einen Ordner verweisen, den folgenden Fehler beobachten:

Msg 13807, Level 16, State 1, Line 23  
Content of directory on path '/<folder_name>/' cannot be listed.

Aus einer Parquet-Datei mit OPENROWSET SELECT ausführen

Das folgende Beispiel veranschaulicht die Verwendung von T-SQL zur Abfrage einer in einem S3-kompatiblen Objektspeicher gespeicherten Parquet-Datei über eine OPENROWSET-Abfrage. Weitere Informationen finden Sie unter OPENROWSET (Transact-SQL).

Da dies eine Parquet-Datei ist, passieren zwei wichtige Dinge automatisch:

SQL Server liest das Schema aus der Datei automatisch, sodass es nicht erforderlich ist, die Tabelle, Spalten oder Datentypen zu definieren.
Es ist nicht erforderlich, den Komprimierungtyp für die zu lesende Datei zu deklarieren.

SELECT  * 
FROM    OPENROWSET
        (   BULK '/<bucket>/<parquet_folder>'
        ,   FORMAT       = 'PARQUET'
        ,   DATA_SOURCE  = 's3_ds'
        ) AS [cc];

Abfragen von S3-kompatiblen Objektspeichern über eine externe Tabelle

Das folgende Beispiel zeigt, wie mithilfe von T-SQL eine in einem S3-kompatiblen Objektspeicher gespeicherte Parquet-Datei durch Abfragen einer externen Tabelle abgefragt wird. In dem Beispiel wird ein relativer Pfad innerhalb der externen Datenquelle verwendet.

CREATE EXTERNAL FILE FORMAT ParquetFileFormat WITH(FORMAT_TYPE = PARQUET);
GO

CREATE EXTERNAL TABLE Region (
r_regionkey BIGINT,
r_name CHAR(25),
r_comment VARCHAR(152) )
WITH (LOCATION = '/region/', DATA_SOURCE = 's3_ds', 
FILE_FORMAT = ParquetFileFormat);
GO

SELECT * FROM [Region];

Weitere Informationen finden Sie unter:

Begrenzungen

SQL Server-Abfragen einer externen Tabelle, die von S3-kompatiblem Speicher unterstützt wird, sind auf 1.000 Objekte pro Präfix beschränkt. Dies liegt daran, dass die S3-kompatible Objektauflistung auf 1.000 Objektschlüssel pro Präfix beschränkt ist.
Bei S3-kompatiblem Objektspeicher dürfen Kunden ihre Zugriffsschlüssel-ID nicht mit einem :-Zeichen erstellen.
Die Gesamtlänge der URL ist auf 259 Zeichen beschränkt. Dies bedeutet, dass s3://<hostname>/<objectkey> 259 Zeichen nicht überschreiten darf. s3:// wird auf diesen Grenzwert angerechnet, sodass die Pfadlänge 259-5 = 254 Zeichen nicht überschreiten kann.
Der SQL-Anmeldeinformationsname ist auf 128 Zeichen im UTF-16-Format beschränkt.
Der Name der erstellten Anmeldeinformationen muss den Bucketnamen enthalten, sofern diese Anmeldeinformationen nicht für eine neue externe Datenquelle sind.
Zugriffstasten-ID und „Geheimer Schlüssel“-ID dürfen nur alphanumerische Werte enthalten.

Nächste Schritte

Weitere Informationen zu PolyBase finden Sie in der Übersicht zu SQL Server-PolyBase.
Konfigurieren von PolyBase für den Zugriff auf externe Daten im S3-kompatiblen Objektspeicher

Feedback

War diese Seite hilfreich?

Last updated on 2025-01-02