Analysieren von Daten mit einem serverlosen SQL-Pool

Artikel
06/01/2023

In diesem Tutorial erfahren Sie, wie Sie Daten mit einem serverlosen SQL-Pool analysieren.

Der serverlose SQL-Pool „Built-in“

Mit serverlosen SQL-Pools können Sie SQL verwenden, ohne dass Sie Kapazität reservieren müssen. Die Abrechnung für einen serverlosen SQL-Pool basiert auf der Menge der Daten, die zum Ausführen der Abfrage verarbeitet werden, und nicht auf der Anzahl von Knoten, die zum Ausführen der Abfrage verwendet werden.

Jeder Arbeitsbereich wird mit einem vorkonfigurierten serverlosen SQL-Pool namens Built-in (Integriert) bereitgestellt.

Analysieren von NYC Taxi-Daten mit einem serverlosen SQL-Pool

Hinweis

Stellen Sie sicher, dass Sie die Beispieldaten im primären Speicherkonto platziert haben.

Navigieren Sie in Synapse Studio zum Hub Entwickeln.
Erstellen Sie ein neues SQL-Skript.

Fügen Sie den folgenden Code in das Skript ein:

SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
        FORMAT='PARQUET'
    ) AS [result]

Klicken Sie auf Run (Ausführen).

Die Datenuntersuchung ist nur ein vereinfachtes Szenario, anhand dessen Sie die grundlegenden Merkmale Ihrer Daten nachvollziehen können. Weitere Informationen zur Datenuntersuchung und -analyse finden Sie in diesem Tutorial.

Erstellen einer Datenbank für die Datenuntersuchung

Sie können den Inhalt der Dateien direkt über die master-Datenbank durchsuchen. Bei einigen einfachen Szenarien zur Datenuntersuchung müssen Sie keine separate Datenbank erstellen. Wenn Sie die Datenuntersuchung fortsetzen, möchten Sie vielleicht jedoch einige Hilfsprogrammobjekte erstellen, etwa:

Externe Datenquellen, die die benannten Verweise für Speicherkonten darstellen
Datenbankweit gültige Anmeldeinformationen, mit denen Sie angeben können, wie die Authentifizierung bei einer externen Datenquelle durchgeführt werden soll
Datenbankbenutzer mit Zugriffsberechtigungen für einige Datenquellen oder Datenbankobjekte
Hilfsprogrammsichten, -prozeduren und -funktionen, die Sie in den Abfragen verwenden können

Verwenden Sie die master-Datenbank, um eine separate Datenbank für benutzerdefinierte Datenbankobjekte zu erstellen. Benutzerdefinierte Datenbankobjekte können nicht in der master-Datenbank erstellt werden.
```
CREATE DATABASE DataExplorationDB 
                COLLATE Latin1_General_100_BIN2_UTF8
```
Wichtig

Verwenden Sie eine Sortierung mit dem Suffix _UTF8, um sicherzustellen, dass UTF-8-Text ordnungsgemäß in Spalten vom Typ VARCHAR konvertiert wird. Latin1_General_100_BIN2_UTF8 bietet die beste Leistung bei Abfragen, die Daten aus Parquet-Dateien und Azure Cosmos DB-Containern lesen. Weitere Informationen zum Ändern von Sortierungen finden Sie unter Sortierungstypen, die für Synapse SQL unterstützt werden.
Wechseln Sie den Datenbankkontext mit dem folgenden Befehl von master zu DataExplorationDB. Sie können auch das UI-Steuerelement use database (Datenbank verwenden) nutzen, um zu Ihrer aktuellen Datenbank zu wechseln:
```
USE DataExplorationDB
```
Erstellen Sie in DataExplorationDB Hilfsprogrammobjekte wie Anmeldeinformationen und Datenquellen.
```
CREATE EXTERNAL DATA SOURCE ContosoLake
WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
```
Hinweis

Eine externe Datenquelle kann ohne Anmeldeinformationen erstellt werden. Wenn keine Anmeldeinformationen vorhanden sind, wird die Identität des Aufrufers für den Zugriff auf die externe Datenquelle verwendet.
Erstellen Sie mithilfe der neu erstellten DataExplorationDB-Datenbank optional eine Anmeldung für einen Benutzer in DataExplorationDB, der auf externe Daten zugreift:
```
CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
```
Erstellen Sie als nächstes einen Datenbankbenutzer in DataExplorationDB für die obige Anmeldung, und erteilen Sie die Berechtigung ADMINISTER DATABASE BULK OPERATIONS.
```
CREATE USER data_explorer FOR LOGIN data_explorer;
GO
GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
GO
```

Untersuchen Sie den Inhalt der Datei mithilfe des relativen Pfads und der Datenquelle:

SELECT
    TOP 100 *
FROM
    OPENROWSET(
            BULK '/users/NYCTripSmall.parquet',
            DATA_SOURCE = 'ContosoLake',
            FORMAT='PARQUET'
    ) AS [result]

Veröffentlichen Sie Ihre Änderungen im Arbeitsbereich.

Die Datenbank für die Datenuntersuchung ist nur ein einfacher Platzhalter, in dem Sie Ihre Hilfsprogrammobjekte speichern können. Mit einem Synapse SQL-Pool haben Sie noch weitere Möglichkeiten und können ein logisches Data Warehouse erstellen – eine relationale Ebene, der Azure-Datenquellen zugrunde liegen. Weitere Informationen zum Erstellen eines logischen Data Warehouse finden Sie in diesem Tutorial.

Nächste Schritte

Analysieren von Daten mit einem serverlosen Spark-Pool

Teilen über