Gegevens analyseren met een serverloze SQL-pool

In deze zelfstudie leert u hoe u gegevens kunt analyseren met een serverloze SQL-pool.

De ingebouwde serverloze SQL-pool

Met serverloze SQL-pools kunt u SQL gebruiken zonder dat u capaciteit hoeft te reserveren. Facturering voor een serverloze SQL-pool is gebaseerd op de hoeveelheid gegevens die is verwerkt om de query uit te voeren en niet op het aantal knooppunten dat wordt gebruikt om de query uit te voeren.

Elke werkruimte wordt geleverd met een vooraf geconfigureerde serverloze SQL-pool met de naam Ingebouwd.

NYC Taxi-gegevens analyseren met een serverloze SQL-pool

  1. Ga in Synapse Studio naar de hub Ontwikkelen

  2. Maak een nieuw SQL-script.

  3. Plak de volgende code in het script.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Selecteer Uitvoeren.

Gegevensverkenning is slechts een vereenvoudigd scenario waarin u de basiskenmerken van uw gegevens begrijpt. Meer informatie over gegevensverkenning en -analyse vindt u in deze zelfstudie.

Database voor gegevensverkenning maken

U kunt rechtstreeks via master de database door de inhoud van de bestanden bladeren. Voor sommige eenvoudige scenario's voor gegevensverkenning hoeft u geen afzonderlijke database te maken. Als u echter doorgaat met het verkennen van gegevens, wilt u mogelijk enkele hulpprogrammaobjecten maken, zoals:

  • Externe gegevensbronnen die de benoemde verwijzingen voor opslagaccounts vertegenwoordigen.
  • Referenties voor databasebereik waarmee u kunt opgeven hoe u zich moet verifiëren bij een externe gegevensbron.
  • Databasegebruikers met de machtigingen voor toegang tot bepaalde gegevensbronnen of databaseobjecten.
  • Hulpprogrammaweergaven, procedures en functies die u in de query's kunt gebruiken.
  1. Gebruik de master database om een afzonderlijke database te maken voor aangepaste databaseobjecten. Aangepaste databaseobjecten kunnen niet worden gemaakt in de master database.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Belangrijk

    Gebruik een sortering met _UTF8 achtervoegsel om ervoor te zorgen dat UTF-8-tekst correct wordt geconverteerd naar VARCHAR kolommen. Latin1_General_100_BIN2_UTF8 biedt de beste prestaties in de query's die gegevens lezen uit Parquet-bestanden en Azure Cosmos DB-containers. Raadpleeg Sorteringstypen die worden ondersteund voor Synapse SQL voor meer informatie over het wijzigen van sorteringen.

  2. Schakel de databasecontext over van master naar DataExplorationDB met behulp van de volgende opdracht. U kunt ook het ui-besturingselement Database gebruiken gebruiken gebruiken om uw huidige database te wijzigen:

    USE DataExplorationDB
    
  3. Maak vanuit DataExplorationDBhulpprogrammaobjecten, zoals referenties en gegevensbronnen.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Notitie

    Een externe gegevensbron kan zonder referentie worden gemaakt. Als er geen referentie bestaat, wordt de identiteit van de aanroeper gebruikt voor toegang tot de externe gegevensbron.

  4. U kunt eventueel de zojuist gemaakte DataExplorationDB database gebruiken om een aanmelding te maken voor een gebruiker in DataExplorationDB die toegang heeft tot externe gegevens:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Maak vervolgens een databasegebruiker in DataExplorationDB voor de bovenstaande aanmelding en ververleent de ADMINISTER DATABASE BULK OPERATIONS machtiging.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Verken de inhoud van het bestand met behulp van het relatieve pad en de gegevensbron:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Publiceer uw wijzigingen in de werkruimte.

Gegevensverkenningsdatabase is slechts een eenvoudige tijdelijke aanduiding waar u uw hulpprogrammaobjecten kunt opslaan. Met Synapse SQL-pool kunt u veel meer doen en een logische Data Warehouse maken: een relationele laag die is gebouwd op Azure-gegevensbronnen. Meer informatie over het bouwen van een logisch datawarehouse vindt u in deze zelfstudie.

Volgende stappen