Analysera data med en serverlös SQL-pool

I den här självstudien får du lära dig att analysera data med en serverlös SQL-pool.

Den inbyggda serverlösa SQL-poolen

Med serverlösa SQL-pooler kan du använda SQL utan att behöva reservera kapacitet. Faktureringen för en serverlös SQL-pool baseras på mängden data som bearbetas för att köra frågan och inte antalet noder som används för att köra frågan.

Varje arbetsyta levereras med en förkonfigurerad serverlös SQL-pool med namnet Inbyggd.

Analysera NYC Taxi-data med en serverlös SQL-pool

Anteckning

Kontrollera att du har placerat exempeldata i det primära lagringskontot

  1. I Synapse Studio går du till utveckla hubben

  2. Skapa ett nytt SQL-skript.

  3. Klistra in följande kod i skriptet.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Välj Kör.

Datautforskning är bara ett förenklat scenario där du kan förstå de grundläggande egenskaperna för dina data. Läs mer om datautforskning och analys i den här självstudien.

Skapa datagranskningsdatabas

Du kan bläddra i innehållet i filerna direkt via master databasen. För vissa enkla datautforskningsscenarier behöver du inte skapa en separat databas. Men när du fortsätter datautforskningen kanske du vill skapa några verktygsobjekt, till exempel:

  • Externa datakällor som representerar de namngivna referenserna för lagringskonton.
  • Databasomfattande autentiseringsuppgifter som gör att du kan ange hur du autentiserar till en extern datakälla.
  • Databasanvändare med behörighet att komma åt vissa datakällor eller databasobjekt.
  • Verktygsvyer, procedurer och funktioner som du kan använda i frågorna.
  1. Använd databasen master för att skapa en separat databas för anpassade databasobjekt. Det går inte att skapa anpassade databasobjekt i master databasen.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Viktigt

    Använd en sortering med _UTF8 suffix för att säkerställa att UTF-8-text konverteras korrekt till VARCHAR kolumner. Latin1_General_100_BIN2_UTF8 ger bästa möjliga prestanda i frågor som läser data från Parquet-filer och Azure Cosmos DB-containrar. Mer information om hur du ändrar sortering finns i Sorteringstyper som stöds för Synapse SQL.

  2. Växla databaskontexten från master till DataExplorationDB med följande kommando. Du kan också använda användargränssnittskontrollen med hjälp av databasen för att växla din aktuella databas:

    USE DataExplorationDB
    
  3. Från DataExplorationDBskapar du verktygsobjekt som autentiseringsuppgifter och datakällor.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Anteckning

    En extern datakälla kan skapas utan autentiseringsuppgifter. Om det inte finns någon autentiseringsuppgift används anroparens identitet för att komma åt den externa datakällan.

  4. Du kan också använda den nyligen skapade DataExplorationDB databasen för att skapa en inloggning för en användare i DataExplorationDB som kommer åt externa data:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Skapa sedan en databasanvändare i DataExplorationDB för ovanstående inloggning och bevilja behörigheten ADMINISTER DATABASE BULK OPERATIONS .

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Utforska innehållet i filen med hjälp av den relativa sökvägen och datakällan:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Publicera ändringarna på arbetsytan.

Datautforskningsdatabasen är bara en enkel platshållare där du kan lagra dina verktygsobjekt. Med Synapse SQL-poolen kan du göra mycket mer och skapa en logisk Data Warehouse – ett relationslager som bygger på Azure-datakällor. Läs mer om att skapa ett logiskt informationslager i den här självstudien.

Nästa steg