Adatok elemzése kiszolgáló nélküli SQL-készlettel

Ebben az oktatóanyagban megtudhatja, hogyan elemezhet adatokat kiszolgáló nélküli SQL-készlettel.

A beépített kiszolgáló nélküli SQL-készlet

A kiszolgáló nélküli SQL-készletek lehetővé teszik az SQL használatát anélkül, hogy kapacitást kellene lefoglalnia. A kiszolgáló nélküli SQL-készlet számlázása a lekérdezés futtatásához feldolgozott adatok mennyiségén alapul, nem pedig a lekérdezés futtatásához használt csomópontok számán.

Minden munkaterülethez tartozik egy előre konfigurált, beépített nevű kiszolgáló nélküli SQL-készlet.

NYC Taxi-adatok elemzése kiszolgáló nélküli SQL-készlettel

Megjegyzés

Győződjön meg arról, hogy a mintaadatokat az elsődleges tárfiókba helyezte

  1. A Synapse Studio lépjen a Fejlesztés központra

  2. Hozzon létre egy új SQL-szkriptet.

  3. Illessze be a következő kódot a szkriptbe.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Válassza a Futtatás lehetőséget.

Az adatfeltárás csak egy egyszerűsített forgatókönyv, amelyben megismerheti az adatok alapvető jellemzőit. Ebben az oktatóanyagban többet is megtudhat az adatfeltárásról és -elemzésről.

Adatfeltárási adatbázis létrehozása

A fájlok tartalmát közvetlenül az adatbázison keresztül master tallózhatja. Néhány egyszerű adatfeltárási forgatókönyv esetén nem kell külön adatbázist létrehoznia. Az adatfeltárás folytatása során azonban érdemes lehet létrehozni néhány segédprogramobjektumot, például:

  • Külső adatforrások, amelyek a tárfiókok nevesített hivatkozásait képviselik.
  • Adatbázis-hatókörű hitelesítő adatok, amelyek lehetővé teszik a külső adatforrások hitelesítésének megadását.
  • Adatbázis-felhasználók, akik hozzáféréssel rendelkezik bizonyos adatforrásokhoz vagy adatbázis-objektumokhoz.
  • A lekérdezésekben használható segédprogramnézetek, eljárások és függvények.
  1. master Az adatbázissal külön adatbázist hozhat létre egyéni adatbázis-objektumokhoz. Egyéni adatbázis-objektumok nem hozhatók létre az master adatbázisban.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Fontos

    Az utótaggal ellátott rendezés használatával _UTF8 győződjön meg arról, hogy az UTF-8 szöveg megfelelően oszlopokká VARCHAR lesz konvertálva. Latin1_General_100_BIN2_UTF8 A legjobb teljesítményt nyújt a Parquet-fájlokból és az Azure Cosmos DB-tárolókból adatokat olvasó lekérdezésekben. A rendezés módosításáról további információt a Synapse SQL-hez támogatott rendezési típusok című témakörben talál.

  2. Váltson át az adatbázis-környezetre masterDataExplorationDB a következő paranccsal. A felhasználói felület vezérlője adatbázis használatával is átválthat az aktuális adatbázisra:

    USE DataExplorationDB
    
  3. A fájlból DataExplorationDBhozzon létre segédprogramobjektumokat, például hitelesítő adatokat és adatforrásokat.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Megjegyzés

    A külső adatforrások hitelesítő adatok nélkül hozhatók létre. Ha nem létezik hitelesítő adat, a rendszer a hívó identitását használja a külső adatforrás eléréséhez.

  4. Ha szeretné, az újonnan létrehozott DataExplorationDB adatbázis használatával hozzon létre egy bejelentkezést egy olyan felhasználó DataExplorationDB számára, aki hozzáfér a külső adatokhoz:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Ezután hozzon létre egy adatbázis-felhasználót DataExplorationDB a fenti bejelentkezéshez, és adja meg az ADMINISTER DATABASE BULK OPERATIONS engedélyt.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Vizsgálja meg a fájl tartalmát a relatív elérési út és az adatforrás használatával:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Tegye közzé a módosításokat a munkaterületen.

Az adatfeltárási adatbázis csak egy egyszerű helyőrző, ahol a segédprogramobjektumokat tárolhatja. A Synapse SQL-készlettel sokkal több műveletet hajthat végre, és létrehozhat egy Logikai Data Warehouse - egy relációs réteget, amely az Azure-adatforrásokra épül. Ebben az oktatóanyagban további információt talál a logikai adattárház felépítéséről.

Következő lépések