Oktatóanyag: Event Hubs-adatok parquet formátumban történő rögzítése és elemzése Azure Synapse Analytics használatával

Ez az oktatóanyag bemutatja, hogyan hozhat létre olyan feladatot a Stream Analytics nincs kódszerkesztővel, amely az Event Hubs-adatokat parquet formátumban Azure Data Lake Storage Gen2.

Eben az oktatóanyagban az alábbiakkal fog megismerkedni:

  • Eseménygenerátor üzembe helyezése, amely mintaeseményeket küld egy eseményközpontba
  • Stream Analytics-feladat létrehozása kódszerkesztő nélkül
  • Bemeneti adatok és séma áttekintése
  • Konfigurálja Azure Data Lake Storage Gen2, hogy melyik eseményközpont adatai legyenek rögzítve
  • Stream Analytics-feladat futtatása
  • A parquet-fájlok lekérdezése a Azure Synapse Analytics használatával

Előfeltételek

A kezdés előtt győződjön meg arról, hogy elvégezte a következő lépéseket:

Stream Analytics-feladat létrehozása kódszerkesztő nélkül

  1. Keresse meg azt az erőforráscsoportot, amelyben a TollApp eseménygenerátor üzembe lett helyezve.

  2. Válassza ki a Azure Event Hubs névteret.

  3. Az Event Hubs-névtér lapon válassza az Event Hubs elemet a bal oldali menü Entitások területén.

  4. Válassza ki a példányt entrystream .

    Képernyőkép az eseményközpont kiválasztásáról.

  5. Az Event Hubs-példány lapon válassza az Adatok feldolgozása lehetőséget a bal oldali menü Szolgáltatások szakaszában.

  6. Válassza a Start lehetőséget az Adatok rögzítése az ADLS Gen2-be parquet formátumú csempén.

    Képernyőkép a **Adatrögzítés az ADLS Gen2-be Parquet formátumban** csempéről.

  7. Nevezze el a feladatot parquetcapture , és válassza a Létrehozás lehetőséget.

    Képernyőkép az Új Stream Analytics-feladatlapról.

  8. Az eseményközpont konfigurációs oldalán erősítse meg az alábbi beállításokat, majd válassza a Csatlakozás lehetőséget.

    • Fogyasztói csoport: Alapértelmezett

    • A bemeneti adatok szerializálási típusa: JSON

    • Hitelesítési mód , amellyel a feladat csatlakozni fog az eseményközponthoz: Kapcsolati sztring.

      Képernyőkép az eseményközpont konfigurációs oldaláról.

  9. Néhány másodpercen belül látni fogja a minta bemeneti adatokat és a sémát. Dönthet úgy, hogy elveti a mezőket, átnevezi a mezőket, vagy módosítja az adattípust.

    Képernyőkép az adatok mezőiről és előnézetéről.

  10. Válassza ki a Azure Data Lake Storage Gen2 csempét a vásznon, és konfigurálja a

    • Előfizetés, ahol az Azure Data Lake Gen2-fiók a következő helyen található:
    • A tárfiók neve, amelynek meg kell egyeznie a Azure Synapse Analytics-munkaterülethez használt ADLS Gen2-fiókkal, az Előfeltételek szakaszban.
    • Tároló, amelyen belül létrejönnek a Parquet-fájlok.
    • Elérésiút-minta {date}/{time} értékre állítva
    • A dátum- és időminta az alapértelmezett éééé-hh-nn és óóé.
    • Válassza a Csatlakozás lehetőséget

    Képernyőkép a Data Lake Storage konfigurációs beállításairól.

  11. A felső menüszalagon válassza a Mentés lehetőséget a feladat mentéséhez, majd válassza a Start lehetőséget a feladat futtatásához. A feladat elindítása után a jobb sarokban válassza az X lehetőséget a Stream Analytics-feladatlap bezárásához.

    Képernyőkép a Stream Analytics-feladat indítása lapról.

  12. Ezután megjelenik a kódszerkesztővel létrehozott Összes Stream Analytics-feladat listája. Két percen belül a feladat futási állapotba kerül. A lapon a Frissítés gombra kattintva megtekintheti, hogy az állapot a Létrehozás – Indítás –>> Futtatás beállításról változik-e.

    Képernyőkép a Stream Analytics-feladatok listájáról.

Kimenet megtekintése a Azure Data Lake Storage Gen 2-fiókban

  1. Keresse meg az előző lépésben használt Azure Data Lake Storage Gen2 fiókot.

  2. Válassza ki az előző lépésben használt tárolót. Az előző lépésben használt {date}/{time} útvonalminta alapján létrehozott parkettafájlok láthatók.

    Képernyőkép a 2. generációs Azure Data Lake Storage rögzített parkettafájlokról.

Rögzített adatok lekérdezése Parquet formátumban Azure Synapse Analytics használatával

Lekérdezés Azure Synapse Spark használatával

  1. Keresse meg a Azure Synapse Analytics-munkaterületet, és nyissa meg a Synapse Studio.

  2. Hozzon létre egy kiszolgáló nélküli Apache Spark-készletet a munkaterületen, ha még nem létezik.

  3. A Synapse Studio lépjen a Fejlesztés központra, és hozzon létre egy új jegyzetfüzetet.

  4. Hozzon létre egy új kódcellát, és illessze be a következő kódot a cellába. Cserélje le a tárolót és az adlsname-t az előző lépésben használt tároló és ADLS Gen2-fiók nevére.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Az eszköztár Csatolás eleméhez válassza ki a Spark-készletet a legördülő listából.

  6. Az eredmények megtekintéséhez válassza az Összes futtatása lehetőséget

    Képernyőkép a Spark-futtatási eredményekről az Azure Synapse Analyticsben.

Lekérdezés Azure Synapse kiszolgáló nélküli SQL használatával

  1. A Fejlesztési központban hozzon létre egy új SQL-szkriptet.

    Képernyőkép a Fejlesztés lapról, amelyen az új SQL-szkript menü van kiválasztva.

  2. Illessze be a következő szkriptet, és futtassa a beépített kiszolgáló nélküli SQL-végponttal . Cserélje le a tárolót és az adlsname-t az előző lépésben használt tároló és ADLS Gen2-fiók nevére.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Képernyőkép az SQL-szkript eredményeiről az Azure Synapse Analyticsben.

Az erőforrások eltávolítása

  1. Keresse meg az Event Hubs-példányt, és tekintse meg a Stream Analytics-feladatok listáját a Folyamatadatok szakaszban. Állítsa le a futó feladatokat.
  2. Nyissa meg azt az erőforráscsoportot, amelyet a TollApp eseménygenerátor üzembe helyezésekor használt.
  3. Válassza az Erőforráscsoport törlése elemet. Írja be az erőforráscsoport nevét a törlés megerősítéséhez.

Következő lépések

Ebben az oktatóanyagban megtanulta, hogyan hozhat létre Stream Analytics-feladatot a nincs kódszerkesztővel az Event Hubs-adatfolyamok Parquet formátumú rögzítéséhez. Ezután a Azure Synapse Analytics használatával lekérdezte a parquet fájlokat a Synapse Spark és a Synapse SQL használatával.