Adatok rögzítése az Event Hubsból Parquet formátumban

Ez a cikk azt ismerteti, hogyan rögzítheti automatikusan a streamelési adatokat az Event Hubsban a kódszerkesztő nélkül, parquet formátumú Azure Data Lake Storage Gen2-fiókban.

Előfeltételek

  • Egy Azure Event Hubs névtér egy eseményközponttal és egy Azure Data Lake Storage Gen2-fiókkal egy tárolóval a rögzített adatok tárolásához. Ezeknek az erőforrásoknak nyilvánosan hozzáférhetőnek kell lenniük, és nem lehetnek tűzfal mögött, és nem védhetők egy Azure-beli virtuális hálózaton.

    Ha nincs eseményközpontja, hozzon létre egyet az alábbi rövid útmutatóból : Eseményközpont létrehozása.

    Ha nincs Data Lake Storage Gen2 fiókja, hozzon létre egyet a Tárfiók létrehozása című témakör utasításait követve.

  • Az Event Hubsban lévő adatokat JSON, CSV vagy Avro formátumban kell szerializálni. Tesztelési célokból válassza az Adatok létrehozása (előzetes verzió) lehetőséget a bal oldali menüben, válassza a Stocks data for data for datas ( Adatkészletek adatai az adatkészlethez) lehetőséget, majd válassza a Küldés lehetőséget.

    Képernyőkép az Adatok létrehozása lapról a mintakészletadatok létrehozásához.

Feladat konfigurálása adatok rögzítésére

Az alábbi lépésekkel konfigurálhat egy Stream Analytics-feladatot az adatok Azure Data Lake Storage Gen2 való rögzítéséhez.

  1. Az Azure Portal keresse meg az eseményközpontot.

  2. A bal oldali menüben válassza az Adatok feldolgozása lehetőséget a Szolgáltatások területen. Ezután válassza a Start lehetőséget az Adatok rögzítése az ADLS Gen2-be Parquet formátumú kártyán .

    Képernyőkép az Event Hubs folyamatindító kártyáiról.

  3. Adja meg a Stream Analytics-feladat nevét , majd válassza a Létrehozás lehetőséget.

    Képernyőkép az Új Stream Analytics-feladat ablakról, ahol beírja a feladat nevét.

  4. Adja meg az adatok szerializálási típusát az Event Hubsban, valamint azt a hitelesítési módszert , amelyet a feladat az Event Hubshoz való csatlakozáshoz használ. Ezután válassza a Csatlakozás lehetőséget.

    Képernyőkép az Event Hubs kapcsolatkonfigurációjáról.

  5. Ha a kapcsolat sikeresen létrejött, a következőt látja:

    • A bemeneti adatokban található mezők. Választhatja a Mező hozzáadása lehetőséget, vagy a mező melletti három pont szimbólumot választva eltávolíthatja, átnevezheti vagy módosíthatja a nevét.

    • Élő minta a bejövő adatokról az Adatok előnézete táblában a diagramnézetben. Rendszeres időközönként frissül. A streamelőnézet szüneteltetése lehetőséget választva megtekintheti a mintabemenet statikus nézetét.

      Képernyőkép a mintaadatokról az Adatelőnézet területen.

  6. Válassza ki a Azure Data Lake Storage Gen2 csempét a konfiguráció szerkesztéséhez.

  7. A Azure Data Lake Storage Gen2 konfigurációs lapon kövesse az alábbi lépéseket:

    1. Válassza ki az előfizetést, a tárfiók nevét és a tárolót a legördülő menüből.

    2. Az előfizetés kiválasztása után a hitelesítési módszert és a tárfiókkulcsot automatikusan ki kell tölteni.

    3. Szerializálási formátumhoz válassza a Parquet lehetőséget.

      Képernyőkép a Data Lake Storage Gen2 konfigurációs oldalról.

    4. A streamelési blobok esetében a címtár elérési útjának mintája várhatóan dinamikus érték lesz. Ahhoz, hogy a dátum a blob fájlútvonalának része legyen, a hivatkozás a következőre {date}hivatkozik: . Az egyéni elérésiút-mintákról az Azure Stream Analytics egyéni blobkimenet particionálásával foglalkozó cikkben olvashat.

      Az első képernyőkép a Blob ablakról, amelyen egy blob kapcsolatkonfigurációját szerkessze.

    5. Válassza a Csatlakozás lehetőséget

  8. A kapcsolat létrejötte után megjelennek a kimeneti adatokban található mezők.

  9. A konfiguráció mentéséhez válassza a parancssáv Mentés elemét.

    Képernyőkép a parancssávon kiválasztott Mentés gombról.

  10. A parancssávon válassza a Start lehetőséget a streamelési folyamat elindításához az adatok rögzítéséhez. Ezután a Stream Analytics indítása feladatablakban:

    1. Válassza ki a kimenet kezdési időpontját.

    2. Válassza ki a tarifacsomagot.

    3. Válassza ki a feladat által futtatott streamelési egységek (SU) számát. Az SU a Stream Analytics-feladatok végrehajtásához lefoglalt számítási erőforrásokat jelöli. További információ: Streamelési egységek az Azure Stream Analyticsben.

      Képernyőkép a Stream Analytics indítása feladatablakról, ahol a kimeneti kezdési időpontot, a streamelési egységeket és a hibakezelést állította be.

  11. A Stream Analitikus feladatnak az eseményközpont Adatfeldolgozás lapjának Stream Analytics-feladat lapján kell megjelennie.

    Képernyőkép a Stream Analytics-feladatról az Adatok feldolgozása lapon.

Kimenet ellenőrzése

  1. Az eseményközpont Event Hubs-példány lapján válassza az Adatok generálása lehetőséget, válassza az Adatkészlet készletadatai lehetőséget, majd válassza a Küldés lehetőséget, hogy néhány mintaadatot elküldjön az eseményközpontnak.

  2. Ellenőrizze, hogy a Parquet-fájlok a Azure Data Lake Storage tárolóban lettek-e létrehozva.

    Képernyőkép az ADLS-tárolóban létrehozott Parquet-fájlokról.

  3. Válassza az Adatok feldolgozása lehetőséget a bal oldali menüben. Váltson a Stream Analytics-feladatok lapra. A figyeléséhez válassza a Metrikák megnyitása lehetőséget.

    Képernyőkép a Kijelölt Metrikák megnyitása hivatkozásról.

    Íme egy példa képernyőkép a bemeneti és kimeneti eseményeket megjelenítő metrikákról.

    Képernyőkép a Stream Analytics-feladat metrikáiról.

Következő lépések

Most már tudja, hogyan használhatja a Stream Analytics nincs kódszerkesztőt egy olyan feladat létrehozásához, amely az Event Hubs-adatokat parquet formátumban Azure Data Lake Storage Gen2. Ezután többet is megtudhat az Azure Stream Analyticsről és a létrehozott feladat monitorozásáról.