Megosztás a következőn keresztül:


Nyers Google Analytics-adatbetöltési folyamat létrehozása

Fontos

A Google Analytics Raw Data-összekötő nyilvános előzetes verzióban érhető el.

Ez a cikk azt ismerteti, hogyan hozhat létre Google Analytics Raw Data-betöltési folyamatot a Databricks Lakeflow Connect és a Google BigQuery használatával. A folyamatot a Databricks felhasználói felületén vagy a Databricks API-kkal hozhatja létre.

Mielőtt hozzákezdene

Adatbetöltési csatorna létrehozásához meg kell felelnie a következő követelményeknek:

  • A munkaterületet alkalmassá kell tenni a Unity Catalog használatához.

  • A kiszolgáló nélküli számítást engedélyezni kell a munkaterületen. Lásd: Kiszolgáló nélküli számítás engedélyezése.

  • Ha új kapcsolatot szeretne létrehozni: A metaadattárban jogosultságokkal kell rendelkeznie CREATE CONNECTION .

    Ha az összekötő támogatja a felhasználói felületalapú folyamatkészítést, az ezen a lapon található lépések végrehajtásával egyszerre hozhatja létre a kapcsolatot és a folyamatot. Ha azonban API-alapú folyamatkészítést használ, a lap lépéseinek végrehajtása előtt létre kell hoznia a kapcsolatot a Catalog Explorerben. Lásd: Csatlakozás felügyelt adatbeviteli forrásokhoz.

  • Ha meglévő kapcsolatot szeretne használni: USE CONNECTION jogosultságokkal vagy ALL PRIVILEGES kapcsolatobjektummal kell rendelkeznie.

  • Kell rendelkeznie USE CATALOG jogosultsággal a célkatalógushoz.

  • Rendelkeznie kell USE SCHEMA és CREATE TABLE jogosultságokkal egy meglévő sémára, vagy CREATE SCHEMA jogosultságokkal a célkatalógusra.

A GA4-ből a BigQuery segítségével történő betöltésről a Google Analytics 4 és a Google BigQuery Databricks betöltéséhez való beállítása című témakörben olvashat.

Hálózat konfigurálása

Ha engedélyezve van a kiszolgáló nélküli kimenő forgalom vezérlése, engedélyezze az alábbi URL-címek listáját. Ellenkező esetben hagyja ki ezt a lépést. Lásd: Hálózati házirendek kezelése kiszolgáló nélküli kimenő forgalom vezérléséhez.

  • bigquery.googleapis.com
  • oauth2.googleapis.com
  • bigquerystorage.googleapis.com
  • googleapis.com

Beolvasási csővezeték létrehozása

Szükséges engedélyek:USE CONNECTION vagy ALL PRIVILEGES kapcsolaton.

Ez a lépés a betöltési csővezeték létrehozását ismerteti. Minden betöltött táblát ugyanazzal a névvel írunk be egy streamelő táblába.

Databricks felhasználói felület

  1. Az Azure Databricks-munkaterület oldalsávjában kattintson az Adatbetöltés elemre.

  2. Az Adatok hozzáadása lap Databricks-összekötők területén kattintson a Google Analytics 4 elemre.

    Megnyílik a betöltési varázsló.

  3. A varázsló Betöltési folyamat lapján adja meg a folyamat egyedi nevét.

  4. A Célkatalógus legördülő menüben válasszon ki egy katalógust. A betöltendő adatok és eseménynaplók ebbe a katalógusba lesznek írva. A célséma később ki lesz választva.

  5. Válassza ki azt a Unity Catalog-kapcsolatot, amely a forrásadatok eléréséhez szükséges hitelesítő adatokat tárolja.

    Ha nincs meglévő kapcsolat a forráshoz, kattintson a Kapcsolat létrehozása gombra, és adja meg a Google Analytics 4 és a Google BigQuery for Databricks betöltési beállításában beszerzett hitelesítési adatokat. Rendelkeznie CREATE CONNECTION kell jogosultságokkal a metatárolóban.

  6. Kattintson a Folyamat létrehozása gombra , és folytassa a műveletet.

  7. A Forrás lapon jelölje ki a Databricksbe betöltendő táblákat, majd kattintson a Tovább gombra.

  8. A Cél lapon válassza ki azt a Unity-katalógust és sémát, amelybe írni szeretne.

    Ha nem szeretne meglévő sémát használni, kattintson a Séma létrehozása elemre. Rendelkeznie kell USE CATALOG és CREATE SCHEMA jogosultságokkal a szülőkatalógusban.

  9. Kattintson a Folyamat mentése gombra , és folytassa a műveletet.

  10. (Nem kötelező) A Beállítások lapon kattintson az Ütemezés létrehozása elemre. Állítsa be a céltáblák frissítésének gyakoriságát.

  11. (Nem kötelező) A folyamatművelet sikerességére vagy sikertelenségére vonatkozó e-mail-értesítések beállítása.

  12. Kattintson a Folyamat mentése és futtatása parancsra.

Databricks-jegyzetfüzet

  1. Hozzon létre egy személyes hozzáférési jogkivonatot, és másolja ki a jogkivonatot, hogy később beilleszthesse egy jegyzetfüzetbe. Tekintse meg az Azure Databricks személyes hozzáférési jogkivonatait a munkaterület felhasználói számára.

  2. Importálja a következő jegyzetfüzetet a munkaterületre:

    Hozzon létre egy Google Analytics nyers adatbetöltési folyamatot

    Jegyzetfüzet szerezz

  3. Módosítsa a következő értékeket a jegyzetfüzetben:

    1. cella:

    • api_token: A létrehozott személyes hozzáférési jogkivonat

    3. cella:

    • name: A folyamat neve
    • connection_name: A Katalóguskezelőben létrehozott Unity Catalog-kapcsolat neve (Külső adatkapcsolatok > katalógusa>). Ha nincs meglévő kapcsolata a forrással, létrehozhat egyet. A CREATE CONNECTION jogosultsággal kell rendelkeznie a metaadattárban.
    • source_catalog: A Google Cloud Platform (GCP) projektazonosítója. Ha a forráskatalógus nincs megadva, az összekötő feltételezi, hogy a szolgáltatásfiókban említett GCP-projektből kell betöltést elvégezni.
    • source_schema: A Google Analytics-tulajdonság neve a formátumban analytics_XXXXXXXX
    • source_table: A forrástábla neve: events, events_intraday, usersvagy pseudonymous_users
    • destination_catalog: A betöltött adatokat tartalmazó célkatalógus neve
    • destination_schema: A betöltött adatokat tartalmazó célséma neve
    • scd_type: A használni kívánt SCD-metódus: SCD_TYPE_1 vagy SCD_TYPE_2. Lásd az előzmények nyomon követését.
  4. Kattintson az Összes futtatása gombra.

A Databricks parancssori felülete

Csővezeték létrehozása:

databricks pipelines create --json "<pipeline definition or json file path>"

A pipeline szerkesztése érdekében:

databricks pipelines update --json "<pipeline definition or json file path>"

A folyamatdefiníció lekérése:

databricks pipelines get "<pipeline-id>"

A csővezeték törlése:

databricks pipelines delete "<pipeline-id>"

További információkért futtassa a következőt:

databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help

Frissítsd a munkafolyamatod ütemezését és az értesítéseidet

A folyamat ütemezését a folyamat részletei lapon hozhatja létre.

  1. A folyamat létrehozása után nyissa meg újra az Azure Databricks-munkaterületet, majd kattintson a Pipelines elemre.

    Az új csővezeték megjelenik a csővezetéklistában.

  2. A folyamat részleteinek megtekintéséhez kattintson a folyamat nevére.

  3. A folyamat részletei lapon az Ütemezés gombra kattintva ütemezheti a folyamatot.

  4. Ha értesítéseket szeretne beállítani a folyamaton, kattintson a Beállítások gombra, majd adjon hozzá egy értesítést.

A folyamathoz hozzáadott összes ütemezéshez a Lakeflow Connect automatikusan létrehoz egy feladatot. A betöltési folyamat egy feladaton belüli munkaelem. Igény szerint további tevékenységeket is hozzáadhat a feladathoz.