Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Fontos
A Google Analytics Raw Data-összekötő nyilvános előzetes verzióban érhető el.
Ez a cikk azt ismerteti, hogyan hozhat létre Google Analytics Raw Data-betöltési folyamatot a Databricks Lakeflow Connect és a Google BigQuery használatával. A folyamatot a Databricks felhasználói felületén vagy a Databricks API-kkal hozhatja létre.
Mielőtt hozzákezdene
Adatbetöltési csatorna létrehozásához meg kell felelnie a következő követelményeknek:
A munkaterületet alkalmassá kell tenni a Unity Catalog használatához.
A kiszolgáló nélküli számítást engedélyezni kell a munkaterületen. Lásd: Kiszolgáló nélküli számítás engedélyezése.
Ha új kapcsolatot szeretne létrehozni: A metaadattárban jogosultságokkal kell rendelkeznie
CREATE CONNECTION
.Ha az összekötő támogatja a felhasználói felületalapú folyamatkészítést, az ezen a lapon található lépések végrehajtásával egyszerre hozhatja létre a kapcsolatot és a folyamatot. Ha azonban API-alapú folyamatkészítést használ, a lap lépéseinek végrehajtása előtt létre kell hoznia a kapcsolatot a Catalog Explorerben. Lásd: Csatlakozás felügyelt adatbeviteli forrásokhoz.
Ha meglévő kapcsolatot szeretne használni:
USE CONNECTION
jogosultságokkal vagyALL PRIVILEGES
kapcsolatobjektummal kell rendelkeznie.Kell rendelkeznie
USE CATALOG
jogosultsággal a célkatalógushoz.Rendelkeznie kell
USE SCHEMA
ésCREATE TABLE
jogosultságokkal egy meglévő sémára, vagyCREATE SCHEMA
jogosultságokkal a célkatalógusra.
A GA4-ből a BigQuery segítségével történő betöltésről a Google Analytics 4 és a Google BigQuery Databricks betöltéséhez való beállítása című témakörben olvashat.
Hálózat konfigurálása
Ha engedélyezve van a kiszolgáló nélküli kimenő forgalom vezérlése, engedélyezze az alábbi URL-címek listáját. Ellenkező esetben hagyja ki ezt a lépést. Lásd: Hálózati házirendek kezelése kiszolgáló nélküli kimenő forgalom vezérléséhez.
bigquery.googleapis.com
oauth2.googleapis.com
bigquerystorage.googleapis.com
googleapis.com
Beolvasási csővezeték létrehozása
Szükséges engedélyek:USE CONNECTION
vagy ALL PRIVILEGES
kapcsolaton.
Ez a lépés a betöltési csővezeték létrehozását ismerteti. Minden betöltött táblát ugyanazzal a névvel írunk be egy streamelő táblába.
Databricks felhasználói felület
Az Azure Databricks-munkaterület oldalsávjában kattintson az Adatbetöltés elemre.
Az Adatok hozzáadása lap Databricks-összekötők területén kattintson a Google Analytics 4 elemre.
Megnyílik a betöltési varázsló.
A varázsló Betöltési folyamat lapján adja meg a folyamat egyedi nevét.
A Célkatalógus legördülő menüben válasszon ki egy katalógust. A betöltendő adatok és eseménynaplók ebbe a katalógusba lesznek írva. A célséma később ki lesz választva.
Válassza ki azt a Unity Catalog-kapcsolatot, amely a forrásadatok eléréséhez szükséges hitelesítő adatokat tárolja.
Ha nincs meglévő kapcsolat a forráshoz, kattintson a Kapcsolat létrehozása gombra, és adja meg a Google Analytics 4 és a Google BigQuery for Databricks betöltési beállításában beszerzett hitelesítési adatokat. Rendelkeznie
CREATE CONNECTION
kell jogosultságokkal a metatárolóban.Kattintson a Folyamat létrehozása gombra , és folytassa a műveletet.
A Forrás lapon jelölje ki a Databricksbe betöltendő táblákat, majd kattintson a Tovább gombra.
A Cél lapon válassza ki azt a Unity-katalógust és sémát, amelybe írni szeretne.
Ha nem szeretne meglévő sémát használni, kattintson a Séma létrehozása elemre. Rendelkeznie kell
USE CATALOG
ésCREATE SCHEMA
jogosultságokkal a szülőkatalógusban.Kattintson a Folyamat mentése gombra , és folytassa a műveletet.
(Nem kötelező) A Beállítások lapon kattintson az Ütemezés létrehozása elemre. Állítsa be a céltáblák frissítésének gyakoriságát.
(Nem kötelező) A folyamatművelet sikerességére vagy sikertelenségére vonatkozó e-mail-értesítések beállítása.
Kattintson a Folyamat mentése és futtatása parancsra.
Databricks-jegyzetfüzet
Hozzon létre egy személyes hozzáférési jogkivonatot, és másolja ki a jogkivonatot, hogy később beilleszthesse egy jegyzetfüzetbe. Tekintse meg az Azure Databricks személyes hozzáférési jogkivonatait a munkaterület felhasználói számára.
Importálja a következő jegyzetfüzetet a munkaterületre:
Hozzon létre egy Google Analytics nyers adatbetöltési folyamatot
Módosítsa a következő értékeket a jegyzetfüzetben:
1. cella:
-
api_token
: A létrehozott személyes hozzáférési jogkivonat
3. cella:
-
name
: A folyamat neve -
connection_name
: A Katalóguskezelőben létrehozott Unity Catalog-kapcsolat neve (Külső adatkapcsolatok > katalógusa>). Ha nincs meglévő kapcsolata a forrással, létrehozhat egyet. ACREATE CONNECTION
jogosultsággal kell rendelkeznie a metaadattárban. -
source_catalog
: A Google Cloud Platform (GCP) projektazonosítója. Ha a forráskatalógus nincs megadva, az összekötő feltételezi, hogy a szolgáltatásfiókban említett GCP-projektből kell betöltést elvégezni. -
source_schema
: A Google Analytics-tulajdonság neve a formátumbananalytics_XXXXXXXX
-
source_table
: A forrástábla neve:events
,events_intraday
,users
vagypseudonymous_users
-
destination_catalog
: A betöltött adatokat tartalmazó célkatalógus neve -
destination_schema
: A betöltött adatokat tartalmazó célséma neve -
scd_type
: A használni kívánt SCD-metódus:SCD_TYPE_1
vagySCD_TYPE_2
. Lásd az előzmények nyomon követését.
-
Kattintson az Összes futtatása gombra.
A Databricks parancssori felülete
Csővezeték létrehozása:
databricks pipelines create --json "<pipeline definition or json file path>"
A pipeline szerkesztése érdekében:
databricks pipelines update --json "<pipeline definition or json file path>"
A folyamatdefiníció lekérése:
databricks pipelines get "<pipeline-id>"
A csővezeték törlése:
databricks pipelines delete "<pipeline-id>"
További információkért futtassa a következőt:
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help
Frissítsd a munkafolyamatod ütemezését és az értesítéseidet
A folyamat ütemezését a folyamat részletei lapon hozhatja létre.
A folyamat létrehozása után nyissa meg újra az Azure Databricks-munkaterületet, majd kattintson a Pipelines elemre.
Az új csővezeték megjelenik a csővezetéklistában.
A folyamat részleteinek megtekintéséhez kattintson a folyamat nevére.
A folyamat részletei lapon az Ütemezés gombra kattintva ütemezheti a folyamatot.
Ha értesítéseket szeretne beállítani a folyamaton, kattintson a Beállítások gombra, majd adjon hozzá egy értesítést.
A folyamathoz hozzáadott összes ütemezéshez a Lakeflow Connect automatikusan létrehoz egy feladatot. A betöltési folyamat egy feladaton belüli munkaelem. Igény szerint további tevékenységeket is hozzáadhat a feladathoz.