Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Fontos
A Google Analytics Raw Data-összekötő nyilvános előzetes verzióban érhető el.
A Google Analytics Raw Data-összekötővel nyers, eseményszintű adatokat használhat a Google Analytics 4 -ből (GA4) a Databricks Lakeflow Connect és a Google BigQuery használatával.
Hogyan működik a GA4-betöltés?
Először is exportálnia kell GA4-adatait a BigQuerybe a Google által biztosított API-k vagy felhasználói felületek használatával. Ezután a Databricks a Következő API-k használatával használja fel a BigQuery adatait:
- A BigQuery API metaadat-műveletekhez (például táblák és sémák listázásához)
- A BigQuery Storage API az adatbetöltéshez
- A Cloud Resource Manager API sémafeltáráshoz
Összekötő adatmodellje
A GA4-összekötő az alábbi táblákat tudja beolvasni egy adott GA4-tulajdonságból:
events
events_intraday
users
pseudonymous_users
A GA4-be érkező adatok minden napjára automatikusan létrejön egy dátumparticionált tábla a BigQueryben. A BigQuery-tábla neve a következő formátumú: <table_name>_YYYYMMDD
(például events_20241024
).
Minden Lakeflow Connect-folyamat frissítése során az összekötő automatikusan betölti az új táblákat az utolsó frissítés óta. A meglévő táblák új sorait is felveszi legfeljebb 72 órán át.
Az összekötő alapjai
A folyamat kezdeti futtatásakor az összekötő betölti a BigQuerybe exportált összes adatot a kiválasztott táblákhoz.
A későbbi folyamatfuttatások során az összekötő betölti az újonnan beszúrt sorokat, a cikkben ismertetett kikötésekkel.
A frissítések és a törlések nincsenek feldolgozva.
A kezdeti terhelés lekéri a GA4/BigQuery projektben található összes dátum adatait.
Az összekötő feltételezi, hogy minden sor egyedi. A Databricks nem tudja garantálni a helyes viselkedést váratlan ismétlődések esetén.
Ablakok és ütemezések frissítése
A GA4 a létrehozásuk után akár 72 óráig is frissítheti a táblákat. Ezért a Databricks 72 órán keresztül nyomon követi és betölti a táblák frissítéseit. Az összekötő nem betölti automatikusan a táblák frissítéseit a 72 órás frissítési időszak után (például ha a GA4 újra feldolgozta az előzményadatokat).
A Lakeflow Connect-folyamatot legalább 72 óránként futtatnia kell, de a Databricks azt javasolja, hogy naponta futtassa a folyamatot. A ritkábban történő szinkronizálás növeli annak kockázatát, hogy az összekötőnek újra kell vennie az adatokat.
A Databricks azt is javasolja, hogy tartsa karban a BigQuery alapértelmezett 7 napos időutazási időszakát. Ez segíthet a fogyasztás hatékonyságában.
Táblázatszintű adatmodellek és egyéb kulcsfontosságú információk
események és events_intraday táblák
Az events
tábla és a events_intraday
tábla esetében a Databricks egy sora megfelel egy sornak a BigQueryben.
events_intraday
A tábla esetében nincs garancia arra, hogy az adatok egy adott dátumra fognak létezni, miután az ugyanazon dátumra vonatkozó adatok elérhetővé válnak a events
táblában. Ennek az az oka, hogy a events_intraday
tábla csak ideiglenes használatra van szánva, amíg a events
tábla nem áll készen arra a napra.
felhasználók táblája
A users
táblázatból való adatbetöltéshez a csatlakozó az user_id
kulcsot használja mint elsődleges, az last_updated_date
kulcsot pedig mint kurzorkulcsot. Ennek eredményeképpen felhasználói azonosítónként csak egy sort vesz fel az egyes users
táblákból: a legnagyobb last_updated_date
bejegyzést tartalmazó bejegyzést.
Ha a céltáblában felhasználói azonosítónként több sort szeretne megőrizni, állítsa az SCD módot 2-es típusra a táblakonfigurációban.
pszeudonim_felhasználók tábla
A pseudonymous_users
táblából való betöltéshez az összekötő az pseudo_user_id
és stream_id
elsődleges kulcsként támaszkodik. A last_updated_date
-t használja kurzorbillentyűként. Ennek eredményeképpen pszeudofelhasználó-azonosítónként csak egy sort vesz fel az egyes pseudonymous_users
táblákból: a legnagyobb last_updated_date
bejegyzést tartalmazó bejegyzést.
Ha a céltáblában felhasználói azonosítónként több sort szeretne megőrizni, állítsa az SCD módot 2-es típusra a táblakonfigurációban.