Megosztás a következőn keresztül:


A Google Analytics Raw Data-összekötővel kapcsolatos fogalmak

Fontos

A Google Analytics Raw Data-összekötő nyilvános előzetes verzióban érhető el.

A Google Analytics Raw Data-összekötővel nyers, eseményszintű adatokat használhat a Google Analytics 4 -ből (GA4) a Databricks Lakeflow Connect és a Google BigQuery használatával.

Hogyan működik a GA4-betöltés?

Először is exportálnia kell GA4-adatait a BigQuerybe a Google által biztosított API-k vagy felhasználói felületek használatával. Ezután a Databricks a Következő API-k használatával használja fel a BigQuery adatait:

  • A BigQuery API metaadat-műveletekhez (például táblák és sémák listázásához)
  • A BigQuery Storage API az adatbetöltéshez
  • A Cloud Resource Manager API sémafeltáráshoz

Összekötő adatmodellje

A GA4-összekötő az alábbi táblákat tudja beolvasni egy adott GA4-tulajdonságból:

  • events
  • events_intraday
  • users
  • pseudonymous_users

A GA4-be érkező adatok minden napjára automatikusan létrejön egy dátumparticionált tábla a BigQueryben. A BigQuery-tábla neve a következő formátumú: <table_name>_YYYYMMDD (például events_20241024).

Minden Lakeflow Connect-folyamat frissítése során az összekötő automatikusan betölti az új táblákat az utolsó frissítés óta. A meglévő táblák új sorait is felveszi legfeljebb 72 órán át.

Az összekötő alapjai

  • A folyamat kezdeti futtatásakor az összekötő betölti a BigQuerybe exportált összes adatot a kiválasztott táblákhoz.

  • A későbbi folyamatfuttatások során az összekötő betölti az újonnan beszúrt sorokat, a cikkben ismertetett kikötésekkel.

  • A frissítések és a törlések nincsenek feldolgozva.

  • A kezdeti terhelés lekéri a GA4/BigQuery projektben található összes dátum adatait.

  • Az összekötő feltételezi, hogy minden sor egyedi. A Databricks nem tudja garantálni a helyes viselkedést váratlan ismétlődések esetén.

Ablakok és ütemezések frissítése

A GA4 a létrehozásuk után akár 72 óráig is frissítheti a táblákat. Ezért a Databricks 72 órán keresztül nyomon követi és betölti a táblák frissítéseit. Az összekötő nem betölti automatikusan a táblák frissítéseit a 72 órás frissítési időszak után (például ha a GA4 újra feldolgozta az előzményadatokat).

A Lakeflow Connect-folyamatot legalább 72 óránként futtatnia kell, de a Databricks azt javasolja, hogy naponta futtassa a folyamatot. A ritkábban történő szinkronizálás növeli annak kockázatát, hogy az összekötőnek újra kell vennie az adatokat.

A Databricks azt is javasolja, hogy tartsa karban a BigQuery alapértelmezett 7 napos időutazási időszakát. Ez segíthet a fogyasztás hatékonyságában.

Táblázatszintű adatmodellek és egyéb kulcsfontosságú információk

események és events_intraday táblák

Az events tábla és a events_intraday tábla esetében a Databricks egy sora megfelel egy sornak a BigQueryben.

events_intraday A tábla esetében nincs garancia arra, hogy az adatok egy adott dátumra fognak létezni, miután az ugyanazon dátumra vonatkozó adatok elérhetővé válnak a events táblában. Ennek az az oka, hogy a events_intraday tábla csak ideiglenes használatra van szánva, amíg a events tábla nem áll készen arra a napra.

felhasználók táblája

A users táblázatból való adatbetöltéshez a csatlakozó az user_id kulcsot használja mint elsődleges, az last_updated_date kulcsot pedig mint kurzorkulcsot. Ennek eredményeképpen felhasználói azonosítónként csak egy sort vesz fel az egyes users táblákból: a legnagyobb last_updated_datebejegyzést tartalmazó bejegyzést.

Ha a céltáblában felhasználói azonosítónként több sort szeretne megőrizni, állítsa az SCD módot 2-es típusra a táblakonfigurációban.

pszeudonim_felhasználók tábla

A pseudonymous_users táblából való betöltéshez az összekötő az pseudo_user_id és stream_id elsődleges kulcsként támaszkodik. A last_updated_date-t használja kurzorbillentyűként. Ennek eredményeképpen pszeudofelhasználó-azonosítónként csak egy sort vesz fel az egyes pseudonymous_users táblákból: a legnagyobb last_updated_datebejegyzést tartalmazó bejegyzést.

Ha a céltáblában felhasználói azonosítónként több sort szeretne megőrizni, állítsa az SCD módot 2-es típusra a táblakonfigurációban.