Sdílet prostřednictvím


Koncepty konektoru surových dat Google Analytics

Důležité

Google Analytics Raw Data Connector je ve verzi Public Preview.

Google Analytics Raw Data Connector umožňuje ingestovat nezpracovaná data na úrovni událostí z Google Analytics 4 (GA4) pomocí Databricks Lakeflow Connect a Google BigQuery.

Jak funguje příjem dat GA4?

Nejprve je nutné exportovat data GA4 do BigQuery pomocí poskytovaných rozhraní API nebo uživatelských rozhraní Google. Databricks pak využívá data z BigQuery pomocí následujících rozhraní API:

  • Rozhraní API BigQuery pro operace metadat (například pro výpis tabulek a schémat)
  • Rozhraní API služby BigQuery Storage pro příjem dat
  • Rozhraní API Cloud Resource Manageru pro zkoumání schématu

Datový model konektoru

Konektor GA4 může importovat následující tabulky z určené vlastnosti GA4:

  • events
  • events_intraday
  • users
  • pseudonymous_users

Pro každý den, kdy data přicházejí do ga4, se automaticky vytvoří tabulka rozdělená na datum v BigQuery. Název tabulky BigQuery má formát <table_name>_YYYYMMDD (například events_20241024).

Během každé aktualizace kanálu Lakeflow Connect konektor automaticky ingestuje všechny nové tabulky od poslední aktualizace. Také ingestuje všechny nové řádky v existujících tabulkách po dobu až 72 hodin.

Základy konektorů

  • Při počátečním spuštění kanálu konektor ingestuje všechna data, která jste exportovali do BigQuery pro vybrané tabulky.

  • Při dalších spuštěních kanálu konektor ingestuje nově vložené řádky s upozorněními popsanými v tomto článku.

  • Aktualizace a odstranění se neingestují.

  • Počáteční načítání načte data pro všechny datumy, které jsou v projektu GA4/BigQuery.

  • Konektor předpokládá, že každý řádek je jedinečný. Databricks nemůže zaručit správné chování, pokud dojde k neočekávaným duplicitám.

Aktualizace oken a plánů

Ga4 může i nadále aktualizovat tabulky po dobu až 72 hodin po jejich vytvoření. Proto Databricks sleduje a zpracovává aktualizace těchto tabulek po dobu 72 hodin. Konektor automaticky neingestuje aktualizace tabulek po 72hodinovém intervalu aktualizace (například pokud ga4 znovu zpracuje historická data).

Kanál Lakeflow Connect byste měli spustit alespoň každých 72 hodin, ale Databricks doporučuje spustit kanál každý den. Synchronizace méně často zvyšuje riziko, že konektor bude muset znovu načíst data.

Databricks také doporučuje zachovat výchozí časový interval BigQuery o 7 dnech. To může pomoct s efektivitou trávení.

Datové modely na úrovni tabulky a další klíčové informace

události a tabulky intradenních událostí

Pro tabulku events a tabulku events_intraday odpovídá jeden řádek v Databricks jednomu řádku v BigQuery.

events_intraday Pro tabulku neexistuje žádná záruka, že data budou existovat pro konkrétní datum po datech pro stejné datum, které jsou v events tabulce k dispozici. Důvodem je to, že events_intraday tabulka je určená pouze k dočasnému použití, dokud events nebude tabulka připravená na tento den.

Tabulka uživatelů

Pokud chcete ingestovat z users tabulky, konektor spoléhá na user_id primární klíč a last_updated_date jako kurzorový klíč. V důsledku toho zpracovává pouze jeden řádek na ID uživatele z každé users tabulky: záznam s největším last_updated_date.

Pokud chcete v cílové tabulce zachovat více než jeden řádek na ID uživatele, nastavte režim SCD na hodnotu 2 v konfiguraci tabulky.

tabulka pseudonymních uživatelů

Pro ingestování z pseudonymous_users tabulky konektor spoléhá na pseudo_user_id a stream_id jako na primární klíče. Používá se last_updated_date jako kurzorová klávesa. V důsledku toho zpracovává pouze jeden řádek za každé pseudouživatelské ID z každé pseudonymous_users tabulky: položku s největší hodnotou last_updated_date.

Pokud chcete v cílové tabulce zachovat více než jeden řádek na ID uživatele, nastavte režim SCD na hodnotu 2 v konfiguraci tabulky.