Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Google Analytics Raw Data Connector je ve verzi Public Preview.
Google Analytics Raw Data Connector umožňuje ingestovat nezpracovaná data na úrovni událostí z Google Analytics 4 (GA4) pomocí Databricks Lakeflow Connect a Google BigQuery.
Jak funguje příjem dat GA4?
Nejprve je nutné exportovat data GA4 do BigQuery pomocí poskytovaných rozhraní API nebo uživatelských rozhraní Google. Databricks pak využívá data z BigQuery pomocí následujících rozhraní API:
- Rozhraní API BigQuery pro operace metadat (například pro výpis tabulek a schémat)
- Rozhraní API služby BigQuery Storage pro příjem dat
- Rozhraní API Cloud Resource Manageru pro zkoumání schématu
Datový model konektoru
Konektor GA4 může importovat následující tabulky z určené vlastnosti GA4:
events
events_intraday
users
pseudonymous_users
Pro každý den, kdy data přicházejí do ga4, se automaticky vytvoří tabulka rozdělená na datum v BigQuery. Název tabulky BigQuery má formát <table_name>_YYYYMMDD
(například events_20241024
).
Během každé aktualizace kanálu Lakeflow Connect konektor automaticky ingestuje všechny nové tabulky od poslední aktualizace. Také ingestuje všechny nové řádky v existujících tabulkách po dobu až 72 hodin.
Základy konektorů
Při počátečním spuštění kanálu konektor ingestuje všechna data, která jste exportovali do BigQuery pro vybrané tabulky.
Při dalších spuštěních kanálu konektor ingestuje nově vložené řádky s upozorněními popsanými v tomto článku.
Aktualizace a odstranění se neingestují.
Počáteční načítání načte data pro všechny datumy, které jsou v projektu GA4/BigQuery.
Konektor předpokládá, že každý řádek je jedinečný. Databricks nemůže zaručit správné chování, pokud dojde k neočekávaným duplicitám.
Aktualizace oken a plánů
Ga4 může i nadále aktualizovat tabulky po dobu až 72 hodin po jejich vytvoření. Proto Databricks sleduje a zpracovává aktualizace těchto tabulek po dobu 72 hodin. Konektor automaticky neingestuje aktualizace tabulek po 72hodinovém intervalu aktualizace (například pokud ga4 znovu zpracuje historická data).
Kanál Lakeflow Connect byste měli spustit alespoň každých 72 hodin, ale Databricks doporučuje spustit kanál každý den. Synchronizace méně často zvyšuje riziko, že konektor bude muset znovu načíst data.
Databricks také doporučuje zachovat výchozí časový interval BigQuery o 7 dnech. To může pomoct s efektivitou trávení.
Datové modely na úrovni tabulky a další klíčové informace
události a tabulky intradenních událostí
Pro tabulku events
a tabulku events_intraday
odpovídá jeden řádek v Databricks jednomu řádku v BigQuery.
events_intraday
Pro tabulku neexistuje žádná záruka, že data budou existovat pro konkrétní datum po datech pro stejné datum, které jsou v events
tabulce k dispozici. Důvodem je to, že events_intraday
tabulka je určená pouze k dočasnému použití, dokud events
nebude tabulka připravená na tento den.
Tabulka uživatelů
Pokud chcete ingestovat z users
tabulky, konektor spoléhá na user_id
primární klíč a last_updated_date
jako kurzorový klíč. V důsledku toho zpracovává pouze jeden řádek na ID uživatele z každé users
tabulky: záznam s největším last_updated_date
.
Pokud chcete v cílové tabulce zachovat více než jeden řádek na ID uživatele, nastavte režim SCD na hodnotu 2 v konfiguraci tabulky.
tabulka pseudonymních uživatelů
Pro ingestování z pseudonymous_users
tabulky konektor spoléhá na pseudo_user_id
a stream_id
jako na primární klíče. Používá se last_updated_date
jako kurzorová klávesa. V důsledku toho zpracovává pouze jeden řádek za každé pseudouživatelské ID z každé pseudonymous_users
tabulky: položku s největší hodnotou last_updated_date
.
Pokud chcete v cílové tabulce zachovat více než jeden řádek na ID uživatele, nastavte režim SCD na hodnotu 2 v konfiguraci tabulky.