Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Соединитель необработанных данных Google Analytics находится в общедоступной предварительной версии.
Соединитель необработанных данных Google Analytics позволяет осуществить передачу необработанных данных на уровне события из Google Analytics 4 (GA4) с помощью Databricks Lakeflow Connect и Google BigQuery.
Как работает загрузка данных в GA4?
Сначала необходимо экспортировать данные GA4 в BigQuery, используя предоставленные Google API или UI. Затем Databricks использует данные из BigQuery с помощью следующих API:
- API BigQuery для операций метаданных (например, для перечисления таблиц и схем)
- API хранилища BigQuery для приема данных
- API Cloud Resource Manager для изучения схемы
Модель данных соединителя
Соединитель GA4 может загружать данные из следующих таблиц заданного свойства GA4:
events
events_intraday
users
pseudonymous_users
Каждый день, когда данные поступают в GA4, в BigQuery автоматически создается таблица с секционированием даты. Имя таблицы BigQuery имеет формат <table_name>_YYYYMMDD
(например, events_20241024
).
Во время каждого обновления конвейера Lakeflow Connect соединитель автоматически загружает новые таблицы с момента последнего обновления. Он также обрабатывает новые строки в существующих таблицах в течение 72 часов.
Основы соединителя
При первоначальном запуске конвейера соединитель отправляет все данные, экспортированные в BigQuery, для выбранных таблиц.
При последующих запусках конвейера соединитель выполняет прием только что вставленных строк с предостережениями, описанными в этой статье.
Обновления и удаления не принимаются.
Начальная загрузка извлекает данные для всех дат, присутствующих в проекте GA4/BigQuery.
Соединитель предполагает, что каждая строка уникальна. Databricks не может гарантировать правильное поведение при возникновении непредвиденных дубликатов.
Обновление окон и расписаний
GA4 может продолжать обновлять таблицы до 72 часов после их создания. Таким образом, Databricks отслеживает и получает обновления в этих таблицах в течение 72 часов. Соединитель не автоматически получает обновления для таблиц после 72-часового окна обновления (например, если GA4 повторно обрабатывает исторические данные).
Конвейер Lakeflow Connect следует запускать как минимум каждые 72 часа, однако Databricks рекомендует выполнять конвейер ежедневно. Синхронизация менее часто увеличивает риск, что соединитель должен будет запрашивать данные.
Databricks также рекомендует поддерживать окно времени по умолчанию BigQuery в течение 7 дней. Это может помочь в повышении эффективности приема.
Модели данных на уровне таблицы и другие ключевые сведения
события и таблицы событий_внутридневные
Для таблицы events
и таблицы events_intraday
одна строка в Databricks соответствует одной строке в BigQuery.
events_intraday
Для таблицы нет гарантии, что данные будут существовать для определенной даты после того, как данные для той же даты доступны в events
таблице. Это связано с тем, что events_intraday
таблица предназначена только для промежуточного использования до тех пор, пока events
таблица не будет готова к этому дню.
Таблица пользователей
Для получения данных из таблицы users
, соединитель опирается на user_id
в качестве первичного ключа и на last_updated_date
в качестве ключа курсора. В результате она получает только одну строку для каждого идентификатора пользователя из каждой users
таблицы: запись с наибольшим last_updated_date
значением.
Чтобы сохранить более одной строки для каждого идентификатора пользователя в целевой таблице, установите режим SCD типа 2 в конфигурации таблицы.
таблица pseudonymous_users
Чтобы извлечь данные из pseudonymous_users
таблицы, соединитель опирается на pseudo_user_id
и stream_id
, используемые в качестве первичных ключей. Он использует last_updated_date
в качестве клавиши курсора. В результате она получает из каждой таблицы pseudonymous_users
только одну строку на псевдопользовательский идентификатор: запись с наибольшим по last_updated_date
значением.
Чтобы сохранить более одной строки для каждого идентификатора пользователя в целевой таблице, установите режим SCD типа 2 в конфигурации таблицы.