Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Der Google Analytics Raw Data Connector befindet sich in der öffentlichen Vorschau.
In diesem Artikel wird beschrieben, wie Sie eine Google Analytics Raw Data-Erfassungspipeline mit Databricks Lakeflow Connect und Google BigQuery erstellen. Sie können die Pipeline mithilfe der Databricks-UI- oder Databricks-APIs erstellen.
Bevor Sie anfangen
Um eine Erfassungspipeline erstellen zu können, müssen folgende Anforderungen erfüllt sein:
Ihr Arbeitsbereich muss für Unity Catalog aktiviert sein.
Serverlose Berechnung muss für Ihren Arbeitsbereich aktiviert sein. Siehe "Serverloses Berechnen aktivieren".
Wenn Sie eine neue Verbindung erstellen möchten: Sie müssen über Berechtigungen auf den Metastore
CREATE CONNECTION
verfügen.Wenn Ihr Connector die benutzeroberflächenbasierte Pipelineerstellung unterstützt, können Sie die Verbindung und die Pipeline gleichzeitig erstellen, indem Sie die Schritte auf dieser Seite ausführen. Wenn Sie jedoch apibasierte Pipelineerstellung verwenden, müssen Sie die Verbindung im Katalog-Explorer erstellen, bevor Sie die Schritte auf dieser Seite ausführen. Siehe Herstellen einer Verbindung mit verwalteten Aufnahmequellen.
Wenn Sie beabsichtigen, eine vorhandene Verbindung zu verwenden: Sie müssen über
USE CONNECTION
Privilegien oderALL PRIVILEGES
Berechtigungen für das Verbindungsobjekt verfügen.Sie müssen über
USE CATALOG
-Berechtigungen für den Zielkatalog verfügen.Sie müssen über
USE SCHEMA
- undCREATE TABLE
-Berechtigungen für ein vorhandenes Schema oderCREATE SCHEMA
-Berechtigungen für den Zielkatalog verfügen.
Um von GA4 mit BigQuery einzubinden, siehe Setzen Sie Google Analytics 4 und Google BigQuery für Databricks ein.
Konfigurieren von Netzwerken
Wenn Sie die serverless Steuerelemente aktiviert haben, geben Sie die folgenden URLs in die Zulassungsliste ein. Überspringen Sie andernfalls diesen Schritt. Siehe Verwalten Sie Netzwerkrichtlinien für die serverlose Steuerelemente.
bigquery.googleapis.com
oauth2.googleapis.com
bigquerystorage.googleapis.com
googleapis.com
Erstellen der Aufnahmepipeline
Erforderliche Berechtigungen:USE CONNECTION
oder ALL PRIVILEGES
für eine Verbindung.
In diesem Schritt wird beschrieben, wie Sie die Erfassungspipeline erstellen. Jede aufgenommene Tabelle wird in eine Streamingtabelle mit demselben Namen geschrieben.
Databricks UI
Klicken Sie in der Randleiste des Azure Databricks-Arbeitsbereichs auf "Datenaufnahme".
Klicken Sie auf der Seite "Daten hinzufügen " unter "Databricks-Connectors" auf "Google Analytics 4".
Der Erfassungs-Assistent wird geöffnet.
Geben Sie auf der Seite Erfassungspipeline des Assistenten einen eindeutigen Namen für die Pipeline an.
Wählen Sie im Dropdownmenü " Zielkatalog " einen Katalog aus. Erfasste Daten und Ereignisprotokolle werden in diesen Katalog geschrieben. Sie werden später ein Zielschema auswählen.
Wählen Sie die Unity-Katalogverbindung aus, die die für den Zugriff auf die Quelldaten erforderlichen Anmeldeinformationen speichert.
Wenn keine Verbindungen zur Quelle vorhanden sind, klicken Sie auf "Verbindung erstellen" , und geben Sie die Authentifizierungsdetails ein, die Sie in "Einrichten von Google Analytics 4" und "Google BigQuery für Databricks"-Erfassung erhalten haben. Sie müssen über
CREATE CONNECTION
-Berechtigungen für den Metaspeicher verfügen.Klicken Sie auf "Pipeline erstellen", und fahren Sie fort.
Wählen Sie auf der Seite "Quelle " die Tabellen aus, die in Databricks aufgenommen werden sollen, und klicken Sie dann auf "Weiter".
Wählen Sie auf der Seite "Ziel " den Unity-Katalog und das Schema aus, in das geschrieben werden soll.
Wenn Sie kein vorhandenes Schema verwenden möchten, klicken Sie auf "Schema erstellen". Sie müssen über die Berechtigungen
USE CATALOG
undCREATE SCHEMA
für den übergeordneten Katalog verfügen.Klicken Sie auf "Pipeline speichern", und fahren Sie fort.
(Optional) Klicken Sie auf der Seite "Einstellungen" auf " Zeitplan erstellen". Legen Sie die Häufigkeit fest, mit der die Zieltabellen aktualisiert werden.
(Optional) Festlegen von E-Mail-Benachrichtigungen für Erfolg oder Fehler des Pipelinevorgangs.
Klicken Sie auf "Speichern", und führen Sie die Pipelineaus.
Databricks-Notizbuch
Generieren Sie ein persönliches Zugriffstoken, und kopieren Sie das Token, damit Sie es später in ein Notizbuch einfügen können. Siehe Azure Databricks persönliche Zugriffstoken für Arbeitsbereichsbenutzer.
Importieren Sie das folgende Notizbuch in Ihren Arbeitsbereich:
Erstellen einer Google Analytics-Rohdatenaufnahmepipeline
Ändern Sie die folgenden Werte im Notizbuch:
Zelle 1:
api_token
: Das von Ihnen generierte persönliche Zugriffstoken
Zelle 3:
name
: Ein Name für die Pipelineconnection_name
: Der Name der Unity-Katalogverbindung, die Sie im Katalog-Explorer (Externe Katalogdatenverbindungen >>) erstellt haben. Wenn Sie keine Verbindung mit der Quelle haben, können Sie eine erstellen. Sie müssen über dieCREATE CONNECTION
Berechtigung für den Metastore verfügen.source_catalog
: Eine Google Cloud Platform (GCP)-Projekt-ID. Wenn der Quellkatalog nicht angegeben ist, geht der Connector davon aus, dass das GCP-Projekt, aus dem Daten aufgenommen werden sollen, das im Dienstkonto angegebene ist.source_schema
: Google Analytics-Eigenschaftsname im Formatanalytics_XXXXXXXX
source_table
: Der Name der Quelltabelle:events
, ,events_intraday
,users
oderpseudonymous_users
destination_catalog
: Ein Name für den Zielkatalog, der die aufgenommenen Daten enthältdestination_schema
: Ein Name für das Zielschema, das die aufgenommenen Daten enthältscd_type
: Die zu verwendende SCD-Methode:SCD_TYPE_1
oderSCD_TYPE_2
. Siehe Verlaufsverfolgung.
Klicken Sie auf Alle ausführen.
Databricks-Befehlszeilenschnittstelle
So erstellen Sie die Pipeline:
databricks pipelines create --json "<pipeline definition or json file path>"
So bearbeiten Sie die Pipeline
databricks pipelines update --json "<pipeline definition or json file path>"
Um die Pipelinedefinition abzurufen:
databricks pipelines get "<pipeline-id>"
So löschen Sie die Pipeline
databricks pipelines delete "<pipeline-id>"
Wenn Sie hierzu weitere Informationen benötigen, führen Sie folgendes aus:
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help
Aktualisieren des Pipelinezeitplans und der Benachrichtigungen
Sie können einen Zeitplan für die Pipeline auf der Pipelinedetailseite erstellen.
Nachdem die Pipeline erstellt wurde, überprüfen Sie den Azure Databricks-Arbeitsbereich, und klicken Sie dann auf "Pipelines".
Die neue Pipeline wird in der Pipelineliste angezeigt.
Um die Pipelinedetails anzuzeigen, klicken Sie auf den Pipelinenamen.
Auf der Seite mit den Pipelinedetails können Sie die Pipeline planen, indem Sie auf "Zeitplan" klicken.
Um Benachrichtigungen für die Pipeline festzulegen, klicken Sie auf "Einstellungen", und fügen Sie dann eine Benachrichtigung hinzu.
Für jeden Zeitplan, den Sie einer Pipeline hinzufügen, erstellt Lakeflow Connect automatisch einen Auftrag dafür. Die Pipeline zum Einbinden von Daten ist eine Aufgabe innerhalb eines Jobs. Sie können dem Auftrag optional weitere Aufgaben hinzufügen.