Freigeben über


Erstellen einer Google Analytics-Rohdatenaufnahmepipeline

Von Bedeutung

Der Google Analytics Raw Data Connector befindet sich in der öffentlichen Vorschau.

In diesem Artikel wird beschrieben, wie Sie eine Google Analytics Raw Data-Erfassungspipeline mit Databricks Lakeflow Connect und Google BigQuery erstellen. Sie können die Pipeline mithilfe der Databricks-UI- oder Databricks-APIs erstellen.

Bevor Sie anfangen

Um eine Erfassungspipeline erstellen zu können, müssen folgende Anforderungen erfüllt sein:

  • Ihr Arbeitsbereich muss für Unity Catalog aktiviert sein.

  • Serverlose Berechnung muss für Ihren Arbeitsbereich aktiviert sein. Siehe "Serverloses Berechnen aktivieren".

  • Wenn Sie eine neue Verbindung erstellen möchten: Sie müssen über Berechtigungen auf den Metastore CREATE CONNECTION verfügen.

    Wenn Ihr Connector die benutzeroberflächenbasierte Pipelineerstellung unterstützt, können Sie die Verbindung und die Pipeline gleichzeitig erstellen, indem Sie die Schritte auf dieser Seite ausführen. Wenn Sie jedoch apibasierte Pipelineerstellung verwenden, müssen Sie die Verbindung im Katalog-Explorer erstellen, bevor Sie die Schritte auf dieser Seite ausführen. Siehe Herstellen einer Verbindung mit verwalteten Aufnahmequellen.

  • Wenn Sie beabsichtigen, eine vorhandene Verbindung zu verwenden: Sie müssen über USE CONNECTION Privilegien oder ALL PRIVILEGES Berechtigungen für das Verbindungsobjekt verfügen.

  • Sie müssen über USE CATALOG-Berechtigungen für den Zielkatalog verfügen.

  • Sie müssen über USE SCHEMA- und CREATE TABLE-Berechtigungen für ein vorhandenes Schema oder CREATE SCHEMA-Berechtigungen für den Zielkatalog verfügen.

Um von GA4 mit BigQuery einzubinden, siehe Setzen Sie Google Analytics 4 und Google BigQuery für Databricks ein.

Konfigurieren von Netzwerken

Wenn Sie die serverless Steuerelemente aktiviert haben, geben Sie die folgenden URLs in die Zulassungsliste ein. Überspringen Sie andernfalls diesen Schritt. Siehe Verwalten Sie Netzwerkrichtlinien für die serverlose Steuerelemente.

  • bigquery.googleapis.com
  • oauth2.googleapis.com
  • bigquerystorage.googleapis.com
  • googleapis.com

Erstellen der Aufnahmepipeline

Erforderliche Berechtigungen:USE CONNECTION oder ALL PRIVILEGES für eine Verbindung.

In diesem Schritt wird beschrieben, wie Sie die Erfassungspipeline erstellen. Jede aufgenommene Tabelle wird in eine Streamingtabelle mit demselben Namen geschrieben.

Databricks UI

  1. Klicken Sie in der Randleiste des Azure Databricks-Arbeitsbereichs auf "Datenaufnahme".

  2. Klicken Sie auf der Seite "Daten hinzufügen " unter "Databricks-Connectors" auf "Google Analytics 4".

    Der Erfassungs-Assistent wird geöffnet.

  3. Geben Sie auf der Seite Erfassungspipeline des Assistenten einen eindeutigen Namen für die Pipeline an.

  4. Wählen Sie im Dropdownmenü " Zielkatalog " einen Katalog aus. Erfasste Daten und Ereignisprotokolle werden in diesen Katalog geschrieben. Sie werden später ein Zielschema auswählen.

  5. Wählen Sie die Unity-Katalogverbindung aus, die die für den Zugriff auf die Quelldaten erforderlichen Anmeldeinformationen speichert.

    Wenn keine Verbindungen zur Quelle vorhanden sind, klicken Sie auf "Verbindung erstellen" , und geben Sie die Authentifizierungsdetails ein, die Sie in "Einrichten von Google Analytics 4" und "Google BigQuery für Databricks"-Erfassung erhalten haben. Sie müssen über CREATE CONNECTION-Berechtigungen für den Metaspeicher verfügen.

  6. Klicken Sie auf "Pipeline erstellen", und fahren Sie fort.

  7. Wählen Sie auf der Seite "Quelle " die Tabellen aus, die in Databricks aufgenommen werden sollen, und klicken Sie dann auf "Weiter".

  8. Wählen Sie auf der Seite "Ziel " den Unity-Katalog und das Schema aus, in das geschrieben werden soll.

    Wenn Sie kein vorhandenes Schema verwenden möchten, klicken Sie auf "Schema erstellen". Sie müssen über die Berechtigungen USE CATALOG und CREATE SCHEMA für den übergeordneten Katalog verfügen.

  9. Klicken Sie auf "Pipeline speichern", und fahren Sie fort.

  10. (Optional) Klicken Sie auf der Seite "Einstellungen" auf " Zeitplan erstellen". Legen Sie die Häufigkeit fest, mit der die Zieltabellen aktualisiert werden.

  11. (Optional) Festlegen von E-Mail-Benachrichtigungen für Erfolg oder Fehler des Pipelinevorgangs.

  12. Klicken Sie auf "Speichern", und führen Sie die Pipelineaus.

Databricks-Notizbuch

  1. Generieren Sie ein persönliches Zugriffstoken, und kopieren Sie das Token, damit Sie es später in ein Notizbuch einfügen können. Siehe Azure Databricks persönliche Zugriffstoken für Arbeitsbereichsbenutzer.

  2. Importieren Sie das folgende Notizbuch in Ihren Arbeitsbereich:

    Erstellen einer Google Analytics-Rohdatenaufnahmepipeline

    Notebook abrufen

  3. Ändern Sie die folgenden Werte im Notizbuch:

    Zelle 1:

    • api_token: Das von Ihnen generierte persönliche Zugriffstoken

    Zelle 3:

    • name: Ein Name für die Pipeline
    • connection_name: Der Name der Unity-Katalogverbindung, die Sie im Katalog-Explorer (Externe Katalogdatenverbindungen >>) erstellt haben. Wenn Sie keine Verbindung mit der Quelle haben, können Sie eine erstellen. Sie müssen über die CREATE CONNECTION Berechtigung für den Metastore verfügen.
    • source_catalog: Eine Google Cloud Platform (GCP)-Projekt-ID. Wenn der Quellkatalog nicht angegeben ist, geht der Connector davon aus, dass das GCP-Projekt, aus dem Daten aufgenommen werden sollen, das im Dienstkonto angegebene ist.
    • source_schema: Google Analytics-Eigenschaftsname im Format analytics_XXXXXXXX
    • source_table: Der Name der Quelltabelle: events, , events_intraday, usersoder pseudonymous_users
    • destination_catalog: Ein Name für den Zielkatalog, der die aufgenommenen Daten enthält
    • destination_schema: Ein Name für das Zielschema, das die aufgenommenen Daten enthält
    • scd_type: Die zu verwendende SCD-Methode: SCD_TYPE_1 oder SCD_TYPE_2. Siehe Verlaufsverfolgung.
  4. Klicken Sie auf Alle ausführen.

Databricks-Befehlszeilenschnittstelle

So erstellen Sie die Pipeline:

databricks pipelines create --json "<pipeline definition or json file path>"

So bearbeiten Sie die Pipeline

databricks pipelines update --json "<pipeline definition or json file path>"

Um die Pipelinedefinition abzurufen:

databricks pipelines get "<pipeline-id>"

So löschen Sie die Pipeline

databricks pipelines delete "<pipeline-id>"

Wenn Sie hierzu weitere Informationen benötigen, führen Sie folgendes aus:

databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help

Aktualisieren des Pipelinezeitplans und der Benachrichtigungen

Sie können einen Zeitplan für die Pipeline auf der Pipelinedetailseite erstellen.

  1. Nachdem die Pipeline erstellt wurde, überprüfen Sie den Azure Databricks-Arbeitsbereich, und klicken Sie dann auf "Pipelines".

    Die neue Pipeline wird in der Pipelineliste angezeigt.

  2. Um die Pipelinedetails anzuzeigen, klicken Sie auf den Pipelinenamen.

  3. Auf der Seite mit den Pipelinedetails können Sie die Pipeline planen, indem Sie auf "Zeitplan" klicken.

  4. Um Benachrichtigungen für die Pipeline festzulegen, klicken Sie auf "Einstellungen", und fügen Sie dann eine Benachrichtigung hinzu.

Für jeden Zeitplan, den Sie einer Pipeline hinzufügen, erstellt Lakeflow Connect automatisch einen Auftrag dafür. Die Pipeline zum Einbinden von Daten ist eine Aufgabe innerhalb eines Jobs. Sie können dem Auftrag optional weitere Aufgaben hinzufügen.