Freigeben über


Tutorial: Einrichten des Mirrorings für Google BigQuery (Vorabversion)

In diesem Tutorial richten Sie eine gespiegelte Fabric-Datenbank aus Google BigQuery ein.

Hinweis

Während dieses Beispiel für BigQuery spezifisch ist, finden Sie detaillierte Schritte zum Konfigurieren der Spiegelung für andere Datenquellen, z. B. Azure SQL-Datenbank oder Azure Cosmos DB. Weitere Informationen finden Sie unter Was ist Spiegelung in Microsoft Fabric?

Voraussetzungen

  • Erstellen oder verwenden Sie ein vorhandenes BigQuery Warehouse. Sie können eine Verbindung mit einer beliebigen Version von BigQuery-Instanzen in einer beliebigen Cloud herstellen, einschließlich Microsoft Azure.
  • Sie benötigen eine vorhandene Fabric-Kapazität. Falls dies nicht der Fall ist, können Sie eine Fabric-Testversion starten.

Berechtigungsanforderungen

Sie benötigen Benutzerberechtigungen für Ihre BigQuery-Datenbank, die die folgenden Berechtigungen enthält:

  • bigquery.datasets.create
  • bigquery.tables.list
  • bigquery.tables.create
  • bigquery.tables.export
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.tables.updateData
  • bigquery.routines.get
  • bigquery.routines.list
  • bigquery.jobs.create
  • storage.buckets.create
  • storage.buckets.list
  • storage.objects.create
  • storage.objects.delete
  • storage.objects.list
  • iam.serviceAccounts.signBlob

Abrufen von Tabellenmetadaten und Konfiguration des Änderungsverlaufs (erforderlich)

Die Rollen "BigQueryAdmin " und " StorageAdmin " sollten diese Berechtigungen enthalten. Die folgenden Berechtigungen sind erforderlich, um zu bestimmen, ob der Änderungsverlauf aktiviert ist, und um Primärschlüssel- oder zusammengesetzte Schlüsselinformationen abzurufen.

Der Benutzer muss mindestens eine Rolle zugewiesen haben, die den Zugriff auf die BigQuery-Instanz ermöglicht. Überprüfen Sie die Netzwerkanforderungen für den Zugriff auf Ihre BigQuery-Datenquelle. Wenn Sie Mirroring für Google BigQuery für das Datengateway in der lokalen Umgebung (OPDG) verwenden, benötigen Sie OPDG Version 3000.286.6 oder höher, um erfolgreiches Mirroring zu ermöglichen.

Erforderliche Berechtigungen

Zum manuellen Einrichten von Buckets (und um auf die Erteilung der Berechtigung "storage.buckets.create " zu verzichten), können Sie Folgendes verwenden:

  • bigquery.tables.get
  • bigquery.tables.list
  • bigquery.routines.get
  • bigquery.routines.list
  1. Navigieren Sie in Ihrer Google-Konsole zu Cloud Storage , und wählen Sie Buckets aus.
  2. Wählen Sie "Erstellen" aus, und benennen Sie den Bucket in diesem Format (Groß-/Kleinschreibung beachten): <projectid>_fabric_staging_bucket
  3. Stellen Sie sicher, dass der Standort/die Region des Buckets mit dem GCP-Projekt übereinstimmt, das Sie spiegeln möchten.
  4. Wählen Sie "Erstellen" aus. Das Spiegelungssystem erkennt den Bucket automatisch.

Je nach Anwendungsfall können weitere Berechtigungen erforderlich sein. Die mindestens erforderlichen Berechtigungen dienen zum Arbeiten mit dem Änderungsverlauf und zum Behandeln verschiedener Tabellen in größe (Tabellen mit mehr als 10 GB). Auch wenn Sie nicht mit Tabellen arbeiten, die größer als 10 GB sind, aktivieren Sie alle diese Mindestberechtigungen, um den Erfolg Ihrer Spiegelungsverwendung zu ermöglichen.

Abrufen von Änderungsverlauf und Tabellendaten (erforderlich)

Weitere Informationen zu Berechtigungen finden Sie in der Google BigQuery-Dokumentation zu erforderlichen Berechtigungen für Streamingdaten, erforderliche Berechtigungen für den Änderungsverlaufszugriff und erforderliche Berechtigungen zum Schreiben von Abfrageergebnissen

Die folgenden Berechtigungen sind erforderlich, um änderungsverlaufs- und Tabellendaten zu lesen.

Von Bedeutung

Jede granulare Sicherheit, die im BigQuery-Quell-Datawarehouse eingerichtet wurde, muss in der gespiegelten Datenbank in Microsoft Fabric neu konfiguriert werden. Weitere Informationen finden Sie unter detaillierte SQL-Berechtigungen in Microsoft Fabric.

Erforderliche Berechtigungen

  • bigquery.tables.getData
  • bigquery.jobs.create
  • bigquery.jobs.get
  • bigquery.jobs.list
  • bigquery.readsessions.create
  • bigquery.readsessions.getData

Aktivieren von Änderungsverlaufsfunktionen (erforderlich)

Der Änderungsverlauf muss für die BigQuery-Quelltabellen mithilfe einer der folgenden Optionen aktiviert werden.

Option 1: Berechtigung aktivieren

  • bigquery.tables.update

Ermöglicht das Aktivieren des Änderungsverlaufs in Tabellen.

Option 2: Aktivieren der Tabellenoption in GCP

Stellen Sie sicher, dass die folgende Tabellenoption auf TRUE gesetzt ist:

  • enable_change_history

Exportieren von Daten in Google Cloud Storage für Staging und Kopieren in OneLake (erforderlich)

Die folgenden Berechtigungen sind erforderlich, um BigQuery-Daten zum Staging in Google Cloud Storage zu exportieren und in OneLake zu kopieren.

Erforderliche Berechtigungen

  • bigquery.tables.export
  • storage.objects.create
  • storage.objects.list
  • storage.buckets.get
  • iam.serviceAccounts.signBlob

Google Cloud Storage Bucket für Staging (erforderlich)

Ein Google Cloud Storage-Bucket ist erforderlich, um BigQuery-Tabellendaten zum Staging zu exportieren.

Bucketerstellungsoptionen

Verwenden Sie einen der folgenden Ansätze:

Option 1: Automatische Erstellung eines Buckets zulassen

Erteilen Sie die folgende Berechtigung:

  • storage.buckets.create

Option 2: Manuelles Erstellen des Staging-Buckets

Erstellen Sie einen Bucket mit der folgenden Benennungskonvention: <your_project_id_in_lowercase>_fabric_staging_bucket

Bucketanforderungen

  • Der Bucket muss sich an derselben Position/Region wie das BigQuery-Dataset befinden.
  • Das Spiegelungssystem erkennt den Bucket automatisch, sobald er vorhanden ist.

Datasets auflisten (erforderlich)

Erforderliche Berechtigungen

  • bigquery.datasets.get

Projekte auflisten (erforderlich)

Erforderliche Berechtigungen

  • resourcemanager.projects.get

Rollen- und Zugriffsanforderungen

Die Rollen "BigQuery-Administrator" und "Speicheradministrator " enthalten in der Regel die oben aufgeführten Berechtigungen.

Dem Benutzer muss mindestens eine Rolle zugewiesen werden, die Zugriff auf das Zielprojekt "BigQuery" und "Datasets" gewährt.


Netzwerk- und Gatewayanforderungen

Überprüfen Sie die Netzwerkanforderungen für den Zugriff auf Ihre BigQuery-Datenquelle.

Wenn Sie Mirroring für Google BigQuery mit dem lokalen Datengateway (OPDG) verwenden, müssen Sie Folgendes verwenden:

  • OPDG Version 3000.286.6 oder höher

Weitere Hinweise

Je nach Anwendungsfall sind möglicherweise weitere Berechtigungen erforderlich. Die oben aufgeführten Berechtigungen stellen das Mindestmaß dar , für das Folgendes erforderlich ist:

  • Arbeiten mit Änderungsverlauf
  • Behandeln von Tabellen verschiedener Größen, einschließlich Tabellen mit mehr als 10 GB

Auch wenn Sie derzeit nicht mit Tabellen arbeiten, die größer als 10 GB sind, wird empfohlen, alle Mindestberechtigungen zu aktivieren, um eine erfolgreiche Spiegelung sicherzustellen.

Weitere Informationen findest du unter:

Von Bedeutung

Jede granulare Sicherheit, die im BigQuery-Quelllager definiert ist, muss in der gespiegelten Datenbank in Microsoft Fabric neu konfiguriert werden. Weitere Informationen finden Sie unter detaillierte SQL-Berechtigungen in Microsoft Fabric.

Erstellen einer gespiegelten Datenbank

In diesem Abschnitt erstellen Sie eine neue gespiegelte Datenbank aus der gespiegelten BigQuery-Datenquelle.

Sie können einen vorhandenen Arbeitsbereich (nicht "Mein Arbeitsbereich") verwenden oder einen neuen Arbeitsbereich erstellen.

  1. Navigieren Sie in Ihrem Arbeitsbereich zum Create Hub.
  2. Nachdem Sie den Arbeitsbereich ausgewählt haben, den Sie verwenden möchten, wählen Sie "Erstellen" aus.
  3. Wählen Sie die Gespiegelte Google BigQuery Karte aus.
  4. Geben Sie den Namen für die neue Datenbank ein.
  5. Wählen Sie "Erstellen" aus.

Herstellen einer Verbindung mit Ihrer BigQuery-Instanz in einer beliebigen Cloud

Hinweis

Möglicherweise müssen Sie die Cloudfirewall ändern, damit Mirroring eine Verbindung mit der BigQuery-Instanz herstellen kann. Wir unterstützen Mirroring für Google BigQuery für OPDG, Version 3000.286.6 oder höher. Wir unterstützen auch VNET.

  1. Wählen Sie "BigQuery" unter "Neue Verbindung " aus, oder wählen Sie eine vorhandene Verbindung aus.

  2. Wenn Sie "Neue Verbindung" ausgewählt haben, geben Sie die Verbindungsdetails in die BigQuery-Datenbank ein.

    Verbindungseinstellung Description
    Dienstkonto-E-Mail Wenn Sie über ein bereits vorhandenes Dienstkonto verfügen: Sie können Ihre E-Mail-Adresse ihres Dienstkontos und Ihren vorhandenen Schlüssel finden, indem Sie in Ihrer Google BigQuery-Konsole zu Dienstkonten wechseln. Wenn Sie nicht über ein bereits vorhandenes Dienstkonto verfügen: Wechseln Sie in Ihrer Google BigQuery-Konsole zu "Dienstkonten", und wählen Sie " Dienstkonto erstellen" aus. Eingabe eines Dienstkontonamens (eine Dienstkonto-ID wird automatisch basierend auf Ihrem eingegebenen Dienstkontonamen) und einer Dienstkontobeschreibung generiert. Wählen Sie "Fertig" aus. Kopieren Sie die E-Mail-Adresse des Dienstkontos, und fügen Sie sie in den abschnitt mit den angegebenen Verbindungsanmeldeinformationen in Fabric ein.
    JSON-Schlüsseldateiinhalte des Dienstkontos Wählen Sie im Dashboard "Dienstkonten" die Option "Aktionen " für Ihr neu erstelltes Dienstkonto aus. Wählen Sie "Schlüssel verwalten" aus. Wenn Sie bereits über einen Schlüssel pro Dienstkonto verfügen, laden Sie dessen JSON-Schlüsseldateiinhalte herunter.

    Wenn Sie noch keinen Schlüssel pro Dienstkonto haben, wählen Sie "Schlüssel hinzufügen " und "Neuen Schlüssel erstellen" aus. Wählen Sie dann JSON aus. Die JSON-Schlüsseldatei sollte automatisch heruntergeladen werden. Kopieren Sie den JSON-Schlüssel, und fügen Sie ihn in den Abschnitt mit den angegebenen Verbindungsanmeldeinformationen im Fabric-Portal ein.
    Verbindung Neue Verbindung erstellen.
    Verbindungsname Sollte automatisch ausgefüllt werden. Ändern Sie ihn in einen Namen, den Sie verwenden möchten.
  3. Wählen Sie die Datenbank aus der Dropdownliste aus.

Spiegelungsprozess starten

  1. Auf dem Bildschirm " Spiegelung konfigurieren" können Sie standardmäßig alle Daten in der Datenbank spiegeln.

    • Spiegelung aller Daten bedeutet, dass alle neuen Tabellen, die nach dem Starten der Spiegelung erstellt wurden, gespiegelt werden.

    • Sie können optional auch nur bestimmte Objekte für die Spiegelung wählen. Deaktivieren Sie die Option "Alle Daten spiegeln ", und wählen Sie dann einzelne Tabellen aus Ihrer Datenbank aus.

    In diesem Beispiel wird die Option "Alle Daten spiegeln " verwendet.

  2. Wählen Sie "Spiegeldatenbank" aus. Die Spiegelung beginnt.

  3. Warten Sie 2-5 Minuten. Wählen Sie dann "Replikation überwachen" aus, um den Status anzuzeigen.

  4. Nach ein paar Minuten sollte sich der Status in " Ausführen" ändern, was bedeutet, dass die Tabellen synchronisiert werden.

    Wenn die Tabellen und der entsprechende Replikationsstatus nicht angezeigt werden, warten Sie einige Sekunden, und aktualisieren Sie dann den Bereich.

  5. Wenn sie das anfängliche Kopieren der Tabellen abgeschlossen haben, wird ein Datum in der Spalte "Letzte Aktualisierung " angezeigt.

  6. Da Ihre Daten nun in Betrieb sind, stehen in der gesamten Fabric-Plattform verschiedene Analyseszenarien zur Verfügung.

Von Bedeutung

  • Die Synchronisierung für Google BigQuery weist eine Verzögerung von etwa 15 Minuten bei der Änderungsanzeige auf. Dies ist eine Einschränkung der Änderungsverlaufsfunktionen von Google BigQuery.
  • Jede granulare Sicherheit, die in der Quelldatenbank eingerichtet wurde, muss in der gespiegelten Datenbank in Microsoft Fabric neu konfiguriert werden.

Die Fabric-Spiegelung monitoren

Nachdem die Spiegelung konfiguriert wurde, werden Sie zur Seite "Spiegelungsstatus " weitergeleitet. Hier können Sie den aktuellen Replikationsstatus überwachen.

Weitere Informationen und Details zu den Replikationszuständen finden Sie unter Überwachen der Replikation von gespiegelten Datenbanken in Fabric.

Von Bedeutung

Wenn keine Aktualisierungen in den Quelltabellen in Ihrer BigQuery-Datenbank vorhanden sind, verlangsamt sich das Replikatmodul (das Modul, das die Änderungsdaten für BigQuery Mirroring antreibt) und repliziert nur alle Stunde Tabellen. Lassen Sie sich nicht überraschen, wenn das Laden der Daten nach dem anfänglichen Vorgang länger als erwartet benötigt, insbesondere wenn Sie keine neuen Aktualisierungen in Ihren Quelltabellen haben. Nach der Momentaufnahme wartet das Spiegelmodul auf ca. 15 Minuten, bevor Änderungen abgerufen werden. Dies liegt an einer Einschränkung von Google BigQuery, in der sie eine Verzögerung von 10 Minuten bei der Reflexion neuer Änderungen erlässt. Weitere Informationen zur Änderungsspiegelungsverzögerung von BigQuery