Freigeben über


Tutorial: Einrichten des Mirrorings für Google BigQuery (Vorabversion)

In diesem Tutorial richten Sie eine gespiegelte Fabric-Datenbank aus Google BigQuery ein.

Hinweis

Während dieses Beispiel für BigQuery spezifisch ist, finden Sie detaillierte Schritte zum Konfigurieren der Spiegelung für andere Datenquellen, z. B. Azure SQL-Datenbank oder Azure Cosmos DB. Weitere Informationen finden Sie unter Was ist Spiegelung in Microsoft Fabric?

Voraussetzungen

  • Erstellen oder verwenden Sie ein vorhandenes BigQuery Warehouse. Sie können eine Verbindung mit einer beliebigen Version von BigQuery-Instanzen in einer beliebigen Cloud herstellen, einschließlich Microsoft Azure.
  • Sie benötigen eine vorhandene Fabric-Kapazität. Falls dies nicht der Fall ist, können Sie eine Fabric-Testversion starten.

Berechtigungsanforderungen

Sie benötigen Benutzerberechtigungen für Ihre BigQuery-Datenbank, die die folgenden Berechtigungen enthält:

  • bigquery.datasets.create
  • bigquery.tables.list
  • bigquery.tables.create
  • bigquery.tables.export
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.tables.updateData
  • bigquery.routines.get
  • bigquery.routines.list
  • bigquery.jobs.create
  • storage.buckets.create
  • storage.buckets.list
  • storage.objects.create
  • storage.objects.delete
  • storage.objects.list
  • iam.serviceAccounts.signBlob

Die Rollen "BigQueryAdmin " und " StorageAdmin " sollten diese Berechtigungen enthalten.

Je nach Anwendungsfall können weitere Berechtigungen erforderlich sein. Die mindestens erforderlichen Berechtigungen sind erforderlich, um mit dem Änderungsverlauf zu arbeiten und verschiedene Größentabellen zu behandeln (Tabellen, die größer als 10 GB sind). Auch wenn Sie nicht mit Tabellen arbeiten, die größer als 10 GB sind, aktivieren Sie alle diese Mindestberechtigungen, um den Erfolg Ihrer Spiegelungsverwendung zu ermöglichen.

Weitere Informationen zu Berechtigungen finden Sie in der Google BigQuery-Dokumentation zu erforderlichen Berechtigungen für Streamingdaten, erforderliche Berechtigungen für den Änderungsverlaufszugriff und erforderliche Berechtigungen zum Schreiben von Abfrageergebnissen

Der Benutzer muss mindestens eine Rolle zugewiesen haben, die den Zugriff auf die BigQuery-Instanz ermöglicht. Überprüfen Sie die Netzwerkanforderungen für den Zugriff auf Ihre BigQuery-Datenquelle. Wenn Sie Mirroring für Google BigQuery für das Datengateway in der lokalen Umgebung (OPDG) verwenden, benötigen Sie OPDG Version 3000.286.6 oder höher, um erfolgreiches Mirroring zu ermöglichen.

Informationen dazu, warum diese Berechtigungen erforderlich sind, finden Sie in der Dokumentation zu Berechtigungseinschränkungen.

Von Bedeutung

Jede granulare Sicherheit, die im BigQuery-Quell-Datawarehouse eingerichtet wurde, muss in der gespiegelten Datenbank in Microsoft Fabric neu konfiguriert werden. Weitere Informationen finden Sie unter detaillierte SQL-Berechtigungen in Microsoft Fabric.

Erstellen einer gespiegelten Datenbank

In diesem Abschnitt erstellen Sie eine neue gespiegelte Datenbank aus der gespiegelten BigQuery-Datenquelle.

Sie können einen vorhandenen Arbeitsbereich (nicht "Mein Arbeitsbereich") verwenden oder einen neuen Arbeitsbereich erstellen.

  1. Navigieren Sie in Ihrem Arbeitsbereich zum Create Hub.
  2. Nachdem Sie den Arbeitsbereich ausgewählt haben, den Sie verwenden möchten, wählen Sie "Erstellen" aus.
  3. Wählen Sie die Gespiegelte Google BigQuery Karte aus.
  4. Geben Sie den Namen für die neue Datenbank ein.
  5. Wählen Sie "Erstellen" aus.

Herstellen einer Verbindung mit Ihrer BigQuery-Instanz in einer beliebigen Cloud

Hinweis

Möglicherweise müssen Sie die Cloudfirewall ändern, damit Mirroring eine Verbindung mit der BigQuery-Instanz herstellen kann. Wir unterstützen Mirroring für Google BigQuery für OPDG, Version 3000.286.6 oder höher.

  1. Wählen Sie "BigQuery" unter "Neue Verbindung " aus, oder wählen Sie eine vorhandene Verbindung aus.

  2. Wenn Sie "Neue Verbindung" ausgewählt haben, geben Sie die Verbindungsdetails in die BigQuery-Datenbank ein.

    Verbindungseinstellung Description
    Dienstkonto-E-Mail Wenn Sie über ein bereits vorhandenes Dienstkonto verfügen: Sie können Ihre E-Mail-Adresse ihres Dienstkontos und Ihren vorhandenen Schlüssel finden, indem Sie in Ihrer Google BigQuery-Konsole zu Dienstkonten wechseln. Wenn Sie nicht über ein bereits vorhandenes Dienstkonto verfügen: Wechseln Sie in Ihrer Google BigQuery-Konsole zu "Dienstkonten", und wählen Sie " Dienstkonto erstellen" aus. Eingabe eines Dienstkontonamens (eine Dienstkonto-ID wird automatisch basierend auf Ihrem eingegebenen Dienstkontonamen) und einer Dienstkontobeschreibung generiert. Wählen Sie "Fertig" aus. Kopieren Sie die E-Mail-Adresse des Dienstkontos, und fügen Sie sie in den abschnitt mit den angegebenen Verbindungsanmeldeinformationen in Fabric ein.
    JSON-Schlüsseldateiinhalte des Dienstkontos Wählen Sie im Dashboard "Dienstkonten" die Option "Aktionen " für Ihr neu erstelltes Dienstkonto aus. Wählen Sie "Schlüssel verwalten" aus. Wenn Sie bereits über einen Schlüssel pro Dienstkonto verfügen, laden Sie dessen JSON-Schlüsseldateiinhalte herunter.

    Wenn Sie noch keinen Schlüssel pro Dienstkonto haben, wählen Sie "Schlüssel hinzufügen " und "Neuen Schlüssel erstellen" aus. Wählen Sie dann JSON aus. Die JSON-Schlüsseldatei sollte automatisch heruntergeladen werden. Kopieren Sie den JSON-Schlüssel, und fügen Sie ihn in den Abschnitt mit den angegebenen Verbindungsanmeldeinformationen im Fabric-Portal ein.
    Verbindung Neue Verbindung erstellen.
    Verbindungsname Sollte automatisch ausgefüllt werden. Ändern Sie ihn in einen Namen, den Sie verwenden möchten.
  3. Wählen Sie die Datenbank aus der Dropdownliste aus.

Starten des Spiegelungsprozesses

  1. Auf dem Bildschirm " Spiegelung konfigurieren" können Sie standardmäßig alle Daten in der Datenbank spiegeln.

    • Spiegelung aller Daten bedeutet, dass alle neuen Tabellen, die nach dem Starten der Spiegelung erstellt wurden, gespiegelt werden.

    • Sie können optional auch nur bestimmte Objekte für die Spiegelung wählen. Deaktivieren Sie die Option "Alle Daten spiegeln ", und wählen Sie dann einzelne Tabellen aus Ihrer Datenbank aus.

    In diesem Beispiel wird die Option "Alle Daten spiegeln " verwendet.

  2. Wählen Sie "Spiegeldatenbank" aus. Die Spiegelung beginnt.

  3. Warten Sie 2-5 Minuten. Wählen Sie dann "Replikation überwachen" aus, um den Status anzuzeigen.

  4. Nach ein paar Minuten sollte sich der Status in " Ausführen" ändern, was bedeutet, dass die Tabellen synchronisiert werden.

    Wenn die Tabellen und der entsprechende Replikationsstatus nicht angezeigt werden, warten Sie einige Sekunden, und aktualisieren Sie dann den Bereich.

  5. Wenn sie das anfängliche Kopieren der Tabellen abgeschlossen haben, wird ein Datum in der Spalte "Letzte Aktualisierung " angezeigt.

  6. Da Ihre Daten nun in Betrieb sind, stehen in allen Fabric-Szenarien verschiedene Analyseszenarien zur Verfügung.

Von Bedeutung

  • Die Synchronisierung für Google BigQuery weist eine Verzögerung von etwa 15 Minuten bei der Änderungsanzeige auf. Dies ist eine Einschränkung der Change Data Capture (CDC)-Technologie von Google BigQuery.
  • Jede granulare Sicherheit, die in der Quelldatenbank eingerichtet wurde, muss in der gespiegelten Datenbank in Microsoft Fabric neu konfiguriert werden.

Überwachen der Fabric-Spiegelung

Nachdem die Spiegelung konfiguriert wurde, werden Sie zur Seite "Spiegelungsstatus " weitergeleitet. Hier können Sie den aktuellen Replikationsstatus überwachen.

Weitere Informationen und Details zu den Replikationszuständen finden Sie unter Überwachen der Replikation von gespiegelten Datenbanken in Fabric.

Von Bedeutung

Wenn keine Aktualisierungen in den Quelltabellen in Ihrer BigQuery-Datenbank vorhanden sind, verlangsamt sich das Replikatmodul (das Modul, das die Änderungsdaten für BigQuery Mirroring antreibt) und repliziert nur alle Stunde Tabellen. Lassen Sie sich nicht überraschen, wenn das Laden der Daten nach dem anfänglichen Vorgang länger als erwartet benötigt, insbesondere wenn Sie keine neuen Aktualisierungen in Ihren Quelltabellen haben. Nach der Momentaufnahme wartet das Spiegelmodul auf ca. 15 Minuten, bevor Änderungen abgerufen werden. Dies liegt an einer Einschränkung von Google BigQuery, in der sie eine Verzögerung von 10 Minuten bei der Reflexion neuer Änderungen erlässt. Weitere Informationen zur Änderungsspiegelungsverzögerung von BigQuery