Condividi tramite


Esercitazione: Configurare il mirroring per Google BigQuery (anteprima)

In questa esercitazione si configurerà un database con mirroring di Fabric da Google BigQuery.

Annotazioni

Anche se questo esempio è specifico di BigQuery, è possibile trovare passaggi dettagliati per configurare il mirroring per altre origini dati, ad esempio il database SQL di Azure o Azure Cosmos DB. Per ulteriori informazioni, vedere Cos'è il mirroring in Fabric?

Prerequisiti

  • Creare o usare un warehouse BigQuery esistente. È possibile connettersi a qualsiasi versione dell'istanza di BigQuery in qualsiasi cloud, incluso Microsoft Azure.
  • È necessaria una capacità di Fabric esistente. Se non lo fai, avvia una versione di prova di Fabric.

Requisiti relativi alle autorizzazioni

Sono necessarie autorizzazioni utente per il database BigQuery che contiene le autorizzazioni seguenti:

  • bigquery.datasets.create
  • bigquery.tables.list
  • bigquery.tables.create
  • bigquery.tables.export
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.tables.updateData
  • bigquery.routines.get
  • bigquery.routines.list
  • bigquery.jobs.create
  • storage.buckets.create
  • storage.buckets.list
  • storage.objects.create
  • storage.objects.delete
  • storage.objects.list
  • iam.serviceAccounts.signBlob

Recuperare i metadati della tabella e la configurazione della cronologia delle modifiche (obbligatorio)

I ruoli BigQueryAdmin e StorageAdmin devono includere queste autorizzazioni. Per determinare se la cronologia delle modifiche è abilitata e per recuperare le informazioni sulla chiave primaria o sulla chiave composita, sono necessarie le autorizzazioni seguenti.

L'utente deve avere almeno un ruolo assegnato che consenta l'accesso all'istanza di BigQuery. Controllare i requisiti di rete per accedere all'origine dati BigQuery. Se si usa il mirroring per Google BigQuery per On-Premises Data Gateway (OPDG), è necessario disporre di OPDG versione 3000.286.6 o successiva per abilitare correttamente il mirroring.

Autorizzazioni necessarie

Per stabilire manualmente i bucket senza dover concedere l'autorizzazione storage.buckets.create, è possibile usare:

  • bigquery.tables.get
  • bigquery.tables.list
  • bigquery.routines.get
  • bigquery.routines.list
  1. Passare a Archiviazione cloud all'interno di Google Console e selezionare Bucket.
  2. Selezionare Crea e denominare il bucket in questo formato (con distinzione tra maiuscole e minuscole): <projectid>_fabric_staging_bucket
  3. Verificare che la posizione o l'area del bucket corrisponda a quella del progetto GCP di cui si prevede di eseguire il mirroring.
  4. Fare clic su Crea. Il sistema di mirroring rileverà automaticamente il bucket.

A seconda del caso d'uso, potrebbero essere necessarie altre autorizzazioni. Le autorizzazioni minime necessarie sono per l'uso della cronologia delle modifiche e la gestione di varie tabelle di dimensioni (tabelle superiori a 10 GB). Anche se non si utilizzano tabelle di dimensioni superiori a 10 GB, abilitare tutte queste autorizzazioni minime per consentire il successo dell'utilizzo del mirroring.

Recuperare la cronologia delle modifiche e i dati della tabella (obbligatorio)

Per altre informazioni sulle autorizzazioni, vedere la documentazione di Google BigQuery sui privilegi necessari per lo streaming dei dati, sulle autorizzazioni necessarie per l'accesso alla cronologia delle modifiche e sulle autorizzazioni necessarie per la scrittura dei risultati delle query

Per leggere la cronologia delle modifiche e i dati della tabella sono necessarie le autorizzazioni seguenti.

Importante

Qualsiasi sicurezza granulare stabilita nel warehouse BigQuery di origine deve essere riconfigurata nel database replicato in Microsoft Fabric. Per altre informazioni, vedere Autorizzazioni granulari di SQL in Microsoft Fabric.

Autorizzazioni necessarie

  • bigquery.tables.getData
  • bigquery.jobs.create
  • bigquery.jobs.get
  • bigquery.jobs.list
  • bigquery.readsessions.create
  • bigquery.readsessions.getData

Abilitazione delle funzionalità cronologia modifiche (obbligatorio)

La cronologia delle modifiche deve essere abilitata nelle tabelle BigQuery di origine usando una delle opzioni seguenti.

Opzione 1: Abilitare l'autorizzazione

  • bigquery.tables.update

Consente di abilitare la cronologia delle modifiche nelle tabelle.

Opzione 2: Abilitare l'opzione tabella in GCP

Verificare che l'opzione tabella seguente sia impostata su TRUE:

  • enable_change_history

Esportare i dati in Google Cloud Storage per la gestione temporanea e la copia in OneLake (obbligatorio)

Le autorizzazioni seguenti sono necessarie per esportare i dati BigQuery in Google Cloud Storage per la gestione temporanea e copiarli in OneLake.

Autorizzazioni necessarie

  • bigquery.tables.export
  • storage.objects.create
  • storage.objects.list
  • storage.buckets.get
  • iam.serviceAccounts.signBlob

Bucket di Google Cloud Storage per la gestione temporanea (obbligatorio)

Per esportare i dati della tabella BigQuery per la gestione temporanea, è necessario un bucket di Google Cloud Storage.

Opzioni di creazione bucket

Usare uno degli approcci seguenti:

Opzione 1: Consenti la creazione automatica di bucket

Concedere l'autorizzazione seguente:

  • storage.buckets.create

Opzione 2: Creare manualmente il bucket di staging

Creare un bucket con la convenzione di denominazione seguente: <your_project_id_in_lowercase>_fabric_staging_bucket

Requisiti del bucket

  • Il bucket deve trovarsi nella stessa posizione o nella stessa area del set di dati BigQuery.
  • Il sistema di mirroring rileverà automaticamente il bucket una volta esistente.

Elencare i set di dati (obbligatorio)

Autorizzazioni necessarie

  • bigquery.datasets.get

Elencare i progetti (obbligatorio)

Autorizzazioni necessarie

  • resourcemanager.projects.get

Requisiti di ruolo e accesso

I ruoli di amministratore e amministratore di ArchiviazioneBigQuery includono in genere le autorizzazioni elencate in precedenza.

All'utente deve essere assegnato almeno un ruolo che concede l'accesso al progetto e ai set di dati BigQuery di destinazione.


Requisiti di rete e gateway

Controllare i requisiti di rete per accedere all'origine dati BigQuery.

Se si usa il *Mirroring* per Google BigQuery con il Data Gateway locale (OPDG), è necessario usare:

  • OPDG versione 3000.286.6 o successiva

Note aggiuntive

A seconda del caso d'uso, potrebbero essere necessarie altre autorizzazioni. Le autorizzazioni elencate in precedenza rappresentano il minimo necessario per:

  • Uso della cronologia delle modifiche
  • Gestione delle tabelle di varie dimensioni, incluse le tabelle superiori a 10 GB

Anche se attualmente non si lavora con tabelle di dimensioni superiori a 10 GB, è consigliabile abilitare tutte le autorizzazioni minime per garantire il corretto mirroring.

Per ulteriori informazioni, vedere:

Importante

Qualsiasi sicurezza granulare definita nel warehouse BigQuery di origine deve essere riconfigurata nel database replicato in Microsoft Fabric. Per altre informazioni, vedere Autorizzazioni granulari di SQL in Microsoft Fabric.

Creare un database specchiato

In questa sezione, viene creato un nuovo database con mirroring dall'origine dati BigQuery.

È possibile usare un'area di lavoro esistente (non area di lavoro personale) o creare una nuova area di lavoro.

  1. Dall'area di lavoro passare all'hub Crea .
  2. Dopo aver selezionato l'area di lavoro da usare, selezionare Crea.
  3. selezionare la scheda Google BigQuery Mirrored.
  4. Immettere il nome del nuovo database.
  5. Fare clic su Crea.

Connettersi all'istanza di BigQuery in qualsiasi cloud

Annotazioni

Potrebbe essere necessario modificare il firewall cloud per consentire al mirroring di connettersi all'istanza di BigQuery. Supportiamo il mirroring per Google BigQuery per OPDG versione 3000.286.6 o successiva. Supportiamo anche VNET.

  1. Selezionare BigQuery in Nuova connessione o selezionare una connessione esistente.

  2. Se si seleziona Nuova connessione, immettere i dettagli di connessione al database BigQuery.

    Impostazione di connessione Description
    Indirizzo di posta elettronica dell'account del servizio Se si dispone di un account del servizio preesistente: è possibile trovare l'indirizzo di posta elettronica dell'account del servizio e la chiave esistente passando ad Account di servizio nella console di Google BigQuery. Se non si dispone di un account del servizio preesistente: passare a "Account di servizio" nella console di Google BigQuery e selezionare Crea account di servizio. Immettere un nome di account del servizio (un ID account del servizio viene generato automaticamente in base al nome dell'account del servizio immesso) e una descrizione dell'account del servizio. Selezionare Fine. Copiare e incollare il messaggio di posta elettronica dell'account del servizio nella sezione relativa alle credenziali di connessione designata in Fabric.
    Contenuto del file di chiave JSON dell'account del servizio Nel dashboard degli account di servizio, selezionare Azioni per il nuovo account di servizio appena creato. Selezionare Gestisci chiavi. Se si dispone già di una chiave per ogni account del servizio, scaricare il relativo contenuto del file di chiave JSON.

    Se non si ha già una chiave per ogni account del servizio, selezionare Aggiungi chiave e Crea nuova chiave. Selezionare JSON. Il file di chiave JSON deve essere scaricato automaticamente. Copiare e incollare la chiave JSON nella sezione credenziali di connessioni designate nel portale di Fabric.
    Connessione Creare una nuova connessione.
    Nome connessione Dovrebbe essere compilato automaticamente. Cambialo in un nome che desideri utilizzare.
  3. Selezionare il database dall'elenco a discesa.

Avviare il processo di mirroring

  1. La schermata Configura mirroring consente di eseguire il mirroring di tutti i dati nel database, per impostazione predefinita.

    • Eseguire il mirroring di tutti i dati significa che tutte le nuove tabelle create dopo l'avvio del mirroring verranno sottoposte a mirroring.

    • Facoltativamente, scegliere solo determinati oggetti su cui eseguire il mirroring. Disabilitare l'opzione Specchia tutti i dati e quindi selezionare singole tabelle dal database.

    Per questo esempio viene usata l'opzione Mirror all data .For this example, we use the Mirror all data option.

  2. Selezionare Database mirror. Il mirroring inizia.

  3. Attendere 2-5 minuti. Seleziona quindi Monitora la replica per visualizzare lo stato.

  4. Dopo alcuni minuti, lo stato dovrebbe passare a In esecuzione, il che significa che la sincronizzazione delle tabelle è in corso.

    Se non vengono visualizzate le tabelle e lo stato di replica corrispondente, attendere alcuni secondi e quindi aggiornare il pannello.

  5. Al termine della copia iniziale delle tabelle, viene visualizzata una data nella colonna Ultimo aggiornamento .

  6. Ora che i dati sono operativi, in Fabric esistono diversi scenari di analisi disponibili.

Importante

  • Il mirroring per Google BigQuery ha un ritardo di circa 15 minuti nella riflessione delle modifiche. Si tratta di una limitazione delle funzionalità di Cronologia modifiche di Google BigQuery.
  • Qualsiasi sicurezza granulare stabilita nel database di origine deve essere riconfigurata nel database con mirroring di Microsoft Fabric.

Monitorare il mirroring del Fabric

Dopo aver configurato il mirroring, si viene indirizzati alla pagina Stato mirroring . Qui è possibile monitorare l’attuale stato della replica.

Per maggiori informazioni e dettagli sugli stati di replica, vedere Monitorare la replica del database di Fabric.

Importante

Se non sono presenti aggiornamenti nelle tabelle di origine nel database BigQuery, il motore di replicator (il motore che alimenta i dati delle modifiche per il mirroring BigQuery) rallenta e replica solo le tabelle ogni ora. Non sorprendere se i dati dopo il caricamento iniziale richiedono più tempo del previsto, soprattutto se non sono presenti nuovi aggiornamenti nelle tabelle di origine. Dopo lo snapshot, il motore mirror attenderà circa 15 minuti prima di recuperare le modifiche; ciò è dovuto a una limitazione di Google BigQuery in cui applica un ritardo di 10 minuti in modo da riflettere eventuali nuove modifiche. Ulteriori informazioni sul ritardo di riflessione delle modifiche di BigQuery