Tutoriál: Nastavení zrcadlení pro Google BigQuery (Preview)

V tomto kurzu nakonfigurujete Fabric zrcadlenou databázi z Google BigQuery.

Poznámka:

Ačkoli je tento příklad specifický pro BigQuery, můžete najít podrobné kroky k nastavení zrcadlení pro další zdroje dat, jako je Azure SQL Database nebo Azure Cosmos DB. Další informace najdete v tématu Co je zrcadlení v Fabric?

Požadavky

  • Vytvořte nebo použijte existující sklad BigQuery. Můžete se připojit k libovolné verzi instance BigQuery v libovolném cloudu, včetně Microsoft Azure.
  • Potřebujete existující kapacitu Fabric. Pokud ne, startujte Fabric zkušební verzi.

Požadavky na oprávnění

Potřebujete uživatelská oprávnění pro vaši databázi BigQuery, která obsahuje následující oprávnění:

  • bigquery.datasets.create
  • bigquery.tables.list
  • bigquery.tables.create
  • bigquery.tables.export
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.tables.updateData
  • bigquery.routines.get
  • bigquery.routines.list
  • bigquery.jobs.create
  • storage.buckets.create
  • storage.buckets.list
  • storage.objects.create
  • storage.objects.delete
  • storage.objects.list
  • iam.serviceAccounts.signBlob

Získání metadat tabulky a konfigurace historie změn (povinné)

Tyto oprávnění by měly zahrnovat role BigQueryAdmin a StorageAdmin . K určení, jestli je povolená historie změn a načtení informací o primárním klíči nebo složeného klíče, jsou vyžadována následující oprávnění.

Uživatel musí mít přiřazenou alespoň jednu roli, která umožňuje přístup k instanci BigQuery. Zkontrolujte požadavky na síť pro přístup ke zdroji dat BigQuery. Pokud používáte zrcadlení v Google BigQuery pro místní bránu dat (OPDG), musíte mít OPDG verze 3000.286.6 nebo vyšší, aby zrcadlení fungovalo úspěšně.

Požadovaná oprávnění

Pokud chcete ručně vytvořit buckets (a vyhnout se potřebě udělit oprávnění storage.buckets.create), můžete použít:

  • bigquery.tables.get
  • bigquery.tables.list
  • bigquery.routines.get
  • bigquery.routines.list
  1. Přejděte do cloudového úložiště v rámci konzoly Google Console a vyberte Kontejnery.
  2. Vyberte Vytvořit a pojmenujte kontejner v tomto formátu (rozlišují se malá a velká písmena): <projectid>_fabric_staging_bucket
  3. Ujistěte se, že umístění nebo oblast kontejneru jsou stejné jako Project GCP, které plánujete zrcadlit.
  4. Vyberte Vytvořit. Systém zrcadlení automaticky rozpozná kbelík.

V závislosti na vašem případu použití může být vyžadováno více oprávnění. Minimální požadovaná oprávnění jsou určená pro práci s historií změn a zpracováním tabulek s různými velikostmi (tabulky větší než 10 GB). I když nepracujete s tabulkami většími než 10 GB, povolte všechna tato minimální oprávnění k úspěšnému využití zrcadlení.

Načtení historie změn a dat tabulky (povinné)

Další informace o oprávněních najdete v dokumentaci Google BigQuery k požadovaným oprávněním pro streamovaná data, požadovaná oprávnění pro přístup k historii změn a požadovaná oprávnění pro zápis výsledků dotazu.

Ke čtení historie změn a dat tabulek se vyžadují následující oprávnění.

Důležité

Veškeré podrobné zabezpečení vytvořené ve zdrojovém skladu BigQuery musí být překonfigurováno v zrcadlené databázi v Microsoft Fabric. Další informace najdete v tématu SQL granular permissions in Microsoft Fabric.

Požadovaná oprávnění

  • bigquery.tables.getData
  • bigquery.jobs.create
  • bigquery.jobs.get
  • bigquery.jobs.list
  • bigquery.readsessions.create
  • bigquery.readsessions.getData

Povolení možností historie změn (povinné)

U zdrojových tabulek BigQuery je potřeba povolit historii změn pomocí jedné z následujících možností.

Možnost 1: Povolení oprávnění

  • bigquery.tables.update

Umožňuje povolit historii změn v tabulkách.

Možnost 2: Povolení možnosti tabulky v GCP

Ujistěte se, že následující možnost tabulky je nastavena na TRUE:

  • enable_change_history

Export dat do cloudového úložiště Google pro přípravu a kopírování do OneLake (povinné)

K exportu dat BigQuery do Google Cloud Storage pro přípravu a zkopírování do OneLake se vyžadují následující oprávnění.

Požadovaná oprávnění

  • bigquery.tables.export
  • storage.objects.create
  • storage.objects.list
  • storage.buckets.get
  • iam.serviceAccounts.signBlob

Kontejner cloudového úložiště Google pro přípravu (povinné)

K exportu dat tabulky BigQuery pro přípravu se vyžaduje kontejner Úložiště Google Cloud Storage.

Možnosti vytváření kontejnerů

Použijte jeden z následujících přístupů:

Možnost 1: Povolit automatické vytváření kbelíků

Udělte následující oprávnění:

  • storage.buckets.create

Možnost 2: Ruční vytvoření přípravného kontejneru

Vytvořte kontejner s následující konvencí vytváření názvů: <your_project_id_in_lowercase>_fabric_staging_bucket

Požadavky na kontejnery

  • Kontejner musí být ve stejném umístění nebo oblasti jako datová sada BigQuery.
  • Systém zrcadlení automaticky rozpozná kontejner, jakmile existuje.

Seznam datových sad (povinné)

Požadovaná oprávnění

  • bigquery.datasets.get

Seznam projektů (povinné)

Požadovaná oprávnění

  • resourcemanager.projects.get

Požadavky na role a přístup

Role Správce BigQuery a Správce úložiště obvykle zahrnují výše uvedená oprávnění.

Uživateli musí být přiřazena alespoň jedna role, která uděluje přístup k cílovému projektu a datovým sadám BigQuery.


Požadavky na síť a bránu

Zkontrolujte požadavky na síť pro přístup ke zdroji dat BigQuery.

Pokud používáte zrcadlení pro Google BigQuery s místní bránou dat (OPDG), musíte použít:

  • OPDG verze 3000.286.6 nebo novější

Další poznámky

V závislosti na vašem případu použití může být vyžadováno více oprávnění. Výše uvedená oprávnění představují minimální požadovanou hodnotu pro:

  • Práce s historií změn
  • Zpracování tabulek různých velikostí, včetně tabulek větších než 10 GB

I když aktuálně nepracujete s tabulkami většími než 10 GB, doporučujeme povolit všechna minimální oprávnění, aby se zajistilo úspěšné zrcadlení.

Další informace najdete tady:

Důležité

Veškeré podrobné zabezpečení definované ve zdrojovém skladu BigQuery musí být překonfigurováno v zrcadlené databázi v Microsoft Fabric. Další informace najdete v tématu SQL granular permissions in Microsoft Fabric.

Vytvoření zrcadlené databáze

V této části vytvoříte novou zrcadlenou databázi ze zrcadlového zdroje dat BigQuery.

Můžete použít existující pracovní prostor (jen ne "My Workspace") nebo vytvořit nový pracovní prostor.

  1. V pracovním prostoru přejděte do centra Vytvořit.
  2. Po výběru pracovního prostoru, který chcete použít, vyberte Vytvořit.
  3. Vyberte kartu Replika Google BigQuery.
  4. Zadejte název nové databáze.
  5. Vyberte Vytvořit.

Připojení k instanci BigQuery v libovolném cloudu

Poznámka:

Možná budete muset změnit cloudovou bránu firewall, aby se zrcadlení mohlo připojit k instance BigQuery. Podporujeme mirrorování pro Google BigQuery u OPDG verzí 3000.286.6 nebo novějších. Podporujeme také virtuální síť.

  1. V části Nové připojení vyberte BigQuery nebo vyberte existující připojení.

  2. Pokud jste vybrali možnost Nové připojení, zadejte podrobnosti o připojení k databázi BigQuery.

    Nastavení připojení Description
    E-mail účtu služby Pokud máte existující účet služby: E-mail účtu služby a váš stávající klíč najdete v konzole Google BigQuery tak, že přejdete na Účty služeb . Pokud ještě nemáte existující účet služby: Přejděte do části Účty služeb v konzole Google BigQuery a vyberte Vytvořit účet služby. Zadejte název účtu služby (ID účtu služby se automaticky vygeneruje na základě názvu vašeho vstupního účtu služby) a popis účtu služby. Vyberte Hotovo. Zkopírujte a vložte e-mail účtu služby do oddílu s určenými přihlašovacími údaji připojení v Fabric.
    Obsah souboru s klíčem JSON účtu služby Na řídicím panelu Účty služby vyberte Akce pro nově vytvořený účet služby. Vyberte Správa klíčů. Pokud už máte klíč pro váš účet služby, stáhněte si jeho obsah souboru klíče JSON.

    Pokud ještě nemáte klíč pro váš účet služby, vyberte Přidat klíč a Vytvořit nový klíč. Pak vyberte JSON. Soubor klíče JSON by se měl automaticky stáhnout. Zkopírujte a vložte klíč JSON do oddílu určených přihlašovacích údajů pro připojení na portálu Fabric.
    Připojení Vytvořte nové připojení.
    Název připojení Mělo by se vyplnit automaticky. Změňte ho na název, který chcete použít.
  3. V rozevíracím seznamu vyberte databázi.

Spusťte proces zrcadlení

  1. Obrazovka Konfigurovat zrcadlení umožňuje ve výchozím nastavení zrcadlit všechna data v databázi.

    • Zrcadlení všech dat znamená, že se zrcadlí všechny nové tabulky vytvořené po spuštění zrcadlení.

    • Volitelně můžete zvolit pouze určité objekty, které se mají zrcadlit. Zakažte možnost Zrcadlit všechna data a pak vyberte jednotlivé tabulky z databáze.

    V tomto příkladu použijeme možnost Zrcadlit všechna data .

  2. Vyberte Zrcadlo databáze. Zrcadlení začíná.

  3. Počkejte 2 až 5 minut. Pak vyberte Sledovat replikaci a zobrazte stav.

  4. Po několika minutách by se stav měl změnit na Spuštěno, což znamená, že se tabulky synchronizují.

    Pokud tabulky a odpovídající stav replikace nevidíte, počkejte několik sekund a aktualizujte panel.

  5. Po dokončení počátečního kopírování tabulek se ve sloupci Poslední aktualizace zobrazí datum.

  6. Teď, když jsou vaše data v provozu, jsou k dispozici různé analytické scénáře ve všech Fabric.

Důležité

  • Veškeré podrobné zabezpečení vytvořené ve zdrojové databázi musí být překonfigurováno v zrcadlené databázi v Microsoft Fabric.

Monitorování Fabric zrcadlení

Po nakonfigurování zrcadlení budete přesměrováni na stránku Stav zrcadlení . Tady můžete monitorovat aktuální stav replikace.

Další informace a podrobnosti o stavech replikace najdete v tématu Sledování replikace zrcadlené databáze ve Fabricu.

Důležité

Pokud ve zdrojových tabulkách v databázi BigQuery nejsou žádné aktualizace, modul replikátoru (modul, který využívá data změn pro Zrcadlení BigQuery), zpomalí a replikuje pouze tabulky každou hodinu. Nebuďte překvapeni, pokud data po počátečním načtení trvají déle, než se očekávalo, zejména pokud ve zdrojových tabulkách nemáte žádné nové aktualizace. Po snímku bude Mirror Engine čekat přibližně 15 minut před načtením změn; důvodem je omezení Google BigQuery, které způsobuje 10minutové zpoždění, aby se zobrazily všechny nové změny. Další informace o zpoždění odrazu změn BigQuery