Dela via


Kopiera data från Google BigQuery med Hjälp av Azure Data Factory eller Synapse Analytics

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Den här artikeln beskriver hur du använder kopieringsaktivitet i Azure Data Factory- och Synapse Analytics-pipelines för att kopiera data från Google BigQuery. Den bygger på översiktsartikeln Kopieringsaktivitet som visar en allmän översikt över kopieringsaktiviteten.

Viktigt!

Den nya Google BigQuery-anslutningsappen ger förbättrat inbyggt Google BigQuery-stöd. Om du använder den äldre Google BigQuery-anslutningsappen i din lösning uppgraderar du din Google BigQuery-anslutning före den 31 oktober 2024. Mer information om skillnaden mellan den äldre och den senaste versionen finns i det här avsnittet .

Funktioner som stöds

Den här Google BigQuery-anslutningsappen stöds för följande funktioner:

Funktioner som stöds IR
aktiviteten Kopiera (källa/-) (1) (2)
Sökningsaktivitet (1) (2)

(1) Azure Integration Runtime (2) Lokalt installerad integrationskörning

En lista över datalager som stöds som källor eller mottagare av kopieringsaktiviteten finns i tabellen Datalager som stöds.

Tjänsten tillhandahåller en inbyggd drivrutin för att aktivera anslutning. Därför behöver du inte installera en drivrutin manuellt för att använda den här anslutningsappen.

Anslutningsappen stöder Windows-versionerna i den här artikeln.

Anslutningsappen stöder inte längre P12-nyckelfiler. Om du förlitar dig på tjänstkonton rekommenderar vi att du använder JSON-nyckelfiler i stället. Egenskapen P12CustomPwd som användes för att stödja P12-nyckelfilen var också inaktuell. Mer information finns i denna artikel.

Kommentar

Den här Google BigQuery-anslutningsappen bygger på BigQuery-API:erna. Tänk på att BigQuery begränsar den maximala hastigheten för inkommande begäranden och tillämpar lämpliga kvoter per projekt, se Kvoter och gränser – API-begäranden. Kontrollera att du inte utlöser för många samtidiga begäranden till kontot.

Kom igång

Om du vill utföra aktiviteten Kopiera med en pipeline kan du använda något av följande verktyg eller SDK:er:

Skapa en länkad tjänst till Google BigQuery med hjälp av användargränssnittet

Använd följande steg för att skapa en länkad tjänst till Google BigQuery i Azure Portal användargränssnittet.

  1. Bläddra till fliken Hantera i Din Azure Data Factory- eller Synapse-arbetsyta och välj Länkade tjänster och klicka sedan på Ny:

  2. Sök efter Google BigQuery och välj anslutningsappen.

    Skärmbild av Google BigQuery-anslutningsappen.

  3. Konfigurera tjänstinformationen, testa anslutningen och skapa den nya länkade tjänsten.

    Skärmbild av konfiguration av länkad tjänst för Google BigQuery.

Konfigurationsinformation för anslutningsprogram

Följande avsnitt innehåller information om egenskaper som används för att definiera entiteter som är specifika för Google BigQuery-anslutningsappen.

Länkade tjänstegenskaper

Följande egenskaper stöds för den länkade Google BigQuery-tjänsten.

Property Beskrivning Obligatoriskt
type Typegenskapen måste vara inställd på GoogleBigQueryV2. Ja
projectId Projekt-ID:t för bigquery-standardprojektet att fråga mot. Ja
authenticationType OAuth 2.0-autentiseringsmekanismen som används för autentisering.
Tillåtna värden är UserAuthentication och ServiceAuthentication. Se avsnitten nedan i den här tabellen om fler egenskaper och JSON-exempel för dessa autentiseringstyper.
Ja

Använda användarautentisering

Ange egenskapen "authenticationType" till UserAuthentication och ange följande egenskaper tillsammans med allmänna egenskaper som beskrivs i föregående avsnitt:

Property Beskrivning Obligatoriskt
clientId ID för programmet som används för att generera uppdateringstoken. Ja
clientSecret Hemlighet för programmet som används för att generera uppdateringstoken. Markera det här fältet som en SecureString för att lagra det på ett säkert sätt eller referera till en hemlighet som lagras i Azure Key Vault. Ja
refreshToken Uppdateringstoken som hämtades från Google används för att auktorisera åtkomst till BigQuery. Lär dig hur du hämtar en från Hämta OAuth 2.0-åtkomsttoken och den här communitybloggen. Markera det här fältet som en SecureString för att lagra det på ett säkert sätt eller referera till en hemlighet som lagras i Azure Key Vault. Ja

Exempel:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQueryV2",
        "typeProperties": {
            "projectId" : "<project ID>",
            "authenticationType" : "UserAuthentication",
            "clientId": "<client ID>",
            "clientSecret": {
                "type": "SecureString",
                "value":"<client secret>"
            },
            "refreshToken": {
                "type": "SecureString",
                "value": "<refresh token>"
            }
        }
    }
}

Använda tjänstautentisering

Ange egenskapen "authenticationType" till ServiceAuthentication och ange följande egenskaper tillsammans med allmänna egenskaper som beskrivs i föregående avsnitt.

Property Beskrivning Obligatoriskt
keyFileContent Nyckelfilen i JSON-format som används för att autentisera tjänstkontot. Markera det här fältet som en SecureString för att lagra det på ett säkert sätt eller referera till en hemlighet som lagras i Azure Key Vault. Ja

Exempel:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQueryV2",
        "typeProperties": {
            "projectId": "<project ID>",
            "authenticationType": "ServiceAuthentication",
            "keyFileContent": {
                "type": "SecureString",
                "value": "<key file JSON string>"
            }
        }
    }
}

Egenskaper för datauppsättning

En fullständig lista över avsnitt och egenskaper som är tillgängliga för att definiera datauppsättningar finns i artikeln Datauppsättningar . Det här avsnittet innehåller en lista över egenskaper som stöds av Google BigQuery-datauppsättningen.

Om du vill kopiera data från Google BigQuery anger du datauppsättningens typegenskap till GoogleBigQueryV2Object. Följande egenskaper stöds:

Property Beskrivning Obligatoriskt
type Typegenskapen för datamängden måste anges till: GoogleBigQueryV2Object Ja
datauppsättning Namnet på Google BigQuery-datauppsättningen. Nej (om "fråga" i aktivitetskällan har angetts)
table Tabellens namn. Nej (om "fråga" i aktivitetskällan har angetts)

Exempel

{
    "name": "GoogleBigQueryDataset",
    "properties": {
        "type": "GoogleBigQueryV2Object",
        "linkedServiceName": {
            "referenceName": "<Google BigQuery linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [],
        "typeProperties": {
            "dataset": "<dataset name>",
            "table": "<table name>"
        }
    }
}

Kopiera egenskaper för aktivitet

En fullständig lista över avsnitt och egenskaper som är tillgängliga för att definiera aktiviteter finns i artikeln Pipelines . Det här avsnittet innehåller en lista över egenskaper som stöds av Google BigQuery-källtypen.

GoogleBigQuerySource som källtyp

Om du vill kopiera data från Google BigQuery anger du källtypen i kopieringsaktiviteten till GoogleBigQueryV2Source. Följande egenskaper stöds i avsnittet kopieringsaktivitetskälla.

Property Beskrivning Obligatoriskt
type Typegenskapen för kopieringsaktivitetskällan måste anges till GoogleBigQueryV2Source. Ja
query Använd den anpassade SQL-frågan för att läsa data. Ett exempel är "SELECT * FROM MyTable". Mer information finns i Frågesyntax. Nej (om "datauppsättning" och "tabell" i datauppsättningen har angetts)

Exempel:

"activities":[
    {
        "name": "CopyFromGoogleBigQuery",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Google BigQuery input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "GoogleBigQueryV2Source",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Egenskaper för uppslagsaktivitet

Mer information om egenskaperna finns i Sökningsaktivitet.

Uppgradera Google BigQuery-anslutningsappen

Om du vill uppgradera Google BigQuery-anslutningsappen skapar du en ny länkad Google BigQuery-tjänst och konfigurerar den genom att referera till länkade tjänstegenskaper.

Skillnader mellan Google BigQuery och Google BigQuery (äldre)

Google BigQuery-anslutningsappen erbjuder nya funktioner och är kompatibel med de flesta funktioner i Google BigQuery-anslutningsprogrammet (äldre). Tabellen nedan visar funktionsskillnaderna mellan Google BigQuery och Google BigQuery (äldre).

Google BigQuery Google BigQuery (äldre)
Tjänstautentisering stöds av Azure Integration Runtime och den lokalt installerade integrationskörningen.
Egenskaperna trustedCertPath, useSystemTrustStore, email och keyFilePath stöds inte eftersom de endast är tillgängliga på integrationskörningen med egen värd.
Tjänstautentisering stöds endast av den lokalt installerade integrationskörningen.
Stöd för trustedCertPath, useSystemTrustStore, e-post och keyFilePath-egenskaper.
Följande mappningar används från Google BigQuery-datatyper till mellanliggande datatyper som används av tjänsten internt.

Numeriskt –> decimal
Tidsstämpel –> DateTimeOffset
Datetime –> DatetimeOffset
Följande mappningar används från Google BigQuery-datatyper till mellanliggande datatyper som används av tjänsten internt.

Numeriskt –> sträng
Tidsstämpel –> DateTime
Datetime –> DateTime
requestGoogleDriveScope stöds inte. Du behöver också tillämpa behörigheten i Google BigQuery-tjänsten genom att referera till Välj Api-omfång för Google Drive och Frågeenhetsdata. SupportbegäranGoogleDriveScope.
additionalProjects stöds inte. Alternativt kan du köra frågor mot en offentlig datauppsättning med Google Cloud-konsolen. Stöd för additionalProjects.

En lista över datalager som stöds som källor och mottagare av kopieringsaktiviteten finns i Datalager som stöds.