Gegevens kopiëren uit Google BigQuery met behulp van Azure Data Factory of Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In dit artikel wordt beschreven hoe u kopieeractiviteit gebruikt in Azure Data Factory- en Synapse Analytics-pijplijnen om gegevens uit Google BigQuery te kopiëren. Het is gebaseerd op het artikel Overzicht van kopieeractiviteit met een algemeen overzicht van de kopieeractiviteit.

Belangrijk

De nieuwe Google BigQuery-connector biedt verbeterde systeemeigen Ondersteuning voor Google BigQuery. Als u de verouderde Google BigQuery-connector in uw oplossing gebruikt, die alleen wordt ondersteund voor compatibiliteit met eerdere versies, raadpleegt u het artikel over de Google BigQuery-connector (verouderd).

Ondersteunde mogelijkheden

Deze Google BigQuery-connector wordt ondersteund voor de volgende mogelijkheden:

Ondersteunde mogelijkheden IR
Copy-activiteit (bron/-) (1) (2)
Activiteit Lookup (1) (2)

(1) Azure Integration Runtime (2) Zelf-hostende Integration Runtime

Zie de tabel Ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen of sinks door de kopieeractiviteit.

De service biedt een ingebouwd stuurprogramma om connectiviteit mogelijk te maken. Daarom hoeft u geen stuurprogramma handmatig te installeren om deze connector te gebruiken.

Notitie

Deze Google BigQuery-connector is gebouwd op basis van de BigQuery-API's. Houd er rekening mee dat BigQuery de maximale snelheid van binnenkomende aanvragen beperkt en de juiste quota afdwingt op basis van een project, raadpleegt u Quota & Limieten - API-aanvragen. Zorg ervoor dat u niet te veel gelijktijdige aanvragen activeert voor het account.

Aan de slag

Als u de kopieeractiviteit wilt uitvoeren met een pijplijn, kunt u een van de volgende hulpprogramma's of SDK's gebruiken:

Een gekoppelde service maken voor Google BigQuery met behulp van de gebruikersinterface

Gebruik de volgende stappen om een gekoppelde service te maken voor Google BigQuery in de gebruikersinterface van Azure Portal.

  1. Blader naar het tabblad Beheren in uw Azure Data Factory- of Synapse-werkruimte en selecteer Gekoppelde services en klik vervolgens op Nieuw:

  2. Zoek naar Google BigQuery en selecteer de connector.

    Schermopname van de Google BigQuery-connector.

  3. Configureer de servicedetails, test de verbinding en maak de nieuwe gekoppelde service.

    Schermopname van de configuratie van de gekoppelde service voor Google BigQuery.

configuratiedetails Verbinding maken or

De volgende secties bevatten details over eigenschappen die worden gebruikt om entiteiten te definiëren die specifiek zijn voor de Google BigQuery-connector.

Eigenschappen van gekoppelde service

De volgende eigenschappen worden ondersteund voor de gekoppelde Google BigQuery-service.

Eigenschappen Beschrijving Vereist
type De eigenschap type moet worden ingesteld op GoogleBigQueryV2. Ja
projectId De project-id van het standaard BigQuery-project om een query op uit te voeren. Ja
authenticationType Het OAuth 2.0-verificatiemechanisme dat wordt gebruikt voor verificatie.
Toegestane waarden zijn UserAuthentication en ServiceAuthentication. Raadpleeg secties onder deze tabel voor meer eigenschappen en JSON-voorbeelden voor respectievelijk deze verificatietypen.
Ja

Gebruikersverificatie gebruiken

Stel de eigenschap authenticationType in op UserAuthentication en geef de volgende eigenschappen op, samen met algemene eigenschappen die in de vorige sectie worden beschreven:

Eigenschappen Beschrijving Vereist
clientId Id van de toepassing die wordt gebruikt om het vernieuwingstoken te genereren. Ja
clientSecret Geheim van de toepassing die wordt gebruikt om het vernieuwingstoken te genereren. Markeer dit veld als SecureString om het veilig op te slaan of verwijs naar een geheim dat is opgeslagen in Azure Key Vault. Ja
refreshToken Het vernieuwingstoken dat is verkregen van Google, heeft gebruikt om toegang tot BigQuery te autoriseren. Meer informatie over het verkrijgen van OAuth 2.0-toegangstokens en deze communityblog. Markeer dit veld als SecureString om het veilig op te slaan of verwijs naar een geheim dat is opgeslagen in Azure Key Vault. Ja

Voorbeeld:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQueryV2",
        "typeProperties": {
            "projectId" : "<project ID>",
            "authenticationType" : "UserAuthentication",
            "clientId": "<client ID>",
            "clientSecret": {
                "type": "SecureString",
                "value":"<client secret>"
            },
            "refreshToken": {
                "type": "SecureString",
                "value": "<refresh token>"
            }
        }
    }
}

Serviceverificatie gebruiken

Stel de eigenschap authenticationType in op ServiceAuthentication en geef de volgende eigenschappen op, samen met algemene eigenschappen die in de vorige sectie worden beschreven.

Eigenschappen Beschrijving Vereist
keyFileContent Het sleutelbestand in JSON-indeling dat wordt gebruikt om het serviceaccount te verifiëren. Markeer dit veld als SecureString om het veilig op te slaan of verwijs naar een geheim dat is opgeslagen in Azure Key Vault. Ja

Voorbeeld:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQueryV2",
        "typeProperties": {
            "projectId": "<project ID>",
            "authenticationType": "ServiceAuthentication",
            "keyFileContent": {
                "type": "SecureString",
                "value": "<key file JSON string>"
            }
        }
    }
}

Eigenschappen van gegevensset

Zie het artikel Gegevenssets voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van gegevenssets . Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de Google BigQuery-gegevensset.

Als u gegevens van Google BigQuery wilt kopiëren, stelt u de typeeigenschap van de gegevensset in op GoogleBigQueryV2Object. De volgende eigenschappen worden ondersteund:

Eigenschappen Beschrijving Vereist
type De typeeigenschap van de gegevensset moet worden ingesteld op: GoogleBigQueryV2Object Ja
gegevensset Naam van de Google BigQuery-gegevensset. Nee (als 'query' in de activiteitsbron is opgegeven)
table Naam van de tabel. Nee (als 'query' in de activiteitsbron is opgegeven)

Voorbeeld

{
    "name": "GoogleBigQueryDataset",
    "properties": {
        "type": "GoogleBigQueryV2Object",
        "linkedServiceName": {
            "referenceName": "<Google BigQuery linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [],
        "typeProperties": {
            "dataset": "<dataset name>",
            "table": "<table name>"
        }
    }
}

Eigenschappen van de kopieeractiviteit

Zie het artikel Pijplijnen voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van activiteiten. Deze sectie bevat een lijst met eigenschappen die worden ondersteund door het brontype Google BigQuery.

GoogleBigQuerySource als brontype

Als u gegevens van Google BigQuery wilt kopiëren, stelt u het brontype in de kopieeractiviteit in op GoogleBigQueryV2Source. De volgende eigenschappen worden ondersteund in de sectie bron van de kopieeractiviteit.

Eigenschappen Beschrijving Vereist
type De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op GoogleBigQueryV2Source. Ja
query Gebruik de aangepaste SQL-query om gegevens te lezen. Een voorbeeld is "SELECT * FROM MyTable". Ga naar querysyntaxis voor meer informatie. Nee (als 'gegevensset' en 'tabel' in de gegevensset zijn opgegeven)

Voorbeeld:

"activities":[
    {
        "name": "CopyFromGoogleBigQuery",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Google BigQuery input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "GoogleBigQueryV2Source",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Eigenschappen van opzoekactiviteit

Als u meer wilt weten over de eigenschappen, controleert u de lookup-activiteit.

De gekoppelde Google BigQuery-service upgraden

Als u de gekoppelde Google BigQuery-service wilt upgraden, maakt u een nieuwe gekoppelde Google BigQuery-service en configureert u deze door te verwijzen naar de eigenschappen van de gekoppelde service.

Verschillen tussen Google BigQuery en Google BigQuery (verouderd)

De Google BigQuery-connector biedt nieuwe functionaliteiten en is compatibel met de meeste functies van de Google BigQuery-connector (verouderd). In de onderstaande tabel ziet u de functieverschillen tussen Google BigQuery en Google BigQuery (verouderd).

Google BigQuery Google BigQuery (verouderd)
Serviceverificatie wordt ondersteund door de Azure Integration Runtime en de zelf-hostende Integration Runtime.
De eigenschappen trustedCertPath, useSystemTrustStore, e-mail en keyFilePath worden niet ondersteund omdat ze alleen beschikbaar zijn in de zelf-hostende Integration Runtime.
Serviceverificatie wordt alleen ondersteund door de zelf-hostende Integration Runtime.
Ondersteuning voor trustedCertPath, useSystemTrustStore, e-mail- en keyFilePath-eigenschappen.
De volgende toewijzingen worden gebruikt van Google BigQuery-gegevenstypen tot tussentijdse gegevenstypen die intern door de service worden gebruikt.

Numeriek -> decimaal
Tijdstempel -> DateTimeOffset
Datum/tijd -> DatetimeOffset
De volgende toewijzingen worden gebruikt van Google BigQuery-gegevenstypen tot tussentijdse gegevenstypen die intern door de service worden gebruikt.

Numeriek -> tekenreeks
Tijdstempel -> Datum/tijd
Datum/tijd -> Datum/tijd
requestGoogleDriveScope wordt niet ondersteund. U moet ook de machtiging toepassen in de Google BigQuery-service door te verwijzen naar De bereiken van de Google Drive-API en Query Drive-gegevens. OndersteuningsaanvraagGoogleDriveScope.
additionalProjects wordt niet ondersteund. Als alternatief kunt u een query uitvoeren op een openbare gegevensset met de Google Cloud-console. Ondersteuning voor extraProjects.

Zie Ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen en sinks door de kopieeractiviteit.