Aracılığıyla paylaş


Azure Data Factory veya Synapse Analytics kullanarak Google BigQuery V1'den veri kopyalama

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede, Google BigQuery'den veri kopyalamak için Azure Data Factory ve Synapse Analytics işlem hatlarında Kopyalama Etkinliği'nin nasıl kullanılacağı özetlenmiştir. Kopyalama etkinliğine genel bir genel bakış sunan Kopyalama Etkinliğine genel bakış makalesini oluşturur.

Önemli

Google BigQuery V1 bağlayıcısı kaldırma aşamasındadır. Google BigQuery bağlayıcısını V1'den V2'ye yükseltmeniz önerilir.

Desteklenen özellikler

Bu Google BigQuery bağlayıcısı aşağıdaki özellikler için desteklenir:

Desteklenen özellikler Kızılötesi
Kopyalama etkinliği (kaynak/-) (1) (2)
Arama etkinliği (1) (2)

(1) Azure tümleştirme çalışma zamanı (2) Şirket içinde barındırılan tümleştirme çalışma zamanı

Kopyalama etkinliği tarafından kaynak veya havuz olarak desteklenen veri depolarının listesi için Desteklenen veri depoları tablosuna bakın.

Hizmet, bağlantıyı etkinleştirmek için yerleşik bir sürücü sağlar. Bu nedenle, bu bağlayıcıyı kullanmak için bir sürücüyü el ile yüklemeniz gerekmez.

Bağlayıcı, bu makaledeki Windows sürümlerini destekler.

Not

Bu Google BigQuery bağlayıcısı, BigQuery API'lerinin üzerine kurulmuştur. BigQuery'nin en yüksek gelen istek oranını sınırladığını ve proje başına uygun kotaları zorunlu kıldığını unutmayın. Kotalar ve Sınırlar - API istekleri bölümüne bakın. Hesaba çok fazla eşzamanlı istek tetiklemediğinizden emin olun.

Önkoşullar

Bu bağlayıcıyı kullanmak için Google BigQuery'nin aşağıdaki minimum izinlerine sahip olmanız gerekir:

  • bigquery.connections.*
  • bigquery.veri_kümeleri.*
  • bigquery.jobs.*
  • bigquery.readsessions.*
  • bigquery.routines.*
  • bigquery.tables.*

Kullanmaya başlayın

Kopyalama etkinliğini bir işlem hattıyla gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Kullanıcı arabirimini kullanarak Google BigQuery'ye bağlı hizmet oluşturma

Azure portalı kullanıcı arabiriminde Google BigQuery'ye bağlı bir hizmet oluşturmak için aşağıdaki adımları kullanın.

  1. Azure Data Factory veya Synapse çalışma alanınızda Yönet sekmesine göz atın ve Bağlı Hizmetler'i seçin, ardından Yeni'ye tıklayın:

  2. Google'ı arayın ve Google BigQuery bağlayıcısını seçin.

    Google BigQuery bağlayıcısının ekran görüntüsü.

  3. Hizmet ayrıntılarını yapılandırın, bağlantıyı test edin ve yeni bağlı hizmeti oluşturun.

    Google BigQuery için bağlı hizmet yapılandırmasının ekran görüntüsü.

Bağlayıcı yapılandırma ayrıntıları

Aşağıdaki bölümlerde, Google BigQuery bağlayıcısına özgü varlıkları tanımlamak için kullanılan özelliklerle ilgili ayrıntılar sağlanır.

Bağlı hizmet özellikleri

Google BigQuery bağlı hizmeti için aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür type özelliği GoogleBigQuery olarak ayarlanmalıdır. Evet
proje Sorgulanacak varsayılan BigQuery projesinin proje kimliği. Evet
ekProjeler Erişilebilecek genel BigQuery projelerinin proje kimliklerinin virgülle ayrılmış listesi. Hayır
istekGoogleDriveKapsamı Google Drive'a erişim isteyip istemediğiniz. Google Drive erişimine izin vermek, BigQuery verilerini Google Drive'dan alınan verilerle birleştiren federasyon tabloları için destek sağlar. Varsayılan değer yanlış değeridir. Hayır
kimlik doğrulama türü Kimlik doğrulaması için kullanılan OAuth 2.0 kimlik doğrulama mekanizması. ServiceAuthentication yalnızca Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanı'nda kullanılabilir.
İzin verilen değerler UserAuthentication ve ServiceAuthentication'dır. Sırasıyla bu kimlik doğrulama türleri için daha fazla özellik ve JSON örneği hakkında bu tablonun altındaki bölümlere bakın.
Evet

Kullanıcı kimlik doğrulamayı kullanma

"authenticationType" özelliğini UserAuthentication olarak ayarlayın ve önceki bölümde açıklanan genel özelliklerle birlikte aşağıdaki özellikleri belirtin:

Özellik Açıklama Gerekli
clientId (İstemci Kimliği) Yenileme belirtecini oluşturmak için kullanılan uygulamanın kimliği. Evet
istemciSırrı Yenileme belirtecini oluşturmak için kullanılan uygulamanın gizli dizisi. Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure Key Vault'ta depolanan bir gizli diziye başvurun. Evet
refreshToken Google'dan alınan yenileme belirteci, BigQuery'ye erişimi yetkilendirmek için kullanılır. OAuth 2.0 erişim belirteçlerini alma ve bu topluluk blogundan nasıl edineceğinizi öğrenin. Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure Key Vault'ta depolanan bir gizli diziye başvurun. Evet

OAuth 2.0 yenileme belirtecini almak için gereken en düşük kapsamdır https://www.googleapis.com/auth/bigquery.readonly. Büyük sonuçlar döndürebilecek bir sorgu çalıştırmayı planlıyorsanız, başka bir kapsam gerekebilir. Daha fazla bilgi için bu makaleye bakın.

Örnek:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQuery",
        "typeProperties": {
            "project" : "<project ID>",
            "additionalProjects" : "<additional project IDs>",
            "requestGoogleDriveScope" : true,
            "authenticationType" : "UserAuthentication",
            "clientId": "<id of the application used to generate the refresh token>",
            "clientSecret": {
                "type": "SecureString",
                "value":"<secret of the application used to generate the refresh token>"
            },
            "refreshToken": {
                "type": "SecureString",
                "value": "<refresh token>"
            }
        }
    }
}

Hizmet kimlik doğrulamayı kullanma

"authenticationType" özelliğini ServiceAuthentication olarak ayarlayın ve önceki bölümde açıklanan genel özelliklerle birlikte aşağıdaki özellikleri belirtin. Bu kimlik doğrulama türü yalnızca Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanı'nda kullanılabilir.

Özellik Açıklama Gerekli
e-posta ServiceAuthentication için kullanılan hizmet hesabı e-posta kimliği. Yalnızca Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanı'nda kullanılabilir. Hayır
keyFilePath Hizmet hesabı e-posta adresinin .json kimliğini doğrulamak için kullanılan anahtar dosyasının tam yolu. Evet
trustedCertPath TLS üzerinden bağlandığınızda sunucuyu doğrulamak için kullanılan güvenilen CA sertifikalarını içeren .pem dosyasının tam yolu. Bu özellik yalnızca Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanı'nda TLS kullandığınızda ayarlanabilir. Varsayılan değer, tümleştirme çalışma zamanıyla birlikte yüklenen cacerts.pem dosyasıdır. Hayır
Sistem Güven Deposu Kullan Sistem güven deposundan veya belirtilen bir .pem dosyasından CA sertifikası kullanılıp kullanılmayacağını belirtir. Varsayılan değer yanlış değeridir. Hayır

Not

Bağlayıcı artık P12 anahtar dosyalarını desteklemez. Hizmet hesaplarını kullanıyorsanız, bunun yerine JSON anahtar dosyalarını kullanmanız önerilir. P12 anahtar dosyasını desteklemek için kullanılan P12CustomPwd özelliği de kullanım dışı bırakıldı. Daha fazla bilgi için bu makaleye bakın.

Örnek:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQuery",
        "typeProperties": {
            "project" : "<project id>",
            "requestGoogleDriveScope" : true,
            "authenticationType" : "ServiceAuthentication",
            "email": "<email>",
            "keyFilePath": "<.json key path on the IR machine>"
        },
        "connectVia": {
            "referenceName": "<name of Self-hosted Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Veri kümeleri makalesine bakın. Bu bölümde, Google BigQuery veri kümesi tarafından desteklenen özelliklerin listesi sağlanır.

Google BigQuery'den veri kopyalamak için veri kümesinin type özelliğini GoogleBigQueryObject olarak ayarlayın. Aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
Tür Veri kümesinin type özelliği şu şekilde ayarlanmalıdır: GoogleBigQueryObject Evet
veri kümesi Google BigQuery veri kümesinin adı. Hayır (etkinlik kaynağında "sorgu" belirtilirse)
tablo Tablonun adı. Hayır (etkinlik kaynağında "sorgu" belirtilirse)
tabloAdı Tablonun adı. Bu özellik geriye dönük uyumluluk için desteklenir. Yeni iş yükü için ve datasetkullanıntable. Hayır (etkinlik kaynağında "sorgu" belirtilirse)

Örnek

{
    "name": "GoogleBigQueryDataset",
    "properties": {
        "type": "GoogleBigQueryObject",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<GoogleBigQuery linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Kopyalama etkinliğinin özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için İşlem hatları makalesine bakın. Bu bölümde, Google BigQuery kaynak türü tarafından desteklenen özelliklerin listesi sağlanır.

Kaynak türü olarak GoogleBigQuerySource

Google BigQuery'den veri kopyalamak için kopyalama etkinliğindeki kaynak türünü GoogleBigQuerySource olarak ayarlayın. Kopyalama etkinliği kaynağı bölümünde aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür Kopyalama etkinliği kaynağının type özelliği GoogleBigQuerySource olarak ayarlanmalıdır. Evet
soru Verileri okumak için özel SQL sorgusunu kullanın. "SELECT * FROM MyTable" bunun bir örneğidir. Hayır (veri kümesinde "tableName" belirtilirse)

Örnek:

"activities":[
    {
        "name": "CopyFromGoogleBigQuery",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<GoogleBigQuery input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "GoogleBigQuerySource",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Google BigQuery V1 için veri türü eşlemesi

Google BigQuery'den veri kopyaladığınızda, Aşağıdaki eşlemeler Google BigQuery veri türlerinden hizmet içindeki ara veri türlerine dahili olarak kullanılır. Kopyalama etkinliğinin kaynak şemayı ve veri türünü havuza nasıl eşlediğini öğrenmek için bkz . Şema ve veri türü eşlemeleri.

Google BigQuery veri türü Hizmet ara veri türü
JSON String
STRING String
BAYT Bayt dizisi
INTEGER Int64
FLOAT Double
SAYISAL String
BIGNUMERIC String
BOOLEAN Boolean
TIMESTAMP DateTime
DATE DateTime
TIME TimeSpan
DATETIME DateTime
COĞRAFYA String
KAYIT/YAPI String
ARRAY String

Arama etkinliği özellikleri

Özellikler hakkında ayrıntılı bilgi edinmek için Arama etkinliği'ne bakın.

Kopyalama etkinliği tarafından kaynak ve havuz olarak desteklenen veri depolarının listesi için bkz . Desteklenen veri depoları.