Aracılığıyla paylaş


Google Analytics Ham Veri alımı işlem hattı oluşturma

Önemli

Google Analytics Ham Veri bağlayıcısı Genel Önizleme aşamasındadır.

Bu makalede Databricks Lakeflow Connect ve Google BigQuery kullanarak Google Analytics Ham Veri alımı işlem hattı oluşturma işlemi açıklanmaktadır. Databricks kullanıcı arabirimini veya Databricks API'lerini kullanarak işlem hattını oluşturabilirsiniz.

Başlamadan önce

Alma işlem hattı oluşturmak için aşağıdaki gereksinimleri karşılamanız gerekir:

  • Unity Kataloğu için çalışma alanınızın etkinleştirilmesi gerekir.

  • Sunucusuz işlem çalışma alanınız için etkinleştirilmelidir. Bkz . Sunucusuz işlem etkinleştirme.

  • Yeni bir bağlantı oluşturmayı planlıyorsanız: Meta veri deposunda ayrıcalıklarınız olmalıdır CREATE CONNECTION .

    Bağlayıcınız ui tabanlı işlem hattı yazmayı destekliyorsa, bu sayfadaki adımları tamamlayarak bağlantıyı ve işlem hattını aynı anda oluşturabilirsiniz. Ancak API tabanlı işlem hattı yazma özelliğini kullanıyorsanız, bu sayfadaki adımları tamamlamadan önce Bağlantıyı Katalog Gezgini'nde oluşturmanız gerekir. Bkz Yönetilen alım kaynaklarına bağlanın.

  • Mevcut bir bağlantıyı kullanmayı planlıyorsanız: Ayrıcalıklarınız olmalıdır USE CONNECTION veya ALL PRIVILEGES bağlantı nesnesinde.

  • Hedef katalog için USE CATALOG ayrıcalıklarına sahip olmalısınız.

  • Mevcut bir şemada USE SCHEMA ve CREATE TABLE ayrıcalıklarına veya hedef katalogda CREATE SCHEMA ayrıcalıklarına sahip olmanız gerekir.

BigQuery kullanarak GA4'ten veri almak için bkz. Databricks için Google Analytics 4 ve Google BigQuery'yi veri almak üzere ayarlama.

Ağı yapılandırma

Sunucusuz çıkış denetimi etkinse aşağıdaki URL'leri izin verilenler listesine ekleyin. Aksi takdirde bu adımı atlayın. Bkz. Sunucusuz çıkış denetimi için ağ ilkelerini yönetme.

  • bigquery.googleapis.com
  • oauth2.googleapis.com
  • bigquerystorage.googleapis.com
  • googleapis.com

Veri alma işlem hattını oluştur

Gerekli izinler:USE CONNECTION veya ALL PRIVILEGES bir bağlantı üzerinde.

Bu adım, veri alma boru hattının oluşturma yöntemini açıklar. Alınan her tablo aynı ada sahip bir akış tablosuna yazılır.

Databricks kullanıcı arabirimi

  1. Azure Databricks çalışma alanının kenar çubuğunda Veri Alımı'na tıklayın.

  2. Veri ekle sayfasındaki Databricks bağlayıcıları'nın altında Google Analytics 4'e tıklayın.

    Alma sihirbazı açılır.

  3. Sihirbazın Alma işlem hattı sayfasında, hat için benzersiz bir ad girin.

  4. Hedef katalog açılan menüsünde bir katalog seçin. Alınan veriler ve olay günlükleri bu kataloğa yazılır. Daha sonra bir hedef şema seçeceksiniz.

  5. Kaynak verilere erişmek için gereken kimlik bilgilerini depolayan Unity Kataloğu bağlantısını seçin.

    Kaynağa mevcut bağlantılar yoksa, Bağlantı oluştur'a tıklayın ve Google Analytics 4 ve Databricks için Google BigQuery alımını ayarlama bölümünde aldığınız kimlik doğrulama ayrıntılarını girin. Meta veri deposunda CREATE CONNECTION ayrıcalıklarınız olmalıdır.

  6. İşlem hattı oluştur'a tıklayın ve devam edin.

  7. Kaynak sayfasında Databricks'e alınacak tabloları seçin ve İleri'ye tıklayın.

  8. Hedef sayfasında, yazacak Unity Kataloğu ve şemasını seçin.

    Mevcut bir şemayı kullanmak istemiyorsanız Şema oluştur'a tıklayın. Üst katalogda USE CATALOG ve CREATE SCHEMA yetkilerine sahip olmalısınız.

  9. İşlem hattını kaydet'e tıklayın ve devam edin.

  10. (İsteğe bağlı) Ayarlar sayfasında Zamanlama oluştur'a tıklayın. Hedef tabloları yenileme sıklığını ayarlayın.

  11. (İsteğe bağlı) İşlem hattı işleminin başarılı veya başarısız olması için e-posta bildirimlerini ayarlayın.

  12. İşlem hattını kaydet ve çalıştır'a tıklayın.

Databricks not defteri

  1. Daha sonra not defterine yapıştırabilmeniz için kişisel bir erişim belirteci oluşturun ve belirteci kopyalayın. Bkz. Çalışma alanı kullanıcıları için Azure Databricks kişisel erişim belirteçleri.

  2. Aşağıdaki not defterini çalışma alanınıza aktarın:

    Google Analytics ham veri alımı işlem hattı oluşturma

    Not defterini alma

  3. Not defterinde aşağıdaki değerleri değiştirin:

    Hücre 1:

    • api_token: Oluşturduğunuz kişisel erişim belirteci

    Hücre 3:

    • name: İşlem hattı için bir ad
    • connection_name: Katalog Gezgini'nde oluşturduğunuz Unity Kataloğu bağlantısının adı (Katalog > Dış veri > Bağlantıları). Kaynakla mevcut bir bağlantınız yoksa, bir bağlantı oluşturabilirsiniz. Meta veri deposunda CREATE CONNECTION ayrıcalığına sahip olmalısınız.
    • source_catalog: Google Cloud Platform (GCP) proje kimliği. Kaynak katalog belirtilmezse bağlayıcı, alınacak GCP projesinin hizmet hesabında belirtilen proje olduğunu varsayar.
    • source_schema: Biçiminde bir Google Analytics özellik adı analytics_XXXXXXXX
    • source_table: Kaynak tablonun adı: events, events_intraday, usersveya pseudonymous_users
    • destination_catalog: Alınan verileri içerecek hedef kataloğun adı
    • destination_schema: Alınan verileri içerecek hedef şemanın adı
    • scd_type: Kullanılacak SCD yöntemi: SCD_TYPE_1 veya SCD_TYPE_2. Bkz Geçmiş izleme.
  4. Tümünü çalıştır'a tıklayın.

Databricks Komut Satırı Arayüzü (CLI)

İşlem hattını oluşturmak için:

databricks pipelines create --json "<pipeline definition or json file path>"

İşlem hattını düzenlemek için:

databricks pipelines update --json "<pipeline definition or json file path>"

İşlem hattı tanımını almak için:

databricks pipelines get "<pipeline-id>"

İşlem hattını silmek için:

databricks pipelines delete "<pipeline-id>"

Daha fazla bilgi için şunu çalıştırın:

databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help

İşlem hattı zamanlamanızı ve bildirimlerinizi güncelleştirme

İşlem hattı ayrıntıları sayfasında işlem hattı için bir zamanlama oluşturabilirsiniz.

  1. İşlem hattı oluşturulduktan sonra Azure Databricks çalışma alanını yeniden ziyaret edin ve İşlem Hatları'na tıklayın.

    Yeni boru hattı işlem hattı listesinde görünür.

  2. İşlem hattı ayrıntılarını görüntülemek için işlem hattı adına tıklayın.

  3. İşlem hattı ayrıntıları sayfasında Zamanla'ya tıklayarak işlem hattını zamanlayabilirsiniz.

  4. İşlem hattında bildirim ayarlamak için ayarlar 'e tıklayın ve ardından bir bildirim ekleyin.

bir işlem hattına eklediğiniz her zamanlama için Lakeflow Connect otomatik olarak bunun için bir iş oluşturur. Veri alma işlem hattı, işin içindeki bir görevdir. İsteğe bağlı olarak işe daha fazla görev ekleyebilirsiniz.