Aracılığıyla paylaş


Azure Databricks ile dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu öğreticide, Azure Data Factory'de Doğrulama, Veri Kopyalama ve Not Defteri etkinliklerini içeren uçtan uca bir işlem hattı oluşturacaksınız.

  • Doğrulama , kopyalama ve analiz işini tetiklemeden önce kaynak veri kümenizin aşağı akış tüketimine hazır olmasını sağlar.

  • Verileri kopyalama, kaynak veri kümesini Azure Databricks not defterine DBFS olarak bağlanan havuz depolama alanına çoğaltır. Bu şekilde veri kümesi spark tarafından doğrudan kullanılabilir.

  • Not defteri , veri kümesini dönüştüren Databricks not defterini tetikler. Ayrıca veri kümesini işlenmiş bir klasöre veya Azure Synapse Analytics'e ekler.

Kolaylık olması için, bu öğreticideki şablon zamanlanmış tetikleyici oluşturmaz. Gerekirse ekleyebilirsiniz.

İşlem hattının diyagramı

Önkoşullar

  • Havuz olarak kullanılmak üzere çağrılan sinkdata bir kapsayıcıya sahip bir Azure Blob depolama hesabı.

    Depolama hesabı adını, kapsayıcı adını ve erişim anahtarını not edin. Bu değerlere şablonda daha sonra ihtiyacınız olacaktır.

  • Azure Databricks çalışma alanı.

Dönüştürme için not defterini içeri aktarma

Bir Dönüşüm not defterini Databricks çalışma alanınıza aktarmak için:

  1. Azure Databricks çalışma alanınızda oturum açın ve İçeri Aktar'ı seçin. Çalışma alanını içeri aktarmak için menü komutu Çalışma alanı yolunuz gösterilenden farklı olabilir, ancak daha sonra anımsayın.

  2. İçeri aktar: URL'yi seçin. Metin kutusuna yazın https://adflabstaging1.blob.core.windows.net/share/Transformations.html.

    Not defterini içeri aktarma seçimleri

  3. Şimdi Dönüştürme not defterini depolama bağlantı bilgilerinizle güncelleştirelim.

    İçeri aktarılan not defterinde, aşağıdaki kod parçacığında gösterildiği gibi komut 5'e gidin.

    • ve <access key> öğesini kendi depolama bağlantı bilgilerinizle değiştirin<storage name>.
    • Kapsayıcı ile sinkdata depolama hesabını kullanın.
    # Supply storageName and accessKey values  
    storageName = "<storage name>"  
    accessKey = "<access key>"  
    
    try:  
      dbutils.fs.mount(  
        source = "wasbs://sinkdata\@"+storageName+".blob.core.windows.net/",  
        mount_point = "/mnt/Data Factorydata",  
        extra_configs = {"fs.azure.account.key."+storageName+".blob.core.windows.net": accessKey})  
    
    except Exception as e:  
      # The error message has a long stack track. This code tries to print just the relevant line indicating what failed.
    
    import re
    result = re.findall(r"\^\s\*Caused by:\s*\S+:\s\*(.*)\$", e.message, flags=re.MULTILINE)
    if result:
      print result[-1] \# Print only the relevant error message
    else:  
      print e \# Otherwise print the whole stack trace.  
    
  4. Data Factory'nin Databricks'e erişmesi için bir Databricks erişim belirteci oluşturun.

    1. Databricks çalışma alanınızda sağ üstteki kullanıcı profili simgenizi seçin.
    2. Kullanıcı Ayarları'nı seçin. Kullanıcı ayarları için menü komutu
    3. Erişim Belirteçleri sekmesinin altında Yeni Belirteç Oluştur'a tıklayın.
    4. Oluştur seçeneğini belirleyin.

    Databricks bağlı hizmeti oluştururken daha sonra kullanmak üzere erişim belirtecini kaydedin. Erişim belirteci gibi dapi32db32cbb4w6eee18b7d87e45exxxxxxgörünür.

Bu şablonu kullanma

  1. Azure Databricks ile Dönüştürme şablonuna gidin ve aşağıdaki bağlantılar için yeni bağlı hizmetler oluşturun.

    Bağlantılar ayarı

    • Kaynak Blob Bağlantısı - kaynak verilere erişmek için.

      Bu alıştırmada, kaynak dosyaları içeren genel blob depolama alanını kullanabilirsiniz. Yapılandırma için aşağıdaki ekran görüntüsüne başvurun. Kaynak depolamaya bağlanmak için aşağıdaki SAS URL'sini kullanın (salt okunur erişim):

      https://storagewithdata.blob.core.windows.net/data?sv=2018-03-28&si=read%20and%20list&sr=c&sig=PuyyS6%2FKdB2JxcZN0kPlmHSBlD8uIKyzhBWmWzznkBw%3D

      Kimlik doğrulama yöntemi ve SAS URL'si seçimleri

    • Hedef Blob Bağlantısı - kopyalanan verileri depolamak için.

      Yeni bağlı hizmet penceresinde havuz depolama blobunuzu seçin.

      Yeni bağlı hizmet olarak havuz depolama blobu

    • Azure Databricks - Databricks kümesine bağlanmak için.

      Daha önce oluşturduğunuz erişim anahtarını kullanarak Databricks bağlantılı bir hizmet oluşturun. Varsa etkileşimli bir küme seçebilirsiniz. Bu örnekte Yeni iş kümesi seçeneği kullanılmaktadır.

      Kümeye bağlanma seçimleri

  2. Bu şablonu kullan'ı seçin. Oluşturulan bir işlem hattı görürsünüz.

    İşlem hattı oluşturma

İşlem hattına giriş ve yapılandırma

Yeni işlem hattında çoğu ayar varsayılan değerlerle otomatik olarak yapılandırılır. İşlem hattınızın yapılandırmalarını gözden geçirin ve gerekli değişiklikleri yapın.

  1. Doğrulama etkinliği Kullanılabilirlik bayrağında, kaynak Veri Kümesi değerinin daha önce oluşturduğunuz değere SourceAvailabilityDataset ayarlandığını doğrulayın.

    Kaynak veri kümesi değeri

  2. Veri kopyalama etkinliği dosyasından bloba bölümünde Kaynak ve Havuz sekmelerini denetleyin. Gerekirse ayarları değiştirin.

    • Kaynak sekmesi Kaynak sekmesi

    • Havuz sekmesi Havuz sekmesi

  3. Not Defteri etkinliği Dönüştürme bölümünde yolları ve ayarları gerektiği gibi gözden geçirin ve güncelleştirin.

    Databricks bağlı hizmeti , gösterildiği gibi önceki bir adımdaki değerle önceden doldurulmalıdır: Databricks bağlı hizmeti için doldurulan değer

    Not Defteri ayarlarını denetlemek için:

    1. Ayarlar sekmesini seçin. Not defteri yolu için varsayılan yolun doğru olduğunu doğrulayın. Göz atıp doğru not defteri yolunu seçmeniz gerekebilir.

      Not defteri yolu

    2. Temel Parametreler seçicisini genişletin ve parametrelerin aşağıdaki ekran görüntüsünde gösterilenle eşleşip eşleşmediğini doğrulayın. Bu parametreler Data Factory'den Databricks not defterine geçirilir.

      Temel parametreler

  4. İşlem Hattı Parametrelerinin aşağıdaki ekran görüntüsünde gösterilenle eşleştiklerini doğrulayın: Ardışık düzen parametreleri

  5. Veri kümelerinize bağlanın.

    Not

    Aşağıdaki veri kümelerinde, dosya yolu şablonda otomatik olarak belirtilmiştir. Herhangi bir değişiklik gerekiyorsa, bağlantı hatası durumunda hem kapsayıcı hem de dizin için yolu belirttiğinizden emin olun.

    • SourceAvailabilityDataset - kaynak verilerin kullanılabilir olup olmadığını denetlemek için.

      SourceAvailabilityDataset için bağlı hizmet ve dosya yolu seçimleri

    • SourceFilesDataset - kaynak verilere erişmek için.

      SourceFilesDataset için bağlı hizmet ve dosya yolu seçimleri

    • DestinationFilesDataset - verileri havuz hedef konumuna kopyalamak için. Aşağıdaki değerleri kullanın:

      • Önceki adımda oluşturulan bağlı hizmet - sinkBlob_LS.

      • Dosya yolu - sinkdata/staged_sink.

        DestinationFilesDataset için bağlı hizmet ve dosya yolu seçimleri

  6. İşlem hattını çalıştırmak için Hata Ayıkla'ya tıklayın. Daha ayrıntılı Spark günlükleri için Databricks günlüklerinin bağlantısını bulabilirsiniz.

    Çıktıdan Databricks günlüklerine bağlantı

    Veri dosyasını Azure Depolama Gezgini kullanarak da doğrulayabilirsiniz.

    Not

    Data Factory işlem hattı çalıştırmalarıyla bağıntı için bu örnek, veri fabrikasındaki işlem hattı çalıştırma kimliğini çıkış klasörüne ekler. Bu, her çalıştırma tarafından oluşturulan dosyaların izlenmesine yardımcı olur. Eklenen işlem hattı çalıştırma kimliği