Alıştırma - Azure Data Factory'de işlem dönüşümlerini kullanma

Tamamlandı

Bazı durumlarda, büyük ölçekteki kodsuz dönüştürme gereksinimlerinizi karşılamayabilir. Azure Data Factory'yi kullanarak farklı kaynaklardan toplanan ham verileri alabilir ve gereksinimlerinize göre yeniden yapılandırmak için Azure Databricks, Azure HDInsight veya diğer işlem kaynakları gibi çeşitli işlem kaynaklarıyla çalışabilirsiniz.

ADF ve Azure Databricks

Örneğin Azure Databricks'in ADF ile tümleştirilmesi, Databricks'in analitik ve veri dönüştürme özelliklerinden yararlanmak için ADF işlem hattına Databricks not defterleri eklemenize olanak tanır. Farklı kaynaklardan ADF’ye yüklenen ham verileri yapılandırmak ve dönüştürmek için veri akışınıza bir not defteri ekleyebilirsiniz. Veriyi Databricks kullanarak dönüştürdükten sonra herhangi bir veri ambarı kaynağına yükleyebilirsiniz.

ADF ve Azure Databricks’in ortak özelliklerini kullanarak veri alımı ve veri dönüşümü temel olarak aşağıdaki adımları içerir:

  1. Azure depolama hesabı oluşturma - İlk adım, alınan ve dönüştürülen verilerinizi depolamak için bir Azure depolama hesabı oluşturmaktır.

  2. Azure veri fabrikası oluşturma: Depolama hesabı ayarlandıktan sonra Azure portalı kullanarak Azure veri fabrikanızı oluşturmanız gerekir.

  3. Veri iş akışı işlem hattı oluşturma: Depolama alanı ve ADF’niz çalışmaya başladığında bir işlem hattı oluşturursunuz ve ilk adım olarak, ADF’nin Kopyalama etkinliğini kullanarak kaynağınızdaki verileri kopyalarsınız. Kopyalama Etkinliği, farklı şirket içi ve bulut kaynaklarından veri kopyalamanıza imkan sağlar.

  4. İşlem hattına Databricks not defteri ekleme: Veriniz ADF’ye kopyalandıktan sonra, Databricks not defterinizi işlem hattına, kopyalama etkinliğinin sonrasına eklersiniz. Bu not defteri, ham verileri gerektiği gibi dönüştürmeye ve temizlemeye yönelik söz dizimi ve kod içerebilir.

  5. Veriler üzerinde analiz yapma: Veriniz temizlenip gerekli biçime göre yapılandırıldıktan sonra, gerekli sonuçları elde etmek için Databricks not defterini kullanarak verileri eğitebilir veya analiz edebilirsiniz.

Azure Data Factory’nin ne olduğunu ve Azure Databricks ile tümleştirilmesinin, verilerinizin yüklenmesi ve dönüştürülmesinde size nasıl yardımcı olduğunu öğrendiniz. Şimdi bir uçtan uca örnek veri iş akışı oluşturalım.

Azure Databricks not defterlerini Azure Data Factory işlem hattıyla tümleştirme

Azure Databricks not defterlerini Azure Data Factory işlem hattıyla tümleştirmek için aşağıdaki gibi gerçekleştirilmesi gereken birkaç görev vardır:

  1. Databricks Erişim Belirteci oluşturun.

  2. Databricks Not Defteri Oluşturma

  3. Bağlı Hizmetler Oluşturma

  4. Databricks Not Defteri Etkinliği kullanan bir işlem hattı oluşturun.

  5. İşlem Hattı Çalıştırması tetikleme.

    Dekont

    Aşağıdaki adımlarda zaten sağlanmış bir Azure Databricks kümesi olduğu varsayılır

Görev 1: Databricks Erişim Belirteci Oluşturma.

  1. Azure portalında Kaynak grupları'na ve ardından awrgstudxx'e tıklayın ve ardından awdbwsstudxx'e tıklayın; burada xx adınızın baş harfleridir.

  2. Çalışma Alanını Başlat'a tıklayın

  3. Databricks çalışma alanınızın sol alt köşesindeki kullanıcı Ayarlar tıklayın.

  4. Kullanıcı Ayarlar'ne tıklayın.

  5. Erişim Belirteçleri sekmesine gidin ve Yeni Belirteç Oluştur düğmesine tıklayın.

  6. "ADF Tümleştirmesi için" açıklamasına bir açıklama girin ve 10 günlük yaşam süresini ayarlayın ve Oluştur'a tıklayın

  7. Oluşturulan belirteci kopyalayın ve Not Defteri depolayın ve bitti'ye tıklayın.

Görev 2: Databricks Not Defteri Oluşturma

  1. Ekranın sol tarafında Çalışma Alanı simgesine tıklayın, çalışma alanı sözcüğünün yanındaki oka tıklayın ve oluştur'a ve ardından Klasör'e tıklayın. Klasörü adftutorial olarak adlandırın ve Klasör Oluştur'a tıklayın. adftutorial klasörü Çalışma Alanında görünür.

  2. adftutorial öğesinin yanındaki aşağı açılan oka tıklayın ve ardından Oluştur'a ve ardından Not Defteri'ne tıklayın.

  3. Not Defteri Oluştur iletişim kutusunda, mynotebook'un adını yazın ve dilin Python olarak belirtildiğinden emin olun ve oluştur'a tıklayın. Mynotebook başlığına sahip not defteri görüntülenir/

  4. Yeni oluşturulan "mynotebook" adlı not defterine aşağıdaki kodu ekleyin:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Dekont

    not defteri yolunun /adftutorial/mynotebook olduğunu

Görev 3: Bağlı Hizmetler Oluşturma

  1. Microsoft Edge'de portalın sekmesine tıklayın Azure portalında Azure Data Factory'ye dönün ve Azure Data Factory Studio'yu Aç'a tıklayın.

  2. Ekranın sol tarafında Yönet simgesine tıklayın.

  3. Bağlan ions altında Bağlı Hizmetler'e tıklayın.

  4. Bağlı Hizmet'te, ekranın üst kısmındaki + Yeni'ye tıklayın,

  5. İşlem sekmesine, Azure Databricks'e ve ardından Devam'a tıklayın.

  6. Yeni Bağlı Hizmet (Azure Databricks) ekranında aşağıdaki ayrıntıları doldurun ve Son'a tıklayın

    • Ad: xx_dbls, burada xx baş harflerinizdir
    • Databricks Çalışma Alanı: awdbwsstudxx, burada xx baş harflerinizdir
    • Kümeyi seçin: mevcut olanı kullanın
    • Etki Alanı/ Bölge: doldurulmalıdır
    • Erişim Belirteci: erişim belirtecini Not Defteri kopyalayın ve bu alana yapıştırın
    • Mevcut kümeden seçim yapın: awdbclstudxx, burada xx baş harflerinizdir
    • Diğer seçenekleri varsayılan ayarlarına bırakın

    Dekont

    Son'a tıkladığınızda, xx_dbls oluşturulduğu Yazar ve İzleyici ekranına geri dönersiniz ve önceki exercize'da oluşturulan diğer bağlı hizmetler de oluşturulur.

Görev 4: Databricks Not Defteri Etkinliği kullanan bir işlem hattı oluşturun.

  1. Ekranın sol tarafında Yazar simgesine ve ardından İşlem Hattı'na tıklayın. Bu işlem hattı tasarımcısıyla bir sekme açar.

  2. İşlem hattı tasarımcısının en altında parametreler sekmesine ve ardından + Yeni'ye tıklayın

  3. Ad adıyla, dize türüyle bir parametre oluşturma

  4. Etkinlikler menüsünün altında Databricks'i genişletin.

  5. Not Defteri'ne tıklayın ve tuvale sürükleyin.

  6. En alttaki Notebook1 penceresinin özelliklerinde aşağıdaki adımları tamamlayın:

    • Azure Databricks sekmesine geçin.

    • Önceki yordamda oluşturduğunuz xx_dbls seçin.

    • Ayarlar sekmesine geçin ve /adftutorial/mynotebook'u Not Defteri yoluna yerleştirin.

    • Temel Parametreler'i genişletin ve + Yeni'ye tıklayın

    • @pipeline().parameters.name değeriyle, Giriş Adı ile bir parametre oluşturun

  7. Not Defteri1'de, Şablon olarak kaydet düğmesinin yanındaki Doğrula'ya tıklayın. Ekranın sağ tarafında "İşlem Hattınız doğrulandı. Hata bulunamadı." >> Pencereyi kapatmak için öğesine tıklayın.

  8. Bağlı hizmeti ve işlem hattını yayımlamak için Tümünü Yayımla'ya tıklayın.

    Dekont

    Dağıtımın başarılı olduğunu belirten bir ileti görüntülenir.

Görev 5: İşlem Hattı Çalıştırması Tetikleme

  1. Not Defteri1'de Tetikleyici ekle'ye tıklayın ve Ardından Hata Ayıkla düğmesinin yanındaki Şimdi Tetikle'ye tıklayın.

  2. İşlem Hattı Çalıştırma iletişim kutusu ad parametresini ister. Burada parametre olarak /path/filename seçeneğini kullanın. Son'a tıklayın. Tuvaldeki Notebook1 etkinliğinin üzerinde kırmızı bir daire görünür.

Görev 6: İşlem Hattını İzleme

  1. Ekranın sol tarafında İzleyici sekmesine tıklayın. İşlem hattı çalıştırması gördüğünüzden emin olun. Not defterinin yürütüldüğü bir Databricks iş kümesinin oluşturulması yaklaşık 5-8 dakika sürer.

  2. Düzenli aralıklarla Yenile’yi seçerek işlem hattı çalıştırmasının durumunu denetleyin.

  3. İşlem hattı çalıştırmasıyla ilişkili etkinlik çalıştırmalarını görmek için Eylemler sütunundaki Etkinlik Çalıştırmalarını Göster’i seçin.

7. Görev: Çıkışı doğrulama

  1. Microsoft Edge'de mynotebook - Databricks sekmesine tıklayın

  2. Azure Databricks çalışma alanında Kümeler'e tıkladığınızda, İş durumunu yürütme bekleniyor, çalışıyor veya sonlandırıldı olarak görebilirsiniz.

  3. Etkinlikleri görüntülemek için awdbclstudxx kümesine ve ardından Olay Günlüğü'ne tıklayın.

    Dekont

    İşlem hattı çalıştırmasını tetiklediğiniz zamandan başlayarak olay türünü görmeniz gerekir.