Azure Data Factory'de Databricks Not Defteri Etkinliği ile Databricks not defteri çalıştırma

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Bu öğreticide, Azure portalını kullanarak Databricks görevleri kümesinde bir Databricks not defteri çalıştıran bir Azure Data Factory işlem hattı oluşturacaksınız. Ayrıca yürütme sırasında databricks not defterine Azure Data Factory parametreleri geçirir.

Bu öğreticide aşağıdaki adımları gerçekleştireceksiniz:

  • Veri fabrikası oluşturma.

  • Databricks Not Defteri Etkinliği’ni kullanan bir işlem hattı oluşturun.

  • İşlem hattını tetikleyin.

  • İşlem hattı çalışmasını izle.

Azure aboneliğiniz yoksa başlamadan önce free hesabı oluşturun.

Not

Kitaplıkları kullanma ve giriş ve çıkış parametrelerini geçirme de dahil olmak üzere Databricks Not Defteri Etkinliği'ni kullanma hakkında ayrıntılı bilgi için Databricks Not Defteri Etkinliği belgelerine bakın.

Önkoşullar

  • Azure Databricks çalışma alanı. Bir Databricks çalışma alanı oluşturun veya var olanı kullanın. Azure Databricks çalışma alanınızda bir Python not defteri oluşturursunuz. Ardından not defterini yürütür ve Azure Data Factory kullanarak parametreleri ona geçirirsiniz.

Veri fabrikası oluşturma

  1. Microsoft Edge veya Google Chrome web tarayıcısını başlatın. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.

  2. Azure portalı menüsünde Bir kaynak oluştur seçin ve ardından Analytics>Data Factory öğesini seçin:

    Yeni bölmesinde Data Factory seçimini gösteren ekran görüntüsü.

  3. Create Data Factory sayfasındaki Basics sekmesinde, veri fabrikasını oluşturmak istediğiniz Azure Subscription seçin.

  4. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    1. Açılan listeden mevcut bir kaynak grubunu seçin.

    2. Yeni oluştur'u seçin ve yeni bir kaynak grubunun adını girin.

    Kaynak grupları hakkında bilgi edinmek için bkz. Azure Kaynak gruplarını kullanarak Azure kaynaklarınızı yönetme.

  5. Bölge için veri fabrikasının konumunu seçin.

    Listede yalnızca Data Factory'nin desteklediği konumlar ve Azure Data Factory meta verilerinizin depolanacağı konumlar gösterilir. Data Factory'nin kullandığı ilişkili veri depoları (Azure Storage ve Azure SQL Database gibi) ve hesaplamalar (Azure HDInsight gibi) diğer bölgelerde çalıştırılabilir.

  6. Ad alanına ADFTutorialDataFactory girin.

    Azure veri fabrikasının adı globally unique olmalıdır. Aşağıdaki hatayı görürseniz, veri fabrikasının adını değiştirin (Örneğin, ADFTutorialDataFactory<>). Data Factory yapıtlarının adlandırma kuralları için Data Factory - adlandırma kuralları makalesini inceleyin.

    Bir ad kullanılamadığında hatayı gösteren ekran görüntüsü.

  7. Sürüm bölümünde V2'yi seçin.

  8. İleri: Git yapılandırması seçeneğine tıklayın, ardından Git’i daha sonra yapılandır onay kutusunu seçin.

  9. Gözden geçir + oluştur'u ve doğrulama geçirildikten sonra Oluştur'u seçin.

  10. Oluşturma işlemi tamamlandıktan sonra Data Factory sayfasına gitmek için Kaynağa git'i seçin. Azure Data Factory kullanıcı arabirimi (UI) uygulamasını ayrı bir tarayıcı sekmesinde başlatmak için Aç Azure Data Factory Studio kutucuğunu seçin.

    Azure Data Factory'nin ana sayfasını gösteren ekran görüntüsü, Açık Azure Data Factory Studio karosunu içermektedir.

Bağlı hizmetler oluşturma

Bu bölümde bir Databricks bağlantılı hizmet oluşturacaksınız. Bu bağlı hizmet, Databricks kümesine bağlantı bilgilerini içerir:

Azure Databricks bağlı hizmet oluşturma

  1. Giriş sayfasında, sol paneldeki Yönet sekmesine geçin.

    Yönet sekmesini gösteren ekran görüntüsü.

  2. Bağlantılar'ın altında Bağlı hizmetler'i ve ardından + Yeni'yi seçin.

    Yeni bağlantı oluşturmayı gösteren ekran görüntüsü.

  3. Yeni bağlı hizmet penceresinde Compute>Azure Databricks öğesini seçin ve ardından Continue öğesini seçin.

    Databricks bağlı hizmetinin nasıl belirtileceğini gösteren ekran görüntüsü.

  4. Yeni bağlı hizmet penceresinde aşağıdaki adımları tamamlayın:

    1. Ad alanına AzureDatabricks_LinkedService girin.

    2. Not defterinizi çalıştırabileceğiniz uygun Databricks çalışma alanını seçin.

    3. Küme seçimi için Yeni iş kümesi'ni seçin.

    4. Databricks Çalışma Alanı URL'si için bilgiler otomatik olarak doldurulmalıdır.

    5. Authentication type için, Access Token seçerseniz, onu Azure Databricks çalışma alanından oluşturun. Adımları burada bulabilirsiniz. Yönetilen hizmet kimliği ve Kullanıcı Tarafından Atanan Yönetilen Kimlik için Azure Databricks kaynağının Erişim kontrolü menüsünde her iki kimliğe de Katkıda Bulunan rolü verin.

    6. Küme sürümü için kullanmak istediğiniz sürümü seçin.

    7. Küme düğümü türü için, bu öğreticide Genel Amaçlı (HDD) kategorisinde Standard_D3_v2 seçin.

    8. Çalışanlar alanına 2 yazın.

    9. Oluştur'u belirleyin.

      Ekran görüntüsü yeni Azure Databricks bağlı hizmetin yapılandırmasını gösteriyor.

İşlem hattı oluşturun

  1. + (artı) düğmesini seçin ve ardından menüden İşlem Hattı'nı seçin.

    Yeni işlem hattı oluşturmaya yönelik düğmeleri gösteren ekran görüntüsü.

  2. İşlem hattı içinde kullanılacak bir parametre oluşturun. Daha sonra bu parametreyi Databricks Not Defteri Etkinliği’ne geçireceksiniz. Boş işlem hattında Parametreler sekmesini seçin, ardından + Yeni'yi seçin ve bunu 'ad' olarak adlandırın.

    Yeni parametre oluşturmayı gösteren ekran görüntüsü.

    Ad parametresinin nasıl oluşturulacağını gösteren ekran görüntüsü.

  3. Etkinlikler araç kutusunda Databricks’i genişletin. Etkinlikler araç kutusundan Not Defteri etkinliğini işlem hattı tasarım yüzeyine sürükleyin.

    Not defterini tasarımcı yüzeyine sürüklemeyi gösteren ekran görüntüsü.

  4. En alttaki Databricks Not Defteri etkinlik penceresinin özelliklerinde aşağıdaki adımları tamamlayın:

    1. Azure Databricks sekmesine geçin.

    2. AzureDatabricks_LinkedService (önceki yordamda oluşturduğunuz) seçin.

    3. Ayarlar sekmesine geçin.

    4. Tarayarak bir Databricks Not Defteri yolu seçin. Şimdi bir not defteri oluşturup burada yolunu belirtelim. Sonraki birkaç adımı izleyerek Not Defteri Yolunu alın.

      1. Azure Databricks Çalışma Alanınızı başlatın.

      2. Çalışma Alanında Yeni Klasör oluşturun ve adftutorial olarak adlandırın.

      3. Yeni bir not defteri oluşturun, bunu mynotebook olarak adlandıralım. adftutorial Klasörüne sağ tıklayın ve Oluştur'u seçin.

      4. Yeni oluşturulan "mynotebook" adlı not defterine aşağıdaki kodu ekleyin:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. Bu örnekte Not Defteri Yolu /adftutorial/mynotebook şeklindedir.

  5. Data Factory UI yazma aracına geri dönün. Not Defteri1 etkinliğinin altındaki Ayarlar Sekmesine gidin.

    a. Not Defteri etkinliğine bir parametre ekleyin. Daha önce işlem hattına eklediğiniz parametrenin aynısını kullanın.

    Parametre eklemeyi gösteren ekran görüntüsü.

    b. Parametreyi giriş olarak adlandırın ve değeri @pipeline().parameters.name ifadesi olarak sağlayın.

  6. İşlem hattını doğrulamak için araç çubuğundaki Doğrula düğmesini seçin. Doğrulama penceresini kapatmak için Kapat düğmesini seçin.

    İşlem hattını doğrulamayı gösteren ekran görüntüsü.

  7. Tümünü yayımla'yı seçin. Data Factory kullanıcı arabirimi varlıkları (bağlı hizmetler ve işlem hattı) Azure Data Factory hizmetinde yayımlar.

    Yeni veri fabrikası varlıklarını yayımlamayı gösteren ekran görüntüsü.

İşlem hattı çalıştırmasını tetikleme

Araç çubuğunda Tetikleyici ekle'yi seçin ve ardından Şimdi tetikle'yi seçin.

'Şimdi tetikle' komutunu seçmeyi gösteren ekran görüntüsü.

Boruhattı çalıştırma iletişim kutusu adı parametresini ister. Burada parametre olarak /path/filename seçeneğini kullanın. Tamam'ı seçin.

Ad parametreleri için bir değer sağlamayı gösteren ekran görüntüsü.

İşlem hattı çalışmasını izleyin

  1. İzleyici sekmesine geçin. İşlem hattı çalıştırması gördüğünüzden emin olun. Not defterinin yürütüldüğü bir Databricks iş kümesinin oluşturulması yaklaşık 5-8 dakika sürer.

    İşlem hattının nasıl izleneceğini gösteren ekran görüntüsü.

  2. Belirli aralıklarla Yenile'ye tıklayarak işlem hattı yürütme durumunu kontrol edin.

  3. İşlem hattı çalıştırmasıyla ilişkili etkinlik çalıştırmalarını görmek için İşlem hattı adı sütununda pipeline1 bağlantısını seçin.

  4. Etkinlik çalıştırmaları sayfasında Etkinlik adı sütununda Çıkış'ı seçerek her etkinliğin çıkışını görüntüleyin ve daha ayrıntılı Spark günlükleri için Databricks günlüklerinin bağlantısını Çıktı bölmesinde bulabilirsiniz.

  5. Üstteki içerik haritası menüsündeki Tüm işlem hattı çalıştırmaları bağlantısını seçerek işlem hattı çalıştırmaları görünümüne geri dönebilirsiniz.

Çıktıyı doğrulama

Azure Databricks çalışma alanında, Job Runs adresine giderek Job durumunu pending execution, running veya terminated olarak görebilirsiniz.

İş adını seçebilir ve diğer ayrıntıları görmek için gidebilirsiniz. Başarılı bir çalıştırmada, geçirilen parametreleri ve Python not defterinin çıkışını doğrulayabilirsiniz.

Özet

Bu örnekteki işlem hattı bir Databricks Not Defteri etkinliğini tetikler ve ona bir parametre gönderir. Şunları öğrendiniz:

  • Veri fabrikası oluşturma.

  • Databricks Not Defteri etkinliğini kullanan bir işlem hattı oluşturun.

  • İşlem hattını tetikleyin.

  • İşlem hattı çalışmasını izle.