İngilizce dilinde oku

Aracılığıyla paylaş


Azure Data Factory’de Databricks Not Defteri etkinliği ile bir Databricks not defteri çalıştırma

GEÇERLİDİR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu öğreticide, Azure portalını kullanarak Databricks işleri kümesi üzerinde çalışan bir Databricks notebook'u yürüten bir Azure Data Factory işlem hattı oluşturursunuz. Bu işlem ayrıca yürütme sırasında Databricks not defterine Azure Data Factory parametrelerini geçirir.

Bu öğreticide aşağıdaki adımları gerçekleştireceksiniz:

  • Veri fabrikası oluşturma.

  • Databricks Not Defteri Etkinliği’ni kullanan bir işlem hattı oluşturun.

  • İşlem hattını tetikleyin.

  • İşlem hattı çalışmasını izle.

Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

Not

Kitaplıkları kullanma ve giriş ve çıkış parametrelerini geçirme de dahil olmak üzere Databricks Not Defteri Etkinliği'ni kullanma hakkında ayrıntılı bilgi için Databricks Not Defteri Etkinliği belgelerine bakın.

Önkoşullar

  • Azure Databricks çalışma alanı. Bir Databricks çalışma alanı oluşturun veya var olanı kullanın. Azure Databricks çalışma alanınızda bir Python not defteri oluşturun. Ardından, not defterini yürütün ve Azure Data Factory kullanarak parametreleri not defterine geçirin.

Veri fabrikası oluşturma

  1. Microsoft Edge veya Google Chrome web tarayıcısını açın. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.

  2. Azure portalı menüsünde Kaynak oluştur'u ve ardından Analytics>Data Factory'yi seçin:

    Yeni bölmesinde Data Factory seçimini gösteren ekran görüntüsü.

  3. Data Factory Oluştur sayfasındaki Temel Bilgiler sekmesinde, veri fabrikasını oluşturmak istediğiniz Azure Aboneliğinizi seçin.

  4. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    1. Açılan listeden mevcut bir kaynak grubunu seçin.

    2. Yeni oluştur'u seçin ve yeni bir kaynak grubunun adını girin.

    Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.

  5. Bölge için veri fabrikasının konumunu seçin.

    Listede yalnızca Data Factory tarafından desteklenen ve Azure Data Factory meta verilerinizin depolanacağı konumlar gösterilir. Data Factory'nin kullandığı ilişkili veri depoları (Azure Depolama ve Azure SQL Veritabanı gibi) ve hesaplamalar (Azure HDInsight gibi) diğer bölgelerde çalıştırılabilir.

  6. Ad alanına ADFTutorialDataFactory girin.

    Azure data factory adı küresel olarak benzersiz olmalıdır. Aşağıdaki hatayı görürseniz, veri fabrikasının adını değiştirin (Örneğin, ADFTutorialDataFactory>). Data Factory yapıtlarının adlandırma kuralları için Data Factory - adlandırma kuralları makalesini inceleyin.

    Bir ad kullanılamadığında hatayı gösteren ekran görüntüsü.

  7. Sürüm bölümünde V2'yi seçin.

  8. İleri: Git yapılandırması seçeneğine tıklayın, ardından Git’i daha sonra yapılandır onay kutusunu seçin.

  9. Gözden geçir + oluştur'u ve doğrulama geçirildikten sonra Oluştur'u seçin.

  10. Oluşturma işlemi tamamlandıktan sonra Data Factory sayfasına gitmek için Kaynağa git'i seçin. Azure Data Factory kullanıcı arabirimi (UI) uygulamasını ayrı bir tarayıcı sekmesinde başlatmak için Azure Data Factory Studio'yu Aç kutucuğunu seçin.

    Azure Data Factory Studio'yu Aç kutucuğuyla Azure Data Factory giriş sayfasını gösteren ekran görüntüsü.

Bağlı hizmetler oluşturma

Bu bölümde bir Databricks bağlantılı hizmet oluşturacaksınız. Bu bağlı hizmet, Databricks kümesine bağlantı bilgilerini içerir:

Azure Databricks bağlı hizmeti oluşturun

  1. Giriş sayfasında, sol paneldeki Yönet sekmesine geçin.

    Yönet sekmesini gösteren ekran görüntüsü.

  2. Bağlantılar'ın altında Bağlı hizmetler'i ve ardından + Yeni'yi seçin.

    Yeni bağlantı oluşturmayı gösteren ekran görüntüsü.

  3. Yeni bağlı hizmet penceresinde İşlem>Azure Databricks'i seçin ve ardından Devam düğmesine tıklayın.

    Databricks bağlı hizmetinin nasıl belirtileceğini gösteren ekran görüntüsü.

  4. Yeni bağlı hizmet penceresinde aşağıdaki adımları tamamlayın:

    1. Ad alanına AzureDatabricks_LinkedService girin.

    2. Not defterinizi çalıştırabileceğiniz uygun Databricks çalışma alanını seçin.

    3. Küme seçimi için Yeni iş kümesi'ni seçin.

    4. Databricks Çalışma Alanı URL'si için bilgiler otomatik olarak doldurulmalıdır.

    5. Kimlik doğrulama türü için Erişim Belirteci'ni seçerseniz Azure Databricks çalışma alanından oluşturun. Adımları burada bulabilirsiniz. Yönetilen hizmet kimliği ve Kullanıcı Tarafından Atanan Yönetilen Kimlik için, Azure Databricks kaynağının Erişim denetimi menüsünde her iki kimlik için de Katkıda Bulunan rolü verin.

    6. Küme sürümü için kullanmak istediğiniz sürümü seçin.

    7. Küme düğümü türü için, bu öğreticide Genel Amaçlı (HDD) kategorisinde Standard_D3_v2 seçin.

    8. Çalışanlar alanına 2 yazın.

    9. Oluştur'u belirleyin.

      Yeni Azure Databricks bağlı hizmetinin yapılandırmasını gösteren ekran görüntüsü.

İşlem hattı oluşturun

  1. + (artı) düğmesini seçin ve ardından menüden İşlem Hattı'nı seçin.

    Yeni işlem hattı oluşturmaya yönelik düğmeleri gösteren ekran görüntüsü.

  2. İşlem hattı içinde kullanılacak bir parametre oluşturun. Daha sonra bu parametreyi Databricks Not Defteri Etkinliği’ne geçireceksiniz. Boş işlem hattında Parametreler sekmesini seçin, ardından + Yeni'yi seçin ve bunu 'ad' olarak adlandırın.

    Yeni parametre oluşturmayı gösteren ekran görüntüsü.

    Ad parametresinin nasıl oluşturulacağını gösteren ekran görüntüsü.

  3. Etkinlikler araç kutusunda Databricks’i genişletin. Etkinlikler araç kutusundan Not Defteri etkinliğini işlem hattı tasarım yüzeyine sürükleyin.

    Not defterini tasarımcı yüzeyine sürüklemeyi gösteren ekran görüntüsü.

  4. En alttaki Databricks Not Defteri etkinlik penceresinin özelliklerinde aşağıdaki adımları tamamlayın:

    1. Azure Databricks sekmesine geçin.

    2. AzureDatabricks_LinkedService (önceki yordamda oluşturduğunuz) seçin.

    3. Ayarlar sekmesine geçin.

    4. Tarayarak bir Databricks Not Defteri yolu seçin. Şimdi bir not defteri oluşturup burada yolunu belirtelim. Sonraki birkaç adımı izleyerek Not Defteri Yolunu alın.

      1. Azure Databricks Çalışma Alanınızı başlatın.

      2. Çalışma Alanında Yeni Klasör oluşturun ve adftutorial olarak adlandırın.

      3. Yeni bir not defteri oluşturun, bunu mynotebook olarak adlandıralım. adftutorial Klasörüne sağ tıklayın ve Oluştur'u seçin.

      4. Yeni oluşturulan "mynotebook" adlı not defterine aşağıdaki kodu ekleyin:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. Bu örnekte Not Defteri Yolu /adftutorial/mynotebook şeklindedir.

  5. Data Factory UI yazma aracına geri dönün. Not Defteri1 etkinliğinin altındaki Ayarlar Sekmesine gidin.

    a. Not Defteri etkinliğine bir parametre ekleyin. Daha önce işlem hattına eklediğiniz parametrenin aynısını kullanın.

    Parametre eklemeyi gösteren ekran görüntüsü.

    b. Parametreyi giriş olarak adlandırın ve değeri @pipeline().parameters.name ifadesi olarak sağlayın.

  6. İşlem hattını doğrulamak için araç çubuğundaki Doğrula düğmesini seçin. Doğrulama penceresini kapatmak için Kapat düğmesini seçin.

    İşlem hattını doğrulamayı gösteren ekran görüntüsü.

  7. Tümünü yayımla'yı seçin. Data Factory kullanıcı arabirimi, varlıkları (bağlı hizmetler ve işlem hattı) Azure Data Factory hizmetinde yayımlar.

    Yeni veri fabrikası varlıklarını yayımlamayı gösteren ekran görüntüsü.

İşlem hattı çalıştırmasını tetikleme

Araç çubuğunda Tetikleyici ekle'yi seçin ve ardından Şimdi tetikle'yi seçin.

'Şimdi tetikle' komutunu seçmeyi gösteren ekran görüntüsü.

Boruhattı çalıştırma iletişim kutusu adı parametresini ister. Burada parametre olarak /path/filename seçeneğini kullanın. Tamam'ı seçin.

Ad parametreleri için bir değer sağlamayı gösteren ekran görüntüsü.

İşlem hattı çalışmasını izleyin

  1. İzleyici sekmesine geçin. İşlem hattı çalıştırması gördüğünüzden emin olun. Not defterinin yürütüldüğü bir Databricks iş kümesinin oluşturulması yaklaşık 5-8 dakika sürer.

    İşlem hattının nasıl izleneceğini gösteren ekran görüntüsü.

  2. Belirli aralıklarla Yenile'ye tıklayarak işlem hattı yürütme durumunu kontrol edin.

  3. İşlem hattı çalıştırmasıyla ilişkili etkinlik çalıştırmalarını görmek için İşlem hattı adı sütununda pipeline1 bağlantısını seçin.

  4. Etkinlik çalıştırmaları sayfasında Etkinlik adı sütununda Çıkış'ı seçerek her etkinliğin çıkışını görüntüleyin ve daha ayrıntılı Spark günlükleri için Databricks günlüklerinin bağlantısını Çıktı bölmesinde bulabilirsiniz.

  5. Üstteki içerik haritası menüsündeki Tüm işlem hattı çalıştırmaları bağlantısını seçerek işlem hattı çalıştırmaları görünümüne geri dönebilirsiniz.

Çıktıyı doğrulama

Azure Databricks çalışma alanında oturum açabilir, İş Çalıştırmaları'na gidebilir ve İş durumunu yürütme bekliyor, çalışıyor veya sonlandırıldı olarak görebilirsiniz.

İş adını seçebilir ve diğer ayrıntıları görmek için gidebilirsiniz. Çalıştırma başarılı olduğunda, geçirilen parametreleri ve Python not defterinin çıktısını doğrulayabilirsiniz.

Özet

Bu örnekteki işlem hattı bir Databricks Not Defteri etkinliğini tetikler ve ona bir parametre gönderir. Şunları öğrendiniz:

  • Veri fabrikası oluşturma.

  • Databricks Not Defteri etkinliğini kullanan bir işlem hattı oluşturun.

  • İşlem hattını tetikleyin.

  • İşlem hattı çalıştırmasını izleme.