Databricks not defteri çalıştırarak verileri dönüştürme

ŞUNLAR IÇIN GEÇERLIDIR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Ücretsiz olarak yeni bir deneme sürümü başlatmayı öğrenin!

İşlem hattındaki Azure Databricks Not Defteri Etkinliği, Azure Databricks çalışma alanınızda bir Databricks not defteri çalıştırır. Bu makale, veri dönüştürme ve desteklenen dönüştürme etkinliklerine genel bir genel bakış sunan veri dönüştürme etkinlikleri makalesini oluşturur. Azure Databricks, Apache Spark çalıştırmaya yönelik yönetilen bir platformdur.

JSON kullanarak veya doğrudan Azure Data Factory Studio kullanıcı arabirimi aracılığıyla ARM şablonuyla Databricks not defteri oluşturabilirsiniz. Kullanıcı arabirimini kullanarak Databricks not defteri etkinliği oluşturma adım adım izlenecek yol için, Azure Data Factory'da Databricks Not Defteri Etkinliği ile Databricks not defteri çalıştırma öğreticisine başvurun.

Kullanıcı arabirimiyle işlem hattına Azure Databricks için Not Defteri etkinliği ekleme

İşlem hattında Azure Databricks için Not Defteri etkinliğini kullanmak için aşağıdaki adımları tamamlayın:

  1. İşlem hattı Etkinlikleri bölmesinde Not Defteri'ni arayın ve bir Not Defteri etkinliğini işlem hattı tuvaline sürükleyin.

  2. Henüz seçili değilse tuvaldeki yeni Not Defteri etkinliğini seçin.

  3. Not Defteri etkinliğini yürütecek yeni bir Azure Databricks bağlı hizmeti seçmek veya oluşturmak için Azure Databricks sekmesini seçin.

    Not Defteri etkinliğinin kullanıcı arabirimini gösterir.

  4. Ayarlar sekmesini seçin ve Azure Databricks'te yürütülecek not defteri yolunu, not defterine geçirilecek isteğe bağlı temel parametreleri ve işi yürütmek için kümeye yüklenecek ek kitaplıkları belirtin.

    Not Defteri etkinliğinin Ayarlar sekmesinin kullanıcı arabirimini gösterir.

Databricks Not Defteri etkinlik tanımı

Databricks Not Defteri Etkinliğinin örnek JSON tanımı aşağıda verilmiştir:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksNotebook",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "notebookPath": "/Users/user@example.com/ScalaExampleNotebook",
            "baseParameters": {
                "inputpath": "input/folder1/",
                "outputpath": "output/"
            },
            "libraries": [
                {
                "jar": "dbfs:/docs/library.jar"
                }
            ]
        }
    }
}

Databricks Not Defteri etkinlik özellikleri

Aşağıdaki tabloda JSON tanımında kullanılan JSON özellikleri açıklanmaktadır:

Özellik Açıklama Gerekli
name İşlem hattındaki etkinliğin adı. Yes
açıklama Etkinliğin ne yaptığını açıklayan metin. Hayır
tür Databricks Not Defteri Etkinliği için etkinlik türü DatabricksNotebook'tır. Yes
linkedServiceName Databricks not defterinin üzerinde çalıştığı Databricks Bağlı Hizmeti'nin adı. Bu bağlı hizmet hakkında bilgi edinmek için bağlı hizmetleri hesaplama makalesine bakın. Yes
notebookPath Databricks Çalışma Alanında çalıştırılacak not defterinin mutlak yolu. Bu yol eğik çizgiyle başlamalıdır. Yes
baseParameters Key-Value çiftleri dizisi. Her etkinlik çalıştırması için temel parametreler kullanılabilir. Not defteri belirtilmemiş bir parametre alırsa, not defterindeki varsayılan değer kullanılır. Databricks Not Defterleri'ndeki parametreler hakkında daha fazla bilgi edinin. Hayır
kitaplıklar İşi yürütecek kümeye yüklenecek kitaplıkların listesi. Dize, nesne> dizisi <olabilir. Hayır

Databricks etkinlikleri için desteklenen kitaplıklar

Yukarıdaki Databricks etkinlik tanımında şu kitaplık türlerini belirtirsiniz: jar, egg, whl, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "whl": "dbfs:/mnt/libraries/mlflow-0.0.1.dev0-py2-none-any.whl"
        },
        {
            "whl": "dbfs:/mnt/libraries/wheel-libraries.wheelhouse.zip"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Daha fazla bilgi için kitaplık türleri için Databricks belgelerine bakın.

Not defterleri ve işlem hatları arasında parametre geçirme

Databricks etkinliğindeki baseParameters özelliğini kullanarak not defterlerine parametre geçirebilirsiniz.

Bazı durumlarda, hizmetteki denetim akışı (koşullu denetimler) için kullanılabilen veya aşağı akış etkinlikleri tarafından kullanılabilen (boyut sınırı 2 MB'tır) belirli değerleri not defterinden hizmete geri geçirmeniz gerekebilir.

  1. Not defterinizde dbutils.notebook.exit("returnValue") öğesini çağırabilirsiniz ve hizmete karşılık gelen "returnValue" döndürülür.

  2. gibi @{activity('databricks notebook activity name').output.runOutput}bir ifade kullanarak hizmetteki çıktıyı kullanabilirsiniz.

    Önemli

    JSON nesnesi geçiriyorsanız, özellik adlarını ekleyerek değerleri alabilirsiniz. Örnek: @{activity('databricks notebook activity name').output.runOutput.PropertyName}

Databricks'te kitaplık yükleme

Çalışma Alanı kullanıcı arabirimini kullanabilirsiniz:

  1. Databricks çalışma alanı kullanıcı arabirimini kullanma

  2. Kullanıcı arabirimi kullanılarak eklenen kitaplığın dbfs yolunu almak için Databricks CLI kullanabilirsiniz.

    Jar kitaplıkları genellikle kullanıcı arabirimi kullanılırken dbfs:/FileStore/jars altında depolanır. Cli aracılığıyla tümünü listeleyebilirsiniz: databricks fs ls dbfs:/FileStore/job-jars

Databricks CLI'yi de kullanabilirsiniz:

  1. Databricks CLI kullanarak kitaplığı kopyalama'yı izleyin

  2. Databricks CLI kullanma (yükleme adımları)

    Örneğin, bir JAR dosyasını dbfs'ye kopyalamak için: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar