Azure Databricks'de Jar etkinliği çalıştırarak verileri dönüştürme

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

pipeline içindeki Azure Databricks Jar Etkinliği, Azure Databricks kümenizde Spark Jar çalıştırır. Bu makale , veri dönüştürme ve desteklenen dönüştürme etkinliklerine genel bir genel bakış sunan veri dönüştürme etkinlikleri makalesini oluşturur. Azure Databricks, Apache Spark çalıştırmaya yönelik yönetilen bir platformdur.

Bu özelliğe yönelik on bir dakikalık bir giriş ve tanıtım için, aşağıdaki videoyu izleyin:

Azure Databricks için işlem hattına kullanıcı arabirimiyle Jar etkinliği ekle

İşlem hattında Azure Databricks jar etkinliğini kullanmak için aşağıdaki adımları tamamlayın:

  1. İşlem hattı Etkinlikleri bölmesinde Jar araması yapıp Jar etkinliğini işlem hattı tuvaline sürükleyin.

  2. Henüz seçili değilse tuvaldeki yeni Jar etkinliğini seçin.

  3. Jar etkinliğini yürütecek yeni bir Azure Databricks bağlı hizmeti seçmek veya oluşturmak için Azure Databricks sekmesini seçin.

    Jar etkinliğinin kullanıcı arabirimini gösterir.

  4. Settings sekmesini seçin ve Azure Databricks yürütülecek sınıf adını, Jar'a geçirilecek isteğe bağlı parametreleri ve işi yürütmek için kümeye yüklenecek kitaplıkları belirtin.

    Jar etkinliğinin Ayarlar sekmesinin kullanıcı arabirimini gösterir.

Databricks Jar etkinlik tanımı

Databricks Jar Etkinliğinin örnek JSON tanımı aşağıda verilmiştir:

{
    "name": "SparkJarActivity",
    "type": "DatabricksSparkJar",
    "linkedServiceName": {
        "referenceName": "AzureDatabricks",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mainClassName": "org.apache.spark.examples.SparkPi",
        "parameters": [ "10" ],
        "libraries": [
            {
                "jar": "dbfs:/docs/sparkpi.jar"
            }
        ]
    }
}

Databricks Jar etkinlik özellikleri

Aşağıdaki tabloda JSON tanımında kullanılan JSON özellikleri açıklanmaktadır:

Özellik Açıklama Gerekli
Adı İşlem hattındaki etkinliğin adı. Yes
açıklama Etkinliğin ne yaptığını açıklayan metin. Hayır
Tip Databricks Jar Etkinliği için etkinlik türü DatabricksSparkJar'dır. Yes
bağlantılıHizmetAdı Jar etkinliğinin üzerinde çalıştığı Databricks Bağlı Hizmeti'nin adı. Bu bağlı hizmet hakkında bilgi edinmek için Bağlı hizmetleri hesaplama makalesine bakın. Yes
mainClassName Yürütülecek ana yöntemi içeren sınıfın tam adı. Bu sınıf, kitaplık olarak sağlanan bir JAR içinde yer almalıdır. JAR dosyası birden çok sınıf içerebilir. Sınıfların her biri bir ana yöntem içerebilir. Yes
parametreler Ana yönteme geçirilecek parametreler. Bu özellik bir dize dizisidir. Hayır
kitaplıklar İşi yürütecek kümeye yüklenecek kitaplıkların listesi. Bir <dize veya nesne dizisi> olabilir Evet (mainClassName yöntemini içeren en az bir tane)

Not

Bilinen Sorun - Eşzamanlı Databricks Jar etkinliklerini çalıştırmak için aynı Etkileşimli kümeyi kullanırken (küme yeniden başlatma olmadan), Databricks'te 1. etkinliğin parametrelerinde de aşağıdaki etkinliklerin kullanılmasıyla ilgili bilinen bir sorun vardır. Bu nedenle, sonraki işlere yanlış parametreler geçirilir. Bunu azaltmak için bunun yerine bir İş kümesi kullanın.

Databricks etkinlikleri kapsamında desteklenen kitaplıklar

Önceki Databricks etkinlik tanımında şu kitaplık türlerini belirttiniz: jar, egg, maven, pypi, . cran

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Daha fazla bilgi için kitaplık türleri için Databricks belgelerine bakın.

Databricks'te kitaplık yükleme

Çalışma Alanı kullanıcı arabirimini kullanabilirsiniz:

  1. Databricks çalışma alanı kullanıcı arabirimini kullanma

  2. Kullanıcı arabirimi kullanılarak eklenen kitaplığın dbfs yolunu almak için Databricks CLI kullanabilirsiniz.

    Jar kitaplıkları genellikle kullanıcı arabirimi kullanılırken dbfs:/FileStore/jars altında depolanır. Cli aracılığıyla tümünü listeleyebilirsiniz: databricks fs ls dbfs:/FileStore/job-jars

Databricks CLI'yi de kullanabilirsiniz:

  1. Databricks CLI kullanarak kitaplığı kopyalamayı takip edin

  2. Databricks CLI kullanma (yükleme adımları)

    Örneğin, BIR JAR dosyasını dbfs'ye kopyalamak için: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar

Bu özelliğin on bir dakikalık tanıtımı ve gösterisi için video izleyin.