Mentransformasikan data dengan menjalankan aktivitas Python di Azure Databricks

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup segala sesuatu mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Aktivitas Azure Databricks Python dalam alur menjalankan file Python di kluster Azure Databricks Anda. Artikel ini disusun berdasarkan artikel aktivitas transformasi data, yang menyajikan ringkasan umum tentang transformasi data dan aktivitas transformasi yang didukung. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark.

Untuk pengenalan dan demonstrasi sebelas menit dari fitur ini, tonton video berikut:

Menambahkan aktivitas Python untuk Azure Databricks ke alur dengan UI

Untuk menggunakan aktivitas Python untuk Azure Databricks dalam alur, selesaikan langkah-langkah berikut:

  1. Cari Python di panel Aktivitas alur, dan seret aktivitas Python ke kanvas alur.

  2. Pilih aktivitas Python baru di kanvas jika belum dipilih.

  3. Pilih tab Azure Databricks untuk memilih atau membuat layanan tertaut Azure Databricks baru yang akan menjalankan aktivitas Python.

    Menampilkan UI untuk aktivitas Python.

  4. Pilih tab Pengaturan dan tentukan jalur dalam Azure Databricks ke file Python yang akan dieksekusi, parameter opsional yang akan diteruskan, dan pustaka tambahan apa pun yang akan diinstal di kluster untuk menjalankan pekerjaan.

    Memperlihatkan UI untuk tab Pengaturan untuk aktivitas Python.

Definisi aktivitas Databricks Python

Berikut adalah sampel definisi JSON dari Aktivitas Python Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

Properti aktivitas Python Databricks

Tabel berikut menjelaskan properti JSON yang digunakan dalam definisi JSON:

Properti Deskripsi Diperlukan
nama Nama aktivitas di dalam alur. Ya
deskripsi Teks yang menjelaskan apa yang dilakukan aktivitas. Tidak
jenis Untuk Aktivitas Python Databricks, jenis aktivitasnya adalah DatabricksSparkPython. Ya
linkedServiceName Nama Layanan Tertaut Databricks tempat aktivitas Python berjalan. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi. Ya
pythonFile URI file Python yang akan dieksekusi. Hanya jalur DBFS yang didukung. Ya
parameter Parameter baris perintah yang akan diteruskan ke file Python. Ini adalah baris string. Tidak
pustaka Daftar pustaka yang akan diinstal di kluster yang akan menjalankan pekerjaan. Hal ini dapat berupa array <string, objek> Tidak

Pustaka yang didukung untuk aktivitas databricks

Dalam definisi aktivitas Databricks di atas, Anda menentukan jenis pustaka ini: jar, egg, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Untuk detail selengkapnya, rujuk Dokumentasi Databricks untuk mengetahui jenis pustaka.

Cara mengunggah pustaka di Databricks

Anda dapat menggunakan antarmuka pengguna Ruang Kerja:

  1. Menggunakan antarmuka pengguna ruang kerja Databricks

  2. Untuk mendapatkan jalur dbfs dari pustaka yang ditambahkan menggunakan antarmuka pengguna, Anda dapat menggunakan Databricks CLI.

    Biasanya, pustaka Jar disimpan di bawah dbfs:/FileStore/jars saat menggunakan antarmuka pengguna. Anda dapat mencantumkan semuanya melalui CLI: databricks fs ls dbfs:/FileStore/job-jars

Atau, Anda dapat menggunakan Databricks CLI:

  1. Ikuti Menyalin pustaka menggunakan Databricks CLI

  2. Menggunakan Databricks CLI (langkah penginstalan)

    Sebagai contoh, untuk menyalin JAR ke dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar