Mentransformasikan data dengan menjalankan aktivitas Python di Azure Databricks

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Aktivitas Azure Databricks Python dalam alur menjalankan file Python di kluster Azure Databricks Anda. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark.

Untuk pengenalan dan demonstrasi sebelas menit dari fitur ini, tonton video berikut:

Menambahkan aktivitas Python untuk Azure Databricks ke alur dengan UI

Untuk menggunakan aktivitas Python untuk Azure Databricks dalam alur, selesaikan langkah-langkah berikut:

Cari Python di panel Aktivitas alur, dan seret aktivitas Python ke kanvas alur.
Pilih aktivitas Python baru di kanvas jika belum dipilih.
Pilih tab Azure Databricks untuk memilih atau membuat layanan tertaut Azure Databricks baru yang akan menjalankan aktivitas Python.
Pilih tab Pengaturan dan tentukan jalur dalam Azure Databricks ke file Python yang akan dieksekusi, parameter opsional yang akan diteruskan, dan pustaka tambahan apa pun yang akan diinstal di kluster untuk menjalankan pekerjaan.

Definisi aktivitas Databricks Python

Berikut adalah sampel definisi JSON dari Aktivitas Python Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

Properti aktivitas Python Databricks

Tabel berikut menjelaskan properti JSON yang digunakan dalam definisi JSON:

Properti	Deskripsi	Wajib
nama	Nama aktivitas di dalam alur.	Ya
description	Teks yang menjelaskan apa yang dilakukan aktivitas.	No
jenis	Untuk Aktivitas Python Databricks, jenis aktivitasnya adalah DatabricksSparkPython.	Ya
linkedServiceName	Nama Layanan Tertaut Databricks tempat aktivitas Python berjalan. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi.	Ya
pythonFile	URI file Python yang akan dieksekusi. Hanya jalur DBFS yang didukung.	Ya
parameter	Parameter baris perintah yang akan diteruskan ke file Python. Ini adalah baris string.	No
pustaka	Daftar pustaka yang akan diinstal di kluster yang akan menjalankan pekerjaan. Daftar ini dapat berupa larik dari <string, objek>	No

Pustaka yang didukung untuk aktivitas databricks

Dalam definisi aktivitas Databricks di atas, Anda menentukan jenis pustaka ini: jar, egg, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Untuk detail selengkapnya, rujuk Dokumentasi Databricks untuk mengetahui jenis pustaka.

Cara mengunggah pustaka di Databricks

Anda dapat menggunakan antarmuka pengguna Ruang Kerja:

Menggunakan antarmuka pengguna ruang kerja Databricks
Untuk mendapatkan jalur dbfs dari pustaka yang ditambahkan menggunakan antarmuka pengguna, Anda dapat menggunakan Databricks CLI.

Biasanya, pustaka Jar disimpan di bawah dbfs:/FileStore/jars saat menggunakan antarmuka pengguna. Anda dapat mencantumkan semuanya melalui CLI: databricks fs ls dbfs:/FileStore/job-jars

Atau, Anda dapat menggunakan Databricks CLI:

Ikuti Menyalin pustaka menggunakan Databricks CLI
Menggunakan Databricks CLI (langkah penginstalan)

Sebagai contoh, untuk menyalin JAR ke dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-01-15