Mentransformasikan data dengan menjalankan aktivitas Python di Azure Databricks
BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Aktivitas Azure Databricks Python dalam alur menjalankan file Python di kluster Azure Databricks Anda. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark.
Untuk pengenalan dan demonstrasi sebelas menit dari fitur ini, tonton video berikut:
Menambahkan aktivitas Python untuk Azure Databricks ke alur dengan UI
Untuk menggunakan aktivitas Python untuk Azure Databricks dalam alur, selesaikan langkah-langkah berikut:
Cari Python di panel Aktivitas alur, dan seret aktivitas Python ke kanvas alur.
Pilih aktivitas Python baru di kanvas jika belum dipilih.
Pilih tab Azure Databricks untuk memilih atau membuat layanan tertaut Azure Databricks baru yang akan menjalankan aktivitas Python.
Pilih tab Pengaturan dan tentukan jalur dalam Azure Databricks ke file Python yang akan dieksekusi, parameter opsional yang akan diteruskan, dan pustaka tambahan apa pun yang akan diinstal di kluster untuk menjalankan pekerjaan.
Definisi aktivitas Databricks Python
Berikut adalah sampel definisi JSON dari Aktivitas Python Databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksSparkPython",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"pythonFile": "dbfs:/docs/pi.py",
"parameters": [
"10"
],
"libraries": [
{
"pypi": {
"package": "tensorflow"
}
}
]
}
}
}
Properti aktivitas Python Databricks
Tabel berikut menjelaskan properti JSON yang digunakan dalam definisi JSON:
Properti | Deskripsi | Wajib |
---|---|---|
nama | Nama aktivitas di dalam alur. | Ya |
description | Teks yang menjelaskan apa yang dilakukan aktivitas. | No |
jenis | Untuk Aktivitas Python Databricks, jenis aktivitasnya adalah DatabricksSparkPython. | Ya |
linkedServiceName | Nama Layanan Tertaut Databricks tempat aktivitas Python berjalan. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi. | Ya |
pythonFile | URI file Python yang akan dieksekusi. Hanya jalur DBFS yang didukung. | Ya |
parameter | Parameter baris perintah yang akan diteruskan ke file Python. Ini adalah baris string. | No |
pustaka | Daftar pustaka yang akan diinstal di kluster yang akan menjalankan pekerjaan. Daftar ini dapat berupa larik dari <string, objek> | No |
Pustaka yang didukung untuk aktivitas databricks
Dalam definisi aktivitas Databricks di atas, Anda menentukan jenis pustaka ini: jar, egg, maven, pypi, cran.
{
"libraries": [
{
"jar": "dbfs:/mnt/libraries/library.jar"
},
{
"egg": "dbfs:/mnt/libraries/library.egg"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2",
"exclusions": [ "slf4j:slf4j" ]
}
},
{
"pypi": {
"package": "simplejson",
"repo": "http://my-pypi-mirror.com"
}
},
{
"cran": {
"package": "ada",
"repo": "https://cran.us.r-project.org"
}
}
]
}
Untuk detail selengkapnya, rujuk Dokumentasi Databricks untuk mengetahui jenis pustaka.
Cara mengunggah pustaka di Databricks
Anda dapat menggunakan antarmuka pengguna Ruang Kerja:
Untuk mendapatkan jalur dbfs dari pustaka yang ditambahkan menggunakan antarmuka pengguna, Anda dapat menggunakan Databricks CLI.
Biasanya, pustaka Jar disimpan di bawah dbfs:/FileStore/jars saat menggunakan antarmuka pengguna. Anda dapat mencantumkan semuanya melalui CLI: databricks fs ls dbfs:/FileStore/job-jars
Atau, Anda dapat menggunakan Databricks CLI:
Menggunakan Databricks CLI (langkah penginstalan)
Sebagai contoh, untuk menyalin JAR ke dbfs:
dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar