Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Tip
Data Factory di Microsoft Fabric adalah generasi Azure Data Factory berikutnya, dengan arsitektur yang lebih sederhana, AI bawaan, dan fitur baru. Jika Anda baru menggunakan integrasi data, mulailah dengan Fabric Data Factory. Beban kerja ADF yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik real time, dan pelaporan.
Aktivitas Azure Databricks Python dalam pipeline menjalankan file Python di kluster Azure Databricks Anda. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark.
Untuk pengenalan dan demonstrasi sebelas menit dari fitur ini, tonton video berikut:
Menambahkan aktivitas Python untuk Azure Databricks ke alur dengan UI
Untuk menggunakan aktivitas Python untuk Azure Databricks dalam alur, selesaikan langkah-langkah berikut:
Cari Python di panel Aktivitas alur, dan seret aktivitas Python ke kanvas alur.
Pilih aktivitas Python baru di kanvas jika belum dipilih.
Pilih tab Azure Databricks untuk memilih atau membuat layanan tertaut Azure Databricks baru yang akan menjalankan aktivitas Python.
Pilih tab Settings dan tentukan jalur dalam Azure Databricks ke file Python yang akan dijalankan, parameter opsional yang akan diteruskan, dan pustaka tambahan apa pun yang akan diinstal pada kluster untuk menjalankan pekerjaan.
Definisi aktivitas databricks Python
Berikut adalah contoh definisi JSON dari Aktivitas Python Databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksSparkPython",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"pythonFile": "dbfs:/docs/pi.py",
"parameters": [
"10"
],
"libraries": [
{
"pypi": {
"package": "tensorflow"
}
}
]
}
}
}
Properti aktivitas Python Databricks
Tabel berikut menjelaskan properti JSON yang digunakan dalam definisi JSON:
| Properti | Deskripsi | Wajib |
|---|---|---|
| nama | Nama aktivitas di dalam pipa kerja. | Ya |
| deskripsi | Teks yang menjelaskan apa yang aktivitas dilakukan. | Tidak |
| jenis | Untuk Databricks Python Activity, jenis aktivitasnya adalah DatabricksSparkPython. | Ya |
| Nama Layanan Tertaut | Nama Layanan Tertaut Databricks tempat aktivitas Python berjalan. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi. | Ya |
| pythonFile | URI file Python yang akan dijalankan. Hanya jalur DBFS yang didukung. | Ya |
| parameter | Parameter baris perintah yang akan diteruskan ke file Python. Ini adalah baris string. | Tidak |
| pustaka | Daftar pustaka yang akan diinstal di kluster yang akan menjalankan tugas. Daftar ini dapat berupa larik dari <string, objek> | Tidak |
Perpustakaan perangkat lunak yang didukung untuk aktivitas Databricks
Dalam definisi aktivitas Databricks di atas, Anda menentukan jenis pustaka ini: jar, egg, maven, pypi, cran.
{
"libraries": [
{
"jar": "dbfs:/mnt/libraries/library.jar"
},
{
"egg": "dbfs:/mnt/libraries/library.egg"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2",
"exclusions": [ "slf4j:slf4j" ]
}
},
{
"pypi": {
"package": "simplejson",
"repo": "http://my-pypi-mirror.com"
}
},
{
"cran": {
"package": "ada",
"repo": "https://cran.us.r-project.org"
}
}
]
}
Untuk detail selengkapnya, rujuk Dokumentasi Databricks untuk mengetahui jenis pustaka.
Cara mengunggah pustaka di Databricks
Anda dapat menggunakan antarmuka pengguna Ruang Kerja:
Untuk mendapatkan jalur dbfs dari pustaka yang ditambahkan menggunakan antarmuka pengguna, Anda dapat menggunakan Databricks CLI.
Biasanya, pustaka Jar disimpan di bawah dbfs:/FileStore/jars saat menggunakan antarmuka pengguna. Anda dapat mencantumkan semuanya melalui CLI: databricks fs ls dbfs:/FileStore/job-jars
Atau, Anda dapat menggunakan Databricks CLI:
Menggunakan Databricks CLI (langkah penginstalan)
Sebagai contoh, untuk menyalin JAR ke dbfs:
dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar