Bagikan melalui


Mengubah data dengan menjalankan Synapse Notebook

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Petunjuk

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Aktivitas Azure Synapse Notebook dalam pipeline menjalankan Notebook Synapse di ruang kerja Azure Synapse Analytics Anda. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung.

Anda dapat membuat aktivitas notebook Azure Synapse Analytics langsung melalui antarmuka pengguna Azure Data Factory Studio. Untuk panduan langkah demi langkah tentang cara membuat aktivitas buku catatan Synapse menggunakan antarmuka pengguna, Anda bisa merujuk ke yang berikut ini.

Menambahkan aktivitas Notebook Synapse ke dalam alur melalui antarmuka pengguna

Untuk menggunakan aktivitas Notebook di Synapse dalam alur kerja, selesaikan langkah-langkah berikut:

Pengaturan umum

  1. Cari Notebook di panel Aktivitas alur, dan seret aktivitas Notebook di bawah Synapse ke kanvas alur.
  2. Pilih aktivitas Notebook yang baru di kanvas apabila belum dipilih.
  3. Di pengaturan Umum, masukkan sampel untuk Nama.
  4. (Opsi) Anda juga dapat memasukkan deskripsi.
  5. Batas Waktu: Waktu maksimum aktivitas dapat berjalan. Pengaturan standar adalah 12 jam, dan jumlah waktu maksimum yang dibolehkan adalah 7 hari. Formatnya adalah D.HH:MM:SS.
  6. Ulangi: Jumlah maksimum percobaan ulang.
  7. Interval coba lagi (detik): Jumlah detik di antara setiap upaya coba lagi.
  8. Output yang aman: Saat dicentang, output dari aktivitas tidak akan ditangkap dalam pencatatan log.
  9. Input aman: Saat dicentang, input dari aktivitas tidak akan ditangkap dalam pengelogan.

Pengaturan Azure Synapse Analytics (Artefak)

Pilih tab Azure Synapse Analytics (Artefak) guna memilih atau membuat layanan terhubung Azure Synapse Analytics baru yang akan menjalankan aktivitas Notebook.

Cuplikan layar tab layanan tertaut untuk aktivitas Notebook.

Tab pengaturan

  1. Pilih aktivitas Synapse Notebook baru di kanvas jika belum dipilih.

  2. Pilih tab Pengaturan.

  3. Perluas daftar Notebook, Anda bisa memilih notebook yang sudah ada di Azure Synapse Analytics (Artefak) yang ditautkan.

  4. Klik tombol Buka untuk membuka halaman layanan tertaut tempat buku catatan yang dipilih berada.

Catatan

Jika ID sumber daya Ruang Kerja dalam layanan yang tertaut kosong, tombol Buka akan dinonaktifkan.

Cuplikan layar tombol buka dinonaktifkan.

  1. Pilih tab Pengaturan dan pilih buku catatan, dan parameter dasar opsional untuk diteruskan ke buku catatan.

    Cuplikan layar tab Pengaturan untuk aktivitas Buku Catatan.

  2. (Opsional) Anda dapat mengisi informasi untuk buku catatan Synapse. Jika pengaturan berikut kosong, pengaturan notebook Synapse itu sendiri akan digunakan untuk menjalankan; jika pengaturan berikut tidak kosong, pengaturan ini akan menggantikan pengaturan buku catatan Synapse itu sendiri.

    Properti Deskripsi
    Kumpulan Spark Referensi ke kumpulan Spark. Anda dapat memilih kumpulan Apache Spark dari daftar.
    Ukuran Pelaksana Jumlah core dan memori yang akan digunakan untuk eksekutor pada pool Apache Spark yang ditentukan untuk sesi. Untuk konten dinamis, nilai yang valid adalah Kecil/Sedang/Besar/XLarge/XXLarge.
    Mengalokasikan pelaksana secara dinamis Pengaturan ini memetakan ke properti alokasi dinamis dalam konfigurasi Spark untuk alokasi eksekutor Aplikasi Spark.
    Jumlah eksekutor minimum Jumlah minimum eksekutor yang akan dialokasikan dalam kumpulan Spark yang ditentukan untuk pekerjaan tersebut.
    Eksekutor maksimum Jumlah maksimum eksekutor yang akan dialokasikan dalam kumpulan Spark yang ditentukan untuk pekerjaan tersebut.
    Ukuran driver Jumlah inti dan memori yang akan digunakan untuk driver yang diberikan dalam kumpulan Apache Spark yang ditentukan untuk pekerjaan tersebut.

Definisi aktivitas Notebook Azure Synapse Analytics

Berikut adalah contoh definisi JSON dari Aktivitas Notebook Azure Synapse Analytics:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Properti aktivitas Notebook Azure Synapse Analytics

Tabel berikut menjelaskan properti JSON yang digunakan dalam definisi JSON:

Properti Deskripsi Wajib
nama Nama aktivitas dalam pipeline. Ya
deskripsi Teks yang menjelaskan apa yang dilakukan aktivitas. Tidak
jenis Untuk Aktivitas Notebook Azure Synapse Analytics, jenis aktivitasnya adalah SynapseNotebook. Ya
buku catatan Nama notebook yang akan dijalankan di Azure Synapse Analytics. Ya
sparkPool Pool Spark diperlukan untuk menjalankan Notebook Azure Synapse Analytics. Tidak
parameter Parameter yang diperlukan untuk menjalankan Notebook Azure Synapse Analytics. Untuk informasi selengkapnya, lihat Mengubah data dengan menjalankan buku catatan Synapse Tidak

Menetapkan sel parameter

Azure Data Factory mencari sel parameter dan menggunakan nilai sebagai default untuk parameter yang diteruskan pada waktu eksekusi. Mesin eksekusi akan menambahkan sel baru di bawah sel parameter yang ada dengan parameter input, yang akan menggantikan nilai default. Anda dapat merujuk ke Mengubah data dengan menjalankan notebook Synapse.

Baca nilai output sel pada notebook Synapse

Anda dapat membaca nilai output sel notebook dalam aktivitas ini, untuk panel ini, Anda bisa merujuk ke Mentrasformasi data dengan menjalankan notebook Synapse.

Jalankan Synapse notebook yang lain

Anda dapat mereferensi notebook lain dalam aktivitas notebook Synapse dengan memanggil %run magic atau utilitas notebook mssparkutils. Keduanya mendukung panggilan fungsi bersarang. Perbedaan utama dari kedua metode ini yang harus Anda pertimbangkan berdasarkan skenario Anda adalah:

  • %run magic menyalin semua sel dari notebook yang direferensikan ke %run cell dan membagi konteks variabel. Saat notebook1 mereferensikan notebook2 melalui %run notebook2 dan notebook2 memanggil fungsi mssparkutils.notebook.exit, eksekusi sel di notebook1 akan dihentikan. Sebaiknya gunakan %run magic saat Anda ingin "menyertakan" file notebook.
  • Utilitas notebook mssparkutils memanggil notebook yang direferensikan sebagai sebuah metode atau fungsi. Konteks variabel tidak dibagikan. Saat notebook1 mereferensikan notebook2 melalui mssparkutils.notebook.run("notebook2") dan notebook2 memanggil fungsi mssparkutils.notebook.exit, eksekusi sel di notebook1 akan dilanjutkan. Sebaiknya gunakan utilitas notebook mssparkutils saat Anda ingin "mengimpor" notebook.

Lihat Riwayat pelaksanaan aktivitas Notebook Azure Synapse Analytics

Buka Pengerjaan pipeline di bawah tab Monitor, Anda akan melihat pipeline yang telah Anda picu. Buka pipa yang berisi aktivitas notebook untuk melihat riwayat menjalankan.

Cuplikan layar input dan output untuk aktivitas Notebook.

Untuk Buka rekam jepret buku catatan, fitur ini saat ini tidak didukung.

Anda dapat melihat input atau output aktivitas notebook dengan memilih tombol input atau Output. Jika saluran pipa Anda gagal dengan kesalahan pengguna, pilih output untuk memeriksa bidang hasil guna melihat penelusuran kembali kesalahan pengguna yang terperinci.

Cuplikan layar output kesalahan pengguna untuk aktivitas Notebook.