Bagikan melalui


Menggunakan aliran data pada alur

Saat membuat alur kompleks dengan beberapa aliran data, aliran logis Anda dapat berdampak besar pada waktu dan biaya. Bagian ini mencakup dampak strategi arsitektur yang berbeda.

Mengeksekusi aliran data secara paralel

Jika Anda menjalankan beberapa aliran data secara paralel, layanan akan memutar kluster Spark terpisah untuk setiap aktivitas. Hal ini memungkinkan setiap pekerjaan diisolasi dan dijalankan secara paralel, tetapi akan menyebabkan beberapa kluster berjalan pada saat yang sama.

Jika aliran data Anda dijalankan secara paralel, kami sarankan Anda tidak mengaktifkan waktu runtime integrasi Azure ke properti langsung karena mengarah ke beberapa kumpulan hangat yang tidak digunakan.

Tip

Alih-alih menjalankan aliran data yang sama beberapa kali di a untuk setiap aktivitas, buat tahapan untuk data Anda di data lake dan gunakan jalur pencarian wildcard untuk memproses data dalam satu aliran data.

Menjalankan aliran data secara berurutan

Jika Anda menjalankan aktivitas aliran data secara berurutan, disarankan agar Anda mengatur TTL dalam konfigurasi Runtime integrasi Azure. Layanan ini menggunakan kembali sumber daya komputasi, menghasilkan waktu mulai kluster yang lebih cepat. Setiap aktivitas masih terisolasi dan menerima konteks Spark baru untuk setiap eksekusi.

Membebani aliran data tunggal

Jika Anda meletakkan semua logika Anda di dalam satu aliran data, layanan menjalankan seluruh pekerjaan pada satu instans Spark. Meskipun ini mungkin tampak seperti cara untuk mengurangi biaya, ini mencampur bersama-sama alur logis yang berbeda dan mungkin sulit untuk dipantau dan di-debug. Jika satu komponen gagal, semua bagian lain dari pekerjaan juga gagal. Disarankan untuk mengatur aliran data dengan aliran logika bisnis yang independen. Jika aliran data Anda menjadi terlalu besar, membaginya menjadi komponen terpisah akan mempermudah pemantauan dan penelusuran kesalahan. Meskipun tidak ada batasan keras pada jumlah transformasi dalam aliran data, karena terlalu banyak membuat pekerjaan menjadi kompleks.

Jalankan sink secara paralel

Perilaku default sink aliran data adalah mengeksekusi setiap sink secara berurutan, dalam urutan serial, dan menggagalkan aliran data saat terjadi kesalahan di sink. Selain itu, semua sink ditetapkan secara default ke grup yang sama kecuali Anda masuk ke properti aliran data dan menetapkan prioritas berbeda untuk sink.

Aliran data memungkinkan Anda mengelompokkan sink menjadi beberapa grup dari tab properti aliran data di desainer antarmuka pengguna. Anda dapat mengatur urutan eksekusi sink Anda dan mengelompokkan sink bersama-sama menggunakan nomor grup yang sama. Untuk membantu mengelola grup, Anda dapat meminta layanan untuk menjalankan sink di grup yang sama, untuk dijalankan secara paralel.

Pada alur, jalankan aktivitas aliran data di bawah bagian "Properti Sink" adalah opsi untuk mengaktifkan pemuatan sink paralel. Saat Anda mengaktifkan "jalankan secara paralel", Anda menginstruksikan aliran data menulis ke sink yang terhubung secara bersamaan daripada secara berurutan. Untuk memanfaatkan opsi paralel, sink harus dikelompokkan bersama dan terhubung ke aliran yang sama melalui Cabang Baru atau Pemisahan Bersyarat.

Mengakses templat database Azure Synapse dalam alur

Anda dapat menggunakan templat database Azure Synapse saat menginginkan alur. Saat membuat aliran data baru, di pengaturan sumber atau sink, pilih DB Ruang Kerja. Dropdown database mencantumkan database yang dibuat melalui templat database. Opsi Workspace DB hanya tersedia untuk aliran data baru, tidak tersedia saat Anda menggunakan alur yang ada dari galeri studio Synapse.

Lihat artikel Aliran Data lainnya yang terkait dengan performa: