Mengoptimalkan performa Azure Integration Runtime

Aliran data berjalan pada kluster Spark yang diinisialisasi saat waktu jalan. Konfigurasi untuk kluster yang digunakan ditentukan dalam integrasi runtime (IR) dari aktivitas. Ada tiga pertimbangan performa yang harus dilakukan saat menentukan runtime integrasi Anda: jenis kluster, ukuran kluster, dan waktu hidup.

Untuk informasi selengkapnya cara membuat Integration Runtime, lihat Integration Runtime.

Cara termudah untuk memulai runtime integrasi arus data adalah dengan memilih kecil, sedang, atau besar dari pilihan ukuran komputasi. Lihat pemetaan ke konfigurasi kluster untuk ukuran tersebut di bawah ini.

Ukuran kluster

Aliran data mendistribusikan pemrosesan data melalui inti yang berbeda dalam kluster Spark untuk melakukan operasi secara paralel. Kluster Spark dengan lebih banyak inti meningkatkan jumlah inti di lingkungan komputasi. Lebih banyak inti meningkatkan daya pemrosesan aliran data. Meningkatkan ukuran kluster seringkali merupakan cara mudah untuk mengurangi waktu pemrosesan.

Ukuran kluster default adalah empat inti driver dan empat inti pekerja (kecil). Saat Anda memproses lebih banyak data, kluster yang lebih besar disarankan. Di bawah ini adalah opsi ukuran yang mungkin:

Inti Pekerja	Komponen Inti Driver	Total Core	Catatan
4	4	8	Kecil
8	8	16	Menengah
16	16	32	Besar
32	16	48
64	16	80
128	16	144
256	16	272

Aliran data dihargai pada vcore-hrs yang berarti bahwa ukuran kluster dan faktor waktu eksekusi ke dalam hal ini. Saat Anda meningkatkan skala, biaya kluster Anda per menit akan meningkat, tetapi waktu Keseluruhan Anda akan berkurang.

Petunjuk / Saran

Ada langit-langit tentang berapa besar ukuran kluster yang memengaruhi performa aliran data. Tergantung pada ukuran data Anda, ada titik di mana meningkatkan ukuran kluster akan berhenti meningkatkan performa. Misalnya, Jika Anda memiliki lebih banyak inti daripada partisi data, menambahkan lebih banyak inti tidak akan membantu. Praktik terbaik adalah memulai dari yang kecil dan meningkatkan skala untuk memenuhi kebutuhan performa Anda.

Partisi acak kustom

Aliran data membagi data menjadi partisi dan mengubahnya menggunakan proses yang berbeda. Jika ukuran data dalam partisi lebih dari proses yang dapat disimpan dalam memori, proses gagal dengan kesalahan OOM (kehabisan memori). Jika aliran data berisi sejumlah besar data yang memiliki gabungan/agregasi, Anda mungkin ingin mencoba mengubah partisi acak dengan cara bertahap. Anda dapat mengaturnya dari 50 hingga 2000, untuk menghindari kesalahan OOM. Menghitung properti Kustom dalam runtime aliran data, adalah cara untuk mengontrol persyaratan komputasi Anda. Nama properti adalah partisi Acak dan jenis bilangan bulat. Penyesuaian ini hanya boleh digunakan dalam skenario yang diketahui, jika tidak, penyesuaian ini dapat menyebabkan kegagalan aliran data yang tidak perlu.

Sambil meningkatkan partisi acak, pastikan data tersebar dengan baik. Angka kasar adalah memiliki sekitar 1,5 GB data per partisi. Jika data miring, meningkatkan "Partisi acak" tidak akan membantu. Misalnya, jika Anda memiliki data 500 GB, memiliki nilai antara 400 hingga 500 harus berfungsi. Batas default untuk partisi acak adalah 200 yang berfungsi dengan baik untuk sekitar 300 GB data.

Dari portal ADF di bawah Kelola, pilih waktu proses integrasi kustom dan Anda masuk ke mode edit.
Di bawah tab waktu operasional aliran data, buka bagian Komputasi Properti Kustom.
Pilih Partisi Acak di bawah Nama properti, nilai input pilihan Anda, seperti 250, 500 dll.

Anda dapat melakukan hal yang sama dengan mengedit file JSON runtime dengan menambahkan array dengan nama properti dan nilai setelah properti yang ada seperti properti pembersihan .

Waktu hidup

Secara default, setiap aktivitas aliran data memutar kluster Spark baru berdasarkan konfigurasi Azure Integration Runtime. Waktu mulai kluster dingin membutuhkan waktu beberapa menit dan pemrosesan data tidak dapat dimulai sampai selesai. Jika alur Anda berisi beberapa aliran data berurutan , Anda dapat mengaktifkan nilai time to live (TTL). Menentukan nilai waktu hidup membuat kluster tetap hidup untuk jangka waktu tertentu setelah eksekusinya selesai. Jika pekerjaan baru mulai menggunakan IR selama waktu TTL, pekerjaan akan menggunakan kembali kluster yang ada dan waktu mulai akan berkurang secara signifikan. Setelah pekerjaan kedua selesai, kluster akan tetap aktif kembali untuk jangka waktu TTL.

Namun, jika sebagian besar aliran data Anda dijalankan secara paralel, tidak disarankan agar Anda mengaktifkan TTL untuk runtime integrasi yang Anda gunakan untuk aktivitas tersebut. Hanya satu pekerjaan yang dapat berjalan pada satu kluster pada satu waktu. Jika ada kluster yang tersedia, tetapi dua aliran data dimulai, hanya satu yang akan menggunakan kluster yang sedang aktif. Pekerjaan kedua akan memulai klusternya sendiri yang terisolasi.

Nota

Waktu hidup tidak tersedia saat menggunakan runtime integrasi penyelesaian otomatis (default).

Lihat artikel Aliran Data lainnya yang terkait dengan performa:

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-04-07

Bagikan melalui

Mengoptimalkan performa Azure Integration Runtime

Ukuran kluster

Partisi acak kustom

Waktu hidup

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: