Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Aliran data berjalan pada kluster Spark yang diinisialisasi saat waktu jalan. Konfigurasi untuk kluster yang digunakan ditentukan dalam integrasi runtime (IR) dari aktivitas. Ada tiga pertimbangan performa yang harus dilakukan saat menentukan runtime integrasi Anda: jenis kluster, ukuran kluster, dan waktu hidup.
Untuk informasi selengkapnya cara membuat Integration Runtime, lihat Integration Runtime.
Cara termudah untuk memulai runtime integrasi arus data adalah dengan memilih kecil, sedang, atau besar dari pilihan ukuran komputasi. Lihat pemetaan ke konfigurasi kluster untuk ukuran tersebut di bawah ini.
Ukuran kluster
Aliran data mendistribusikan pemrosesan data melalui inti yang berbeda dalam kluster Spark untuk melakukan operasi secara paralel. Kluster Spark dengan lebih banyak inti meningkatkan jumlah inti di lingkungan komputasi. Lebih banyak inti meningkatkan daya pemrosesan aliran data. Meningkatkan ukuran kluster seringkali merupakan cara mudah untuk mengurangi waktu pemrosesan.
Ukuran kluster default adalah empat inti driver dan empat inti pekerja (kecil). Saat Anda memproses lebih banyak data, kluster yang lebih besar disarankan. Di bawah ini adalah opsi ukuran yang mungkin:
| Inti Pekerja | Komponen Inti Driver | Total Core | Catatan |
|---|---|---|---|
| 4 | 4 | 8 | Kecil |
| 8 | 8 | 16 | Menengah |
| 16 | 16 | 32 | Besar |
| 32 | 16 | 48 | |
| 64 | 16 | 80 | |
| 128 | 16 | 144 | |
| 256 | 16 | 272 |
Aliran data dihargai pada vcore-hrs yang berarti bahwa ukuran kluster dan faktor waktu eksekusi ke dalam hal ini. Saat Anda meningkatkan skala, biaya kluster Anda per menit akan meningkat, tetapi waktu Keseluruhan Anda akan berkurang.
Petunjuk / Saran
Ada langit-langit tentang berapa besar ukuran kluster yang memengaruhi performa aliran data. Tergantung pada ukuran data Anda, ada titik di mana meningkatkan ukuran kluster akan berhenti meningkatkan performa. Misalnya, Jika Anda memiliki lebih banyak inti daripada partisi data, menambahkan lebih banyak inti tidak akan membantu. Praktik terbaik adalah memulai dari yang kecil dan meningkatkan skala untuk memenuhi kebutuhan performa Anda.
Partisi acak kustom
Aliran data membagi data menjadi partisi dan mengubahnya menggunakan proses yang berbeda. Jika ukuran data dalam partisi lebih dari proses yang dapat disimpan dalam memori, proses gagal dengan kesalahan OOM (kehabisan memori). Jika aliran data berisi sejumlah besar data yang memiliki gabungan/agregasi, Anda mungkin ingin mencoba mengubah partisi acak dengan cara bertahap. Anda dapat mengaturnya dari 50 hingga 2000, untuk menghindari kesalahan OOM. Menghitung properti Kustom dalam runtime aliran data, adalah cara untuk mengontrol persyaratan komputasi Anda. Nama properti adalah partisi Acak dan jenis bilangan bulat. Penyesuaian ini hanya boleh digunakan dalam skenario yang diketahui, jika tidak, penyesuaian ini dapat menyebabkan kegagalan aliran data yang tidak perlu.
Sambil meningkatkan partisi acak, pastikan data tersebar dengan baik. Angka kasar adalah memiliki sekitar 1,5 GB data per partisi. Jika data miring, meningkatkan "Partisi acak" tidak akan membantu. Misalnya, jika Anda memiliki data 500 GB, memiliki nilai antara 400 hingga 500 harus berfungsi. Batas default untuk partisi acak adalah 200 yang berfungsi dengan baik untuk sekitar 300 GB data.
- Dari portal ADF di bawah Kelola, pilih waktu proses integrasi kustom dan Anda masuk ke mode edit.
- Di bawah tab waktu operasional aliran data, buka bagian Komputasi Properti Kustom.
- Pilih Partisi Acak di bawah Nama properti, nilai input pilihan Anda, seperti 250, 500 dll.
Anda dapat melakukan hal yang sama dengan mengedit file JSON runtime dengan menambahkan array dengan nama properti dan nilai setelah properti yang ada seperti properti pembersihan .
Waktu hidup
Secara default, setiap aktivitas aliran data memutar kluster Spark baru berdasarkan konfigurasi Azure Integration Runtime. Waktu mulai kluster dingin membutuhkan waktu beberapa menit dan pemrosesan data tidak dapat dimulai sampai selesai. Jika alur Anda berisi beberapa aliran data berurutan , Anda dapat mengaktifkan nilai time to live (TTL). Menentukan nilai waktu hidup membuat kluster tetap hidup untuk jangka waktu tertentu setelah eksekusinya selesai. Jika pekerjaan baru mulai menggunakan IR selama waktu TTL, pekerjaan akan menggunakan kembali kluster yang ada dan waktu mulai akan berkurang secara signifikan. Setelah pekerjaan kedua selesai, kluster akan tetap aktif kembali untuk jangka waktu TTL.
Namun, jika sebagian besar aliran data Anda dijalankan secara paralel, tidak disarankan agar Anda mengaktifkan TTL untuk runtime integrasi yang Anda gunakan untuk aktivitas tersebut. Hanya satu pekerjaan yang dapat berjalan pada satu kluster pada satu waktu. Jika ada kluster yang tersedia, tetapi dua aliran data dimulai, hanya satu yang akan menggunakan kluster yang sedang aktif. Pekerjaan kedua akan memulai klusternya sendiri yang terisolasi.
Nota
Waktu hidup tidak tersedia saat menggunakan runtime integrasi penyelesaian otomatis (default).
Konten terkait
Lihat artikel Aliran Data lainnya yang terkait dengan performa: