Runtime integrasi di Azure Data Factory

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Integration Runtime (Runtime Integrasi/IR) adalah infrastruktur komputasi yang digunakan oleh alur Azure Data Factory dan Azure Synapse untuk memberikan kemampuan integrasi data berikut di berbagai lingkungan jaringan:

  • Aliran Data: Menjalankan Aliran Data di lingkungan komputasi Azure terkelola.
  • Perpindahan data: Salin data di seluruh penyimpanan data di jaringan publik atau pribadi (baik untuk jaringan pribadi lokal atau virtual). Layanan tersebut mendukung konektor bawaan, konversi format, pemetaan kolom, dan transfer data berperfoma yang dapat diskalakan.
  • Pengiriman aktivitas: Mengirim dan memantau aktivitas transformasi yang berjalan pada berbagai layanan komputasi seperti Azure Databricks, Azure HDInsight, ML Studio (Klasik), Azure SQL Database, SQL Server, dan banyak lagi.
  • Eksekusi paket SSIS: Menjalankan paket SQL Server Integration Services (SSIS) di lingkungan komputasi Azure terkelola.

Di alur Data Factory dan Synapse, aktivitas menentukan tindakan yang akan dilakukan. Layanan tertaut menentukan penyimpanan data target atau layanan komputasi. Runtime integrasi menyediakan jembatan antara aktivitas dan layanan terkait. Ini direferensikan oleh layanan atau aktivitas tertaut, dan menyediakan lingkungan komputasi tempat aktivitas dijalankan secara langsung atau dikirim. Hal ini memungkinkan aktivitas dilakukan di wilayah terdekat dengan penyimpanan data target atau layanan komputasi guna memaksimalkan performa sementara juga memungkinkan fleksibilitas untuk memenuhi persyaratan keamanan dan kepatuhan.

Waktu proses integrasi dapat dibuat di Azure Data Factory dan Azure Synapse UI melalui hub manajemen secara langsung, serta dari aktivitas, himpunan data, atau aliran data apa pun yang merujuknya.

Jenis runtime integrasi

Data Factory menawarkan tiga jenis Integration Runtime (IR), dan Anda harus memilih jenis yang paling sesuai dengan kemampuan integrasi data dan persyaratan lingkungan jaringan Anda. Tiga jenis IR adalah:

  • Azure
  • Dihosting sendiri
  • Azure-SSIS

Catatan

Alur Synapse saat ini hanya mendukung runtime integrasi yang dihost sendiri atau Azure yang didukung.

Tabel berikut ini menjelaskan kemampuan dan dukungan jaringan untuk setiap jenis runtime integrasi:

Jenis runtime integrasi Dukungan Jaringan Publik Dukungan Private Link
Azure Aliran Data
Pergerakan data
Pengiriman aktivitas
Aliran Data
Pergerakan data
Pengiriman aktivitas
Dihosting sendiri Pergerakan data
Pengiriman aktivitas
Pergerakan data
Pengiriman aktivitas
Azure-SSIS Eksekusi paket SSIS Eksekusi paket SSIS

Catatan

Kontrol keluar bervariasi menurut layanan untuk runtime integrasi Azure. Di Synapse, ruang kerja memiliki opsi untuk membatasi lalu lintas keluar dari jaringan virtual terkelola saat menggunakan runtime integrasi Azure. Di Data Factory, semua port dibuka untuk komunikasi keluar saat menggunakan runtime integrasi Azure. Runtime integrasi Azure-SSIS dapat diintegrasikan dengan vNET Anda untuk menyediakan kontrol komunikasi keluar.

Runtime integrasi Azure

Runtime integrasi Azure dapat:

  • Menjalankan Aliran Data di Azure
  • Menjalankan aktivitas salin antarpenyimpanan data cloud
  • Kirim aktivitas transformasi berikut di jaringan publik:
    • Aktivitas kustom .NET
    • Aktivitas Fungsi Azure
    • Aktivitas Databricks Notebook/ Jar/ Python
    • Aktivitas Data Lake Analytics U-SQL
    • Aktivitas Mendapatkan Metadata
    • Aktivitas HDInsight Hive
    • Aktivitas HDInsight Pig
    • Aktivitas MapReduce HDInsight
    • Aktivitas Spark HDInsight
    • Aktivitas Streaming HDInsight
    • Aktivitas pencarian
    • Aktivitas Jalankan Batch Studio Pembelajaran Mesin (klasik)
    • Aktivitas Perbarui Sumber Daya Studio Pembelajaran Mesin (klasik)
    • Aktivitas Prosedur Tersimpan
    • Aktivitas Validasi
    • Aktivitas web

Lingkungan jaringan runtime integrasi Azure

Azure Integration Runtime mendukung sambungan ke penyimpanan data dan layanan komputasi dengan titik akhir yang dapat diakses publik. Dengan mengaktifkan Virtual Network Terkelola, Integration Runtime Azure mendukung sambungan ke penyimpanan data menggunakan layanan tautan privat di lingkungan jaringan privat. Di Synapse, ruang kerja memiliki opsi untuk membatasi lalu lintas keluar dari jaringan virtual terkelola saat menggunakan runtime integrasi Azure. Di Data Factory, semua port dibuka untuk komunikasi keluar. Runtime integrasi Azure-SSIS dapat diintegrasikan dengan vNET Anda untuk menyediakan kontrol komunikasi keluar.

Runtime integrasi Azure mengomputasikan sumber daya dan penskalaan

Runtime integrasi Azure menyediakan komputasi tanpa server yang dikelola penuh di Azure. Anda tidak perlu khawatir tentang penyediaan infrastruktur, penginstalan perangkat lunak, patching, atau penskalaan kapasitas. Selain itu, Anda hanya perlu membayar untuk durasi penggunaan yang sebenarnya.

Runtime integrasi Azure menyediakan komputasi asli untuk memindahkan data antar penyimpanan data cloud dengan cara yang aman, andal, dan berperforma tinggi. Anda dapat mengatur berapa banyak unit integrasi data yang akan digunakan pada aktivitas penyalinan, dan ukuran komputasi Azure IR secara elastis ditingkatkan sesuai tanpa mengharuskan Anda untuk secara eksplisit menyesuaikan ukuran Azure Integration Runtime.

Pengiriman aktivitas adalah operasi ringan untuk merutekan aktivitas ke layanan komputasi target, sehingga tidak perlu menskalakan ukuran komputasi dalam skenario ini.

Untuk informasi tentang pembuatan dan pengonfigurasian runtime integrasi Azure, lihat Cara membuat dan mengonfigurasi Integration Runtime Azure.

Catatan

Runtime Integrasi Azure memiliki properti yang terkait dengan runtime Aliran Data, yang menentukan infrastruktur komputasi dasar yang akan digunakan untuk menjalankan aliran data.

Runtime integrasi yang di-host sendiri

IR yang dihost sendiri mampu:

  • Menjalankan aktivitas penyalinan antar penyimpanan data cloud dan penyimpanan data di jaringan privat.
  • Mengirimkan aktivitas transformasi berikut terhadap sumber daya komputasi di lokal atau Azure Virtual Network:
    • Aktivitas Fungsi Azure
    • Aktivitas kustom (berjalan di Azure Batch)
    • Aktivitas Data Lake Analytics U-SQL
    • Aktivitas Mendapatkan Metadata
    • Aktivitas HDInsight Apache Hive (BYOC-Bring Your Own Cluster)
    • Aktivitas HDInsight Pig (BYOC)
    • Aktivitas HDInsight MapReduce (BYOC)
    • Aktivitas HDInsight Spark (BYOC)
    • Aktivitas HDInsight Streaming (BYOC)
    • Aktivitas pencarian
    • Aktivitas Jalankan Batch Studio Pembelajaran Mesin (klasik)
    • Aktivitas Perbarui Sumber Daya Studio Pembelajaran Mesin (klasik)
    • Aktivitas Jalankan Alur Pembelajaran Mesin
    • Aktivitas Prosedur Tersimpan
    • Aktivitas Validasi
    • Aktivitas web

Catatan

Gunakan waktu proses integrasi yang dihosting sendiri untuk mendukung penyimpanan data yang memerlukan driver bawa sendiri, seperti SAP Hana, MySQL, dll. Untuk informasi selengkapnya, lihat penyimpanan data yang didukung.

Catatan

Java Runtime Environment (JRE) adalah ketergantungan dari Self Hosted IR. Pastikan Anda telah menginstal JRE pada host yang sama.

Lingkungan jaringan IR yang dihost sendiri

Jika Anda ingin melakukan integrasi data dengan aman di lingkungan jaringan pribadi yang tidak memiliki garis pandang langsung dari lingkungan cloud publik, Anda dapat menginstal IR yang dihost sendiri di lingkungan lokal Anda di belakang firewall, atau di dalam jaringan pribadi virtual. Runtime integrasi yang dihost sendiri hanya membuat koneksi berbasis HTTP keluar ke internet.

IR yang dihost sendiri mengomputasikan sumber daya dan penskalaan

Instal IR yang dihost sendiri di mesin lokal atau mesin virtual di dalam jaringan privat. Saat ini, IR yang dihost sendiri hanya didukung pada sistem operasi Windows.
Untuk ketersediaan dan skalabilitas tinggi, Anda dapat meluaskan skala IR yang dihost sendiri dengan mengaitkan instans logis ke sejumlah komputer lokal dalam mode aktif-aktif. Untuk informasi selengkapnya, lihat artikel tentang cara membuat dan mengonfigurasi IR yang dihost sendiri untuk detailnya.

runtime integrasi Azure-SSIS

Untuk mengangkat dan menggeser beban kerja SSIS yang ada, Anda dapat membuat runtime integrasi Azure-SSIS untuk mengeksekusi paket SSIS secara lokal.

Lingkungan jaringan runtime integrasi Azure-SSIS

IR Azure-SSIS tersedia baik dalam jaringan publik atau jaringan privat. Akses data lokal didukung dengan menggabungkan runtime integrasi Azure-SSIS ke jaringan virtual yang tersambung ke jaringan lokal Anda.

Runtime integrasi Azure-SSIS mengomputasikan sumber daya dan penskalaan

IR Azure-SSIS adalah kluster Azure VM yang dikelola penuh, yang ditujukan untuk menjalankan paket SSIS Anda. Anda dapat menggunakan Azure SQL Database atau SQL Managed Instance Anda sendiri untuk katalog proyek/paket SSIS (SSISDB). Anda dapat meningkatkan daya komputasi dengan menentukan ukuran simpul dan menskalakannya dengan menentukan jumlah simpul dalam kluster. Anda dapat mengelola biaya menjalankan Integration Runtime Azure-SSIS dengan menghentikan dan memulainya sesuai permintaan kebutuhan Anda.

Untuk informasi selengkapnya, lihat Cara membuat dan mengonfigurasi IR Azure-SSIS. Setelah dibuat, Anda dapat menyebarkan dan mengelola paket SSIS yang ada dengan sedikit atau tanpa perubahan menggunakan alat yang familier, seperti SQL Server Data Tools (SSDT) dan SQL Server Management Studio (SSMS), seperti menggunakan SSIS secara lokal.

Untuk informasi selengkapnya tentang runtime Azure-SSIS, lihat artikel berikut ini:

  • Tutorial: menyebarkan paket SSIS ke Azure. Artikel ini menyediakan instruksi langkah demi langkah untuk membuat runtime integrasi Azure-SSIS dan menggunakan Azure SQL Database untuk menghosting katalog SSIS.
  • Cara: Membuat Runtime integrasi Azure-SSIS. Artikel ini memberikan tutorial lebih jauh dan memberikan instruksi mengenai penggunaan SQL Managed Instance dan penggabungan runtime integrasi ke jaringan virtual.
  • Memantau runtime integrasi Azure-SSIS. Artikel ini menunjukkan cara mengambil informasi tentang Runtime integrasi Azure-SSIS dan menyediakan deskripsi status dalam informasi yang dikembalikan.
  • Mengelola runtime integrasi Azure-SSIS. Artikel ini menunjukkan cara menghentikan, memulai, atau menghapus runtime integrasi Azure-SSIS. Artikel ini juga menunjukkan cara meluaskan skala runtime integrasi Azure-SSIS Anda dengan menambahkan lebih banyak node ke runtime integrasi.
  • Menggabungkan Azure SSIS IR ke jaringan virtual. Artikel ini menyediakan informasi konseptual tentang penggabungan Runtime integrasi Azure-SSIS ke jaringan virtual Azure. Ini juga menyediakan langkah-langkah untuk menggunakan portal Azure guna mengonfigurasi jaringan virtual dan bergabung dengan IR Azure-SSIS untuk itu.

Lokasi runtime integrasi

Hubungan antara lokasi pabrik dan lokasi runtime integrasi

Saat membuat instans Data Factory atau Ruang Kerja Synapse, Anda perlu menentukan lokasinya. Metadata untuk instans disimpan di sini, dan pemicu alur dimulai dari sini. Metadata hanya disimpan di wilayah yang dipilih dan tidak akan disimpan di wilayah lain.

Sementara itu, alur dapat mengakses penyimpanan data dan layanan komputasi di wilayah Azure lainnya untuk memindahkan data antarpenyimpanan data atau memproses data menggunakan layanan komputasi. Perilaku ini diwujudkan melalui runtime integrasi yang tersedia secara global untuk memastikan kepatuhan data, efisiensi, dan pengurangan biaya keluar jaringan.

Lokasi IR menentukan lokasi komputasi backendnya, dan tempat pergerakan data, pengiriman aktivitas, dan eksekusi paket SSIS dilakukan. Lokasi IR bisa berbeda dengan lokasi Data Factory miliknya.

Lokasi runtime integrasi Azure

Anda dapat mengatur wilayah lokasi IR Azure, dalam hal ini eksekusi aktivitas atau pengiriman akan terjadi di wilayah yang dipilih.

Defaultnya adalah menyelesaikan Azure IR secara otomatis di jaringan publik. Dengan opsi ini:

  • Untuk aktivitas penyalinan, upaya terbaik dilakukan untuk secara otomatis mendeteksi lokasi penyimpanan data sink Anda, kemudian gunakan IR di wilayah yang sama, jika tersedia, atau yang terdekat di geografi yang sama, jika tidak; jika wilayah penyimpan data sink tidak terdeteksi, IR di wilayah instans akan digunakan sebagai gantinya.

    Misalnya, Data Factory atau Ruang Kerja Synapse Anda dibuat di US Timur,

    • Saat menyalin data ke Azure Blob di US Barat, jika blob terdeteksi berada di wilayah US Barat, aktivitas penyalinan dijalankan pada IR di US Barat; jika deteksi wilayah gagal, aktivitas penyalinan dijalankan pada IR di US Timur.
    • Saat menyalin data ke Salesforce, yang wilayahnya tidak dapat dideteksi, aktivitas penyalinan dijalankan pada IR di US Timur.

    Tip

    Jika Anda memiliki persyaratan kepatuhan data yang ketat dan perlu memastikan bahwa data tidak meninggalkan geografi tertentu, Anda dapat secara eksplisit membuat runtime integrasi Azure di wilayah tertentu dan mengarahkan Layanan Tertaut ke runtime integrasi ini menggunakan properti ConnectVia. Misalnya, jika Anda ingin menyalin data dari blob di UK South ke ruang kerja Azure Synapse di UK South dan ingin memastikan data tidak keluar dari UK, buat Azure IR di UK Selatan dan tautkan kedua Layanan Tertaut ke IR ini.

  • Untuk eksekusi aktivitas Pencarian/GetMetadata/Hapus (Aktivitas alur), pengiriman aktivitas transformasi (Aktivitas eksternal), dan operasi penulisan (menguji koneksi, menelusuri daftar folder dan daftar tabel, serta mempratinjau data), IR di wilayah yang sama dengan Data Factory atau Ruang Kerja Synapse digunakan.

  • Untuk Aliran Data, IR di wilayah Data Factory atau Synapse Workspace digunakan.

    Tip

    Praktik terbaik adalah memastikan aliran data berjalan di wilayah yang sama dengan penyimpanan data yang sesuai jika memungkinkan. Anda dapat mencapainya dengan penyelesaian otomatis untuk Azure IR (jika lokasi penyimpanan data sama dengan lokasi Data Factory atau Ruang Kerja Synapse), atau dengan membuat instans Azure IR baru di wilayah yang sama dengan penyimpanan data Anda, lalu mengeksekusi aliran data di dalamnya.

Jika Anda mengaktifkan Jaringan Virtual Terkelola dengan penyelesaian otomatis untuk Azure IR, IR di wilayah Data Factory atau Synapse Workspace digunakan.

Anda dapat memantau lokasi IR mana yang berlaku selama eksekusi aktivitas dalam tampilan pemantauan aktivitas alur di Data Factory Studio atau Synapse Studio, atau di payload pemantauan aktivitas.

Lokasi IR yang dihost sendiri

IR yang dihost sendiri seharusnya terdaftar ke Data Factory atau Synapese Workspace dan komputasi yang digunakan untuk mendukung fungsi-fungsinya disediakan oleh Anda. Oleh karena itu, tidak ada properti lokasi eksplisit untuk IR yang dihost sendiri.

Ketika digunakan untuk melakukan pergerakan data, IR yang dihost sendiri mengekstrak data dari sumbernya dan menulisnya ke tujuan.

Lokasi runtime integrasi Azure-SSIS

Catatan

Runtime integrasi Azure-SSIS saat ini tidak didukung dalam alur Synapse.

Memilih lokasi yang tepat untuk runtime integrasi Azure-SSIS Anda sangat penting untuk mencapai performa tinggi dalam alur kerja ekstraksi, transformasi, dan pemuatan (ETL) Anda.

  • Lokasi IR Azure-SSIS Anda tidak perlu sama dengan lokasi Data Factory Anda, tetapi harus sama dengan lokasi Azure SQL Database Anda sendiri atau SQL Managed Instance tempat SSISDB berada. Dengan begini, Integration Runtime Azure-SSIS Anda dapat dengan mudah mengakses SSISDB tanpa menimbulkan lalu lintas berlebih di antara lokasi yang berbeda.
  • Jika Anda tidak memiliki SQL Database atau SQL Managed Instance, tetapi Anda memiliki sumber/tujuan data lokal, Anda sebaiknya buat Azure SQL Database atau SQL Managed Instance baru di lokasi yang sama dari jaringan virtual yang tersambung ke jaringan lokal Anda. Dengan cara ini, Anda dapat membuat Azure-SSIS IR Anda menggunakan Instans Terkelola Azure SQL Database atau SQL baru, dan bergabung dengan jaringan virtual tersebut. Semuanya akan berada di lokasi yang sama, meminimalkan perpindahan data dan biaya terkait, sambil memaksimalkan performa.
  • Jika lokasi Instans Terkelola Azure SQL Database atau SQL yang ada tidak sama dengan lokasi jaringan virtual yang terhubung ke jaringan lokal Anda, buat terlebih dahulu IR Azure-SSIS Anda menggunakan Instans Terkelola Azure SQL Database atau SQL dan bergabung dengan jaringan virtual lain di lokasi yang sama. Kemudian konfigurasikan jaringan virtual ke koneksi jaringan virtual antara lokasi yang berbeda.

Diagram berikut menunjukkan pengaturan lokasi untuk Data Factory dan runtime integrasinya:

Shows Data Factory integration runtime locations.

Menentukan IR mana yang digunakan

Jika satu aktivitas terkait dengan lebih dari satu jenis runtime integrasi, ini akan mengatasi salah satunya. Runtime integrasi yang dihosting sendiri lebih diutamakan daripada runtime integrasi instans Azure Data Factory atau Ruang Kerja Synapse menggunakan jaringan virtual terkelola. Dan yang terakhir lebih diutamakan dibandingkan runtime integrasi Azure global.

Misalnya, satu aktivitas salinan digunakan untuk menyalin data dari sumber ke sink. Runtime integrasi Azure global dikaitkan dengan layanan tertaut ke sumber dan runtime integrasi Azure di jaringan virutal tertaut Azure Data Factory mengaitkan dengan layanan tertaut untuk sink, maka hasilnya adalah bahwa layanan terkait sumber dan sink menggunakan runtime integrasi Azure di jaringan virtual terkelola Azure Data Factory. Tetapi jika runtime integrasi yang dihosting sendiri mengaitkan layanan yang ditautkan untuk sumber, layanan tertaut sumber dan sink menggunakan runtime integrasi yang dihosting sendiri.

Salin aktivitas

Aktivitas Salin memerlukan layanan tertaut sumber dan sink untuk menentukan arah aliran data. Logika berikut digunakan untuk menentukan instans runtime integrasi mana yang digunakan untuk melakukan salinan:

  • Menyalin antara dua sumber data cloud: saat layanan tertaut sumber dan sink menggunakan IR Azure, IR Azure regional digunakan jika ditentukan, atau lokasi IR Azure secara otomatis ditentukan jika opsi IR penyelesaian otomatis (default) dipilih seperti yang dijelaskan di bagian Lokasi runtime integrasi.
  • Menyalin antara sumber data cloud dan sumber data di jaringan privat: jika layanan tertaut sumber atau sink menunjuk ke IR yang dihost sendiri, aktivitas salin dijalankan pada IR yang dihost sendiri tersebut.
  • Menyalin antara dua sumber data dalam jaringan privat: layanan tertaut sumber dan sink harus menunjuk ke instans runtime integrasi yang sama, lalu IR tersebut digunakan untuk mengeksekusi aktivitas salin.

Aktivitas Pencarian dan GetMetadata

Aktivitas Pencarian dan GetMetadata dijalankan pada runtime integrasi yang terkait dengan layanan tertaut penyimpanan data.

Aktivitas transformasi eksternal

Setiap aktivitas transformasi eksternal yang menggunakan mesin komputasi eksternal memiliki layanan tertaut komputasi target, yang menunjuk ke suatu runtime integrasi. Instans IR ini menentukan lokasi asal aktivitas transformasi eksternal yang dikode manual dikirim.

Aktivitas Aliran Data

Aktivitas Aliran Data dijalankan pada runtime integrasi Azure terkait. Komputasi Spark yang digunakan oleh Aliran Data ditentukan oleh properti aliran data di Azure IR Anda, dan dikelola penuh oleh layanan.

Runtime Integrasi dalam CI/CD

Runtime integrasi tidak sering berubah dan sama di semua tahap dalam CI/CD Anda. Data Factory mengharuskan Anda memiliki nama dan jenis runtime integrasi yang sama di semua tahapan CI/CD. Jika Anda ingin berbagi runtime integrasi di semua tahapan, pertimbangkan untuk menggunakan pabrik khusus hanya untuk memuat runtime integrasi bersama. Kemudian, Anda dapat menggunakan pabrik bersama ini di semua lingkungan Anda sebagai jenis runtime integrasi yang ditautkan.

Lihat artikel berikut: