Jaringan virtual terkelola Azure Data Factory

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Artikel ini akan menjelaskan jaringan virtual terkelola dan titik akhir privat terkelola di Azure Data Factory.

Mengelola jaringan virtual

Ketika Anda membuat Azure Integration Runtime (IR) dalam Azure Data Factory Managed Virtual Network (VNET), runtime integrasi akan disediakan dengan jaringan virtual terkelola. Jaringan ini menggunakan titik akhir privat untuk terhubung dengan aman ke penyimpanan data yang didukung.

Membuat runtime integrasi dalam jaringan virtual terkelola akan memastikan bahwa proses integrasi data terisolasi dan aman.

Keuntungan menggunakan jaringan virtual terkelola:

  • Dengan jaringan virtual terkelola, Anda dapat membongkar beban pengelolaan jaringan virtual ke Azure Data Factory. Anda tidak perlu membuat subnet untuk runtime integrasi yang akhirnya dapat menggunakan banyak IP privat dari jaringan virtual Anda dan akan memerlukan perencanaan infrastruktur jaringan sebelumnya.
  • Pengetahuan jaringan Azure yang mendalam tidak diperlukan untuk melakukan integrasi data secara aman. Sebaliknya, memulai dengan ETL yang aman jauh disederhanakan untuk teknisi data.
  • Jaringan virtual terkelola bersama dengan titik akhir privat terkelola akan melindungi dari penyelundupan data.

Saat ini, jaringan virtual terkelola hanya didukung di wilayah yang sama dengan wilayah Azure Data Factory.

Catatan

Runtime integrasi yang ada tidak dapat beralih ke runtime integrasi di jaringan virtual yang dikelola Azure Data Factory dan sebaliknya.

Diagram that shows Data Factory managed virtual network architecture.

Ada dua cara untuk mengaktifkan jaringan virtual terkelola di pabrik data Anda:

  1. Aktifkan jaringan virtual terkelola selama pembuatan pabrik data.

Screenshot of enabling managed virtual network during the creation of data factory.

  1. Aktifkan jaringan virtual terkelola pada runtime integrasi Azure Anda.

Screenshot of enabling managed virtual network in integration runtime

Titik akhir privat terkelola

Titik akhir privat terkelola adalah titik akhir yang dibuat di jaringan virtual terkelola Azure Data Factory yang membuat tautan privat ke sumber daya Azure. Azure Data Factory mengelola titik akhir privat ini atas nama Anda.

Azure Data Factory mendukung tautan privat. Anda dapat menggunakan tautan privat Azure untuk mengakses layanan platform as a service (PaaS) Azure seperti Azure Storage, Azure Cosmos DB, dan Azure Synapse Analytics.

Saat Anda menggunakan link privat, lalu lintas antara penyimpanan data Anda dan jaringan virtual terkelola melintasi sepenuhnya melalui jaringan backbone Microsoft. Tautan privat melindungi dari risiko penyeludupan data. Anda membuat tautan privat ke sumber daya dengan membuat titik akhir privat.

Titik akhir privat menggunakan alamat IP privat di jaringan virtual terkelola untuk membawa layanan ke dalamnya secara efektif. Titik akhir privat dipetakan ke sumber daya tertentu di Azure dan bukan seluruh layanan. Pelanggan dapat membatasi konektivitas ke sumber daya tertentu yang disetujui oleh organisasi mereka. Untuk informasi selengkapnya, lihat Link privat dan titik akhir privat.

Catatan

Pastikan penyedia sumber Microsoft.Network terdaftar ke langganan Anda.

  1. Pastikan Anda mengaktifkan jaringan virtual terkelola di pabrik data Anda.
  2. Membuat titik akhir privat terkelola baru di Kelola Hub.

Screenshot that shows new managed private endpoints.

  1. Koneksi titik akhir privat dibuat dalam status Tertunda saat Anda membuat titik akhir privat terkelola di Azure Data Factory. Alur kerja persetujuan dimulai. Pemilik sumber daya tautan privat bertanggung jawab untuk menyetujui koneksi.

Screenshot that shows the option Manage approvals in Azure portal.

  1. Jika pemilik menyetujui koneksi, tautan privat dibuat. Sebaliknya, tautan privat tidak akan dibuat. Dalam kedua kasus, titik akhir privat terkelola diperbarui dengan status koneksi.

Screenshot that shows approving a managed private endpoint.

Hanya titik akhir privat terkelola dalam status disetujui yang dapat mengirim lalu lintas ke sumber daya tautan privat khusus.

Catatan

DNS kustom tidak didukung di jaringan virtual terkelola.

Penulisan interaktif

Kemampuan penulisan interaktif digunakan untuk fungsionalitas seperti koneksi pengujian, menelusuri daftar folder dan daftar tabel, mendapatkan skema, serta mempratinjau data. Anda dapat mengaktifkan penulisan interaktif saat membuat atau mengedit Azure Integration Runtime yang berada pada jaringan virtual yang dikelola Azure Data Factory. Layanan backend akan mengalokasikan komputasi untuk fungsionalitas penulisan interaktif. Sebaliknya, komputasi akan dialokasikan setiap kali operasi interaktif dilakukan yang akan memakan waktu lebih lama. Waktu aktif (TTL) untuk penulisan interaktif adalah 60 menit secara default, yang berarti secara otomatis akan dinonaktifkan setelah 60 menit dari operasi penulisan interaktif terakhir. Anda dapat mengubah nilai TTL sesuai dengan kebutuhan Anda yang sebenarnya.

Screenshot that shows interactive authoring.

Waktu untuk aktif

Salin aktivitas

Secara default, setiap aktivitas penyalinan menghasilkan komputasi baru berdasarkan konfigurasi dalam aktivitas penyalinan. Dengan mengaktifkan jaringan virtual terkelola, waktu mulai komputasi dingin memerlukan beberapa menit dan perpindahan data tidak dapat dimulai hingga itu selesai. Jika alur Anda berisi beberapa aktivitas penyalinan berurutan atau Anda memiliki banyak aktivitas penyalinan dalam perulangan foreach dan tidak dapat menjalankan semuanya secara paralel, Anda dapat mengaktifkan nilai waktu aktif (TTL) dalam konfigurasi runtime integrasi Azure. Menentukan nilai waktu aktif dan nomor DIU yang diperlukan untuk aktivitas penyalinan membuat penghitungan yang sesuai tetap hidup untuk jangka waktu tertentu setelah eksekusinya selesai. Jika aktivitas penyalinan baru dimulai selama waktu TTL, tindakan tersebut akan menggunakan kembali komputasi yang ada dan waktu mulai akan sangat berkurang. Setelah aktivitas penyalinan kedua selesai, penghitungan akan tetap hidup untuk waktu TTL. Anda memiliki fleksibilitas untuk memilih dari ukuran komputasi yang telah ditentukan sebelumnya, mulai dari kecil hingga menengah hingga besar. Atau, Anda juga memiliki opsi untuk menyesuaikan ukuran komputasi berdasarkan kebutuhan spesifik dan kebutuhan real time Anda.

Catatan

Mengonfigurasi ulang nomor DIU tidak akan memengaruhi eksekusi aktivitas penyalinan saat ini.

Catatan

Ukuran unit integrasi data (DIU) 2 DIU tidak didukung untuk aktivitas Salin di jaringan virtual terkelola.

DIU yang Anda pilih di TTL akan digunakan untuk menjalankan semua aktivitas penyalinan, ukuran DIU tidak akan diskalakan secara otomatis sesuai dengan kebutuhan aktual. Jadi, Anda harus memilih DIU yang cukup.

Peringatan

Memilih beberapa DIU untuk menjalankan banyak aktivitas akan menyebabkan banyak aktivitas tertunda dalam antrean, yang akan secara serius memengaruhi performa keseluruhan.

Alur dan aktivitas eksternal

Mirip dengan salinan, Anda memiliki kemampuan untuk menyesuaikan ukuran komputasi dan durasi TTL sesuai dengan kebutuhan spesifik Anda. Namun, tidak seperti salinan, harap dicatat bahwa alur dan TTL eksternal tidak dapat dinonaktifkan.

Catatan

Waktu aktif (TTL) hanya berlaku untuk jaringan virtual terkelola.

Screenshot that shows the TTL configuration.

Anda dapat menggunakan tabel di bawah ini sebagai referensi untuk menentukan jumlah simpul yang optimal untuk mengeksekusi Alur dan aktivitas eksternal.

Jenis Aktivitas Kapasitas
Aktivitas alur Sekitar 50 per simpul
Aktivitas skrip dan aktivitas Pencarian dengan SQL alwaysEncrypted cenderung menggunakan lebih banyak sumber daya dibandingkan dengan aktivitas alur lainnya, dengan jumlah yang disarankan sekitar 10 per simpul
Aktivitas eksternal Sekitar 800 per simpul

Perbandingan TTL yang berbeda

Tabel berikut ini mencantumkan perbedaan antara berbagai jenis TTL:

Fitur Penulisan interaktif Salin skala komputasi Alur & Skala komputasi eksternal
Kapan harus diterapkan Segera setelah pengaktifan Eksekusi aktivitas pertama Eksekusi aktivitas pertama
Dapat dinonaktifkan Y Y N
Komputasi yang dipesan dapat dikonfigurasi N Y Y

Catatan

Anda tidak dapat mengaktifkan TTL dalam runtime integrasi Azure penyelesaian otomatis default. Anda dapat membuat runtime integrasi Azure baru untuk runtime integrasi tersebut.

Catatan

Saat TTL skala komputasi Salin/Alur/Eksternal diaktifkan, penagihan ditentukan oleh sumber daya komputasi yang dipesan. Akibatnya, output aktivitas tidak menyertakan billingReference, karena ini secara eksklusif relevan dalam skenario non-TTL.

Membuat jaringan virtual terkelola melalui Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Catatan

Anda bisa mendapatkan groupId dari sumber data lain dari sumber daya link privat.

Sambungan Keluar

Sumber serta layanan data yang didukung

Layanan-layanan berikut dukungan titik akhir privat native. Data ini dapat dihubungkan melalui tautan privat dari jaringan virtual yang dikelola Data Factory:

  • Azure Databricks
  • Azure Functions (Paket premium)
  • Azure Key Vault
  • Pembelajaran Mesin Azure
  • Tautan Privat Azure
  • Microsoft Purview

Untuk dukungan sumber data, Anda dapat merujuk ke gambaran umum konektor. Anda dapat mengakses semua sumber data yang didukung oleh Data Factory melalui jaringan publik.

Sumber data lokal

Untuk mempelajari cara mengakses sumber data lokal dari jaringan virtual terkelola menggunakan titik akhir privat, silakan lihat Mengakses SQL Server lokal dari jaringan virtual yang dikelola Azure Data Factory menggunakan titik akhir privat.

Komunikasi keluar melalui titik akhir publik dari jaringan virtual terkelola Azure Data Factory

Semua port dibuka untuk komunikasi keluar.

Batasan dan masalah yang diketahui

Pembuatan layanan tertaut dari Azure Key Vault

Saat Anda membuat layanan tertaut untuk Azure Key Vault, tidak terdapat referensi runtime integrasi Azure. Jadi Anda tidak dapat membuat titik akhir privat selama pembuatan layanan tertaut Azure Key Vault. Tetapi saat Anda membuat layanan tertaut untuk penyimpanan data yang mereferensikan Azure Key Vault, dan layanan tertaut ini mereferensikan runtime integrasi dengan jaringan virtual terkelola, Anda dapat membuat titik akhir privat untuk layanan tertaut Azure Key Vault selama pembuatan.

  • Pengujian koneksi: operasi untuk layanan tertaut Azure Key Vault hanya memvalidasi format URL, tetapi tidak melakukan operasi jaringan apa pun.
  • Menggunakan titik akhir privat: Kolom ini selalu diperlihatkan kosong meskipun Anda membuat titik akhir privat untuk Azure Key Vault.

Pembuatan layanan tertaut dari Azure HDInsight

Kolom Menggunakan titik akhir privat selalu ditampilkan kosong meskipun Anda membuat titik akhir privat untuk HDInsight menggunakan layanan tautan privat dan penyeimbang beban dengan penerusan porta.

Screenshot that shows a private endpoint for Key Vault.

Nama Domain yang Sepenuhnya Memenuhi Syarat (FQDN) dari Azure HDInsight

Jika Anda membuat layanan tautan privat kustom, FQDN harus berakhir dengan azurehdinsight.net tanpa privatelink terkemuka dalam nama domain saat Anda membuat titik akhir privat. Jika Anda menggunakan privatelink dalam nama domain, pastikan itu valid dan Anda dapat mengatasinya.

Batasan akses di jaringan virtual terkelola dengan titik akhir privat

Anda tidak dapat mengakses setiap sumber daya PaaS ketika kedua belah pihak diekspos ke Private Link dan titik akhir privat. Masalah ini adalah batasan yang diketahui dari Private Link dan titik akhir privat.

Misalnya, Anda memiliki titik akhir privat terkelola untuk akun penyimpanan A. Anda juga dapat mengakses akun penyimpanan B melalui jaringan publik di jaringan virtual terkelola yang sama. Namun, ketika akun penyimpanan B memiliki koneksi titik akhir privat dari jaringan virtual terkelola lainnya atau jaringan virtual pelanggan, maka Anda tidak dapat mengakses akun penyimpanan B di jaringan virtual terkelola Anda melalui jaringan publik.

Lihat tutorial berikut: