Pengacak data untuk aplikasi SAP menggunakan Delphix dan Azure Data Factory

Azure Data Factory
Azure Synapse Analytics

Di banyak perusahaan, SAP adalah aplikasi paling penting misi dan sistem rekaman utama untuk berbagai data. Perusahaan harus dapat memanfaatkan data yang berwawasan untuk analitik dari SAP, dan aplikasi hulu/hilirnya dengan cara yang hemat biaya, dapat diskalakan, dan fleksibel. Pada saat yang sama, perusahaan juga perlu memastikan data ini sesuai dengan segudang peraturan.

Sistem

Arsitektur berikut menguraikan penggunaan Delphix CC dalam alur Azure Data Factory/Azure Synapse untuk mengidentifikasi dan menutupi data sensitif.

Diagram memperlihatkan arsitektur lingkungan yang diperlukan untuk menggunakan Delphix untuk mengacak data SAP untuk digunakan dengan Azure Data Factory.

Unduh file Visio arsitektur ini.

Apa itu Azure Data Factory?

Azure Data Factory adalah layanan integrasi data tanpa server yang dikelola sepenuhnya. Ini memberikan pengalaman visual yang kaya untuk mengintegrasikan sumber data dengan lebih dari 100 konektor bawaan dan bebas pemeliharaan tanpa biaya tambahan. Dengan mudah membuat proses ekstrak, transformasi, pemuatan (ETL) dan ekstrak, muat, transformasi (ELT) tanpa kode dalam lingkungan intuitif atau tulis kode Anda sendiri. Kemudian, kirimkan data terintegrasi ke Azure Synapse Analytics untuk membuka kekuatan data Anda melalui wawasan bisnis.

Apa itu Delphix Continuous Compliance (Delphix CC)?

Delphix Continuous Compliance (Delphix CC) mengidentifikasi informasi sensitif dan mengotomatiskan masking/scrambling data. Ini menawarkan cara yang cepat, otomatis, dan digerakkan API untuk menyediakan data yang aman di mana diperlukan dalam organisasi.

Bagaimana Delphix CC dan Azure Data Factory memecahkan data yang sesuai otomatis?

Pergerakan data yang aman adalah tantangan bagi semua organisasi. Delphix memudahkan pencapaian kepatuhan data yang konsisten sementara Azure Data Factory memungkinkan menyambungkan dan memindahkan data dengan mulus. Bersama-sama Delphix CC dan Azure Data Factory menggabungkan penawaran kepatuhan dan otomatisasi terdepan di industri untuk memudahkan pengiriman data sesuai permintaan dan sesuai permintaan bagi semua orang.

Dengan menggunakan konektor sumber data yang ditawarkan oleh Azure Data Factory, kami telah membuat alur ETL yang memungkinkan pengguna akhir mengotomatiskan langkah-langkah berikut:

  1. Membaca data dari sistem rekaman (SAP Hana) dan menulisnya ke file CSV di Azure Storage.
  2. Jalankan pekerjaan masking Delphix terhadap file untuk mengganti elemen data sensitif dengan nilai serupa tetapi fiktif.
  3. Muat data yang sesuai ke Azure Synapse Analytics.

Aliran data

Data mengalir melalui skenario sebagai berikut:

  1. Azure Data Factory mengekstrak data dari datastore sumber (SAP HANA) ke kontainer di Azure File Storage menggunakan aktivitas Salin Data. Kontainer ini disebut sebagai Kontainer Data Sumber dan data dalam format CSV. Untuk menggunakan konektor SAP Hana, Microsoft merekomendasikan penggunaan Runtime Integrasi yang Dihost sendiri. Lihat panduan cara ini untuk informasi selengkapnya.
  2. Pabrik data memulai iterator (aktivitas ForEach) yang mengulangi daftar pekerjaan masking yang dikonfigurasi dalam Delphix. Pekerjaan masking ini akan dikonfigurasi sebelumnya dan akan menutupi data sensitif yang ada di Kontainer Data Sumber.
  3. Untuk setiap pekerjaan dalam daftar, aktivitas Mulai Masking mengautentikasi dan memulai pekerjaan masking dengan memanggil titik akhir REST API di Delphix CC Engine.
  4. Delphix CC Engine membaca data dari Kontainer Data Sumber dan berjalan melalui proses masking.
  5. Dalam proses masking ini, Delphix menutupi data dalam memori dan menulis data bertopeng yang dihasilkan kembali ke kontainer Azure File Storage target (disebut sebagai Kontainer Data Target).
  6. Pabrik data sekarang memulai iterator kedua (aktivitas ForEach) yang memantau eksekusi.
  7. Untuk setiap eksekusi (Pekerjaan Masking) yang dimulai, aktivitas Periksa Status memeriksa hasil masking.
  8. Setelah semua pekerjaan masking berhasil diselesaikan, pabrik data memuat data yang ditutupi dari Kontainer Data Target ke Azure Synapse Analytics.

Komponen

  • Azure Data Factory adalah layanan ekstrak, transformasi, pemuatan (ETL) cloud Azure untuk integrasi data tanpa server dan transformasi data peluasan skala. Ini menawarkan UI bebas kode untuk penulisan intuitif serta pemantauan dan manajemen panel tunggal.
  • Azure Storage menyimpan data yang diekstrak dari penyimpanan data sourandce dan data bertopeng yang akan dimuat ke penyimpanan data tujuan.
  • Grup Sumber Daya adalah kontainer logis untuk sumber daya Azure. Grup sumber daya mengatur semua yang terkait dengan proyek ini di konsol Azure.
  • Runtime Integrasi yang Dihost sendiri harus disiapkan dan driver ODBC SAP Hana harus diinstal untuk ekstraksi data dari SAP Hana.
  • Opsional: Azure Virtual Network menyediakan kemampuan jaringan privat untuk sumber daya Azure yang bukan bagian dari ruang kerja Azure Synapse. Hal ini memungkinkan Anda untuk mengelola akses, keamanan, dan perutean antar sumber daya.

Kemungkinan kasus penggunaan

  • Memindahkan data yang sesuai secara otomatis dari aplikasi SAP (arsitektur yang dijelaskan di sini khusus untuk aplikasi SAP dengan backend HANA) ke Microsoft Synapse untuk mendapatkan analis data yang mereka butuhkan untuk pengujian dengan cara yang sensitif terhadap biaya, cepat, dan dapat diskalakan. Lakukan jutaan operasi pengacak dalam hitungan menit.
  • Secara otomatis menempatkan kerangka kerja Algoritma Delphix yang lengkap untuk bekerja memenuhi persyaratan peraturan untuk data Anda (misalnya, untuk mematuhi Peraturan Perlindungan Data Umum (GDPR), CCPA, LGPD, dan HIPAA).
  • Menutupi/Mengacak data secara konsisten di seluruh sumber data, sambil mempertahankan integritas referensial untuk pengujian aplikasi terintegrasi. Misalnya, nama George harus selalu diselubungi ke Elliot atau nomor jaminan sosial (SSN) tertentu harus selalu diselubungi ke SSN fiktif yang sama, apakah George dan SSN-nya muncul di SAP, Oracle, Salesforce, atau aplikasi lainnya.
  • Menutupi/Mengacak data dengan cara yang tidak meningkatkan siklus pelatihan, dan itu tidak memengaruhi akurasi model atau prediksi.
  • Konfigurasikan solusi yang berfungsi untuk lokal dan cloud, cukup dengan mengubah konektor sumber. Misalnya, seseorang mungkin menarik data dari aplikasi SAP lokal, mereplikasi data tersebut ke cloud, dan memastikan kepatuhan sebelum dimuat ke Synapse.

Manfaat utama

  • Masking/scrambling yang realistis dan deterministik yang mempertahankan integritas referensial
  • Identifikasi preemptive data sensitif untuk tabel dan modul SAP yang paling umum
  • Eksekusi cloud asli
  • Penyebaran berbasis templat
  • Dapat diskalakan
  • Alternatif berbilang rendah untuk HANA HW dalam memori yang mahal

Memulai

  1. Sebarkan Delphix CC Engine di Azure.
  2. Di Azure Data Factory, sebarkan Masking Data dengan Delphix dan Penemuan Data Sensitif dengan templat Delphix. Catatan: Templat ini berfungsi untuk alur Azure Synapse Analytics dan alur Azure Data Factory.
  3. Siapkan Runtime Integrasi yang Dihost sendiri sebagaimana dirinci dalam panduan cara mengekstrak data dari SAP Hana.
  4. Dalam komponen Salin Data, konfigurasikan sumber yang diinginkan sebagai SAP Hana dalam langkah Ekstrak dan Synapse sebagai target yang diinginkan dalam langkah Muat. Dalam komponen Aktivitas Web, masukkan alamat IP aplikasi Delphix /nama host dan kredensial untuk mengautentikasi dengan API Delphix CC.
  5. Jalankan Penemuan Data Sensitif dengan templat Delphix Azure Data Factory untuk penyiapan awal, dan kapan saja Anda ingin mengidentifikasi data sensitif terlebih dahulu (misalnya, jika ada perubahan skema). Templat ini menyediakan Delphix CC dengan konfigurasi awal yang diperlukan untuk memindai kolom yang mungkin berisi data sensitif. Anda juga dapat menggunakan ini bersama dengan Delphix Compliance Accelerator untuk SAP, bidang sensitif yang telah diidentifikasi sebelumnya dan algoritma masking untuk melindungi data dalam tabel SAP inti, misalnya, modul Keuangan, SDM, dan Logistik. Hubungi Delphix jika Anda tertarik dengan opsi ini.
  6. Buat Ruleset yang menunjukkan pengumpulan data yang ingin Anda profilkan. Jalankan Pekerjaan Pembuatan Profil di UI Delphix untuk mengidentifikasi dan mengklasifikasikan bidang sensitif untuk Ruleset tersebut dan menetapkan algoritma masking yang sesuai.
  7. Jalankan templat. Setelah selesai, Anda akan menutupi data (sebagaimana diidentifikasi sebelumnya untuk tabel/modul teratas oleh Delphix Compliance Accelerator untuk SAP) di Azure Synapse Analytics.

Pertimbangan

Pertimbangan ini mengimplementasikan pilar Azure Well-Architected Framework, yang merupakan serangkaian tenet panduan yang dapat digunakan untuk meningkatkan kualitas beban kerja. Untuk informasi selengkapnya, lihat Microsoft Azure Well-Architected Framework.

Keamanan

Keamanan memberikan jaminan terhadap serangan yang disukai dan penyalahgunaan data dan sistem berharga Anda. Untuk informasi selengkapnya, lihat Gambaran Umum pilar keamanan.

Delphix CC secara tidak dapat diubah menutupi nilai data dengan data realistis yang tetap berfungsi penuh, memungkinkan pengembangan kode berkualitas lebih tinggi. Di antara sekumpulan algoritma yang kaya yang tersedia untuk mengubah data ke spesifikasi pengguna, Delphix CC memiliki algoritma yang dipatenkan yang sengaja menghasilkan tabrakan data, dan pada saat yang sama memungkinkan salting data dengan nilai tertentu yang diperlukan untuk potensi rutinitas validasi yang berjalan pada himpunan data yang diselubungi. Dari perspektif Zero Trust, operator tidak memerlukan akses ke data aktual untuk menutupinya. Selain itu, seluruh pengiriman data yang ditutupi dari titik A ke titik B dapat diotomatisasi melalui API.

Pengoptimalan biaya

Optimalisasi biaya adalah tentang mencari cara untuk mengurangi pengeluaran yang tidak perlu dan meningkatkan efisiensi operasional. Untuk informasi selengkapnya, lihat Gambaran umum pilar pengoptimalan biaya.

Dengan menyesuaikan nilai pada kalkulator harga Azure, Anda dapat melihat bagaimana persyaratan khusus Anda memengaruhi biaya.

Azure Synapse: Anda dapat menskalakan tingkat komputasi dan penyimpanan secara independen. Sumber daya komputasi ditagih per jam, dan Anda dapat menskalakan atau menjeda sumber daya ini sesuai permintaan. Sumber daya penyimpanan ditagih per terabyte, sehingga biaya Anda akan meningkat saat Anda menyerap lebih banyak data.

Data Factory: Biaya didasarkan pada jumlah operasi baca/tulis, operasi pemantauan, dan aktivitas orkestrasi yang dilakukan dalam beban kerja. Biaya Data Factory Anda akan meningkat dengan setiap aliran data tambahan dan jumlah data yang diproses oleh masing-masing.

Delphix CC: Tidak seperti produk kepatuhan data lainnya di pasar, masking tidak memerlukan salinan fisik lengkap lingkungan yang ditutupi. Redundansi lingkungan bisa mahal karena waktu untuk mengatur dan memelihara infrastruktur, biaya infrastruktur itu sendiri, dan waktu yang dihabiskan berulang kali memuat data fisik ke lingkungan masking.

Efisiensi kinerja

Efisiensi performa adalah kemampuan beban kerja Anda untuk diskalakan agar memenuhi permintaan yang diberikan oleh pengguna dengan cara yang efisien. Untuk informasi selengkapnya, lihat Gambaran umum pilar efisiensi performa.

Delphix CC dapat diskalakan secara horizontal dan vertikal. Transformasi terjadi dalam memori dan dapat diparalelkan. Produk ini berjalan baik sebagai layanan maupun sebagai appliance multi-node yang memungkinkan arsitektur solusi dari semua ukuran tergantung pada aplikasi. Delphix adalah pemimpin pasar dalam memberikan himpunan data bertopeng besar.

Aliran masking dapat ditingkatkan untuk melibatkan beberapa inti CPU dalam pekerjaan. (Rekomendasi konfigurasi, dan cara mengubah alokasi memori dapat ditemukan di sini: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/)

Untuk performa optimal untuk himpunan data berukuran lebih dari 1 TB, Delphix Hyperscale Masking memecah himpunan data besar dan kompleks menjadi berbagai modul dan kemudian mengatur pekerjaan masking di beberapa Mesin Kepatuhan Berkelanjutan.

Kontributor

Artikel ini ditulis oleh kontributor berikut.

Penulis utama:

Kontributor lain:

Langkah berikutnya