Proses penyerapan dengan analitik skala cloud di Azure

Azure menyediakan beberapa layanan untuk menyerap dan merilis data ke platform asli dan pihak ketiga. Layanan yang berbeda dapat digunakan, tergantung pada volume, kecepatan, variasi, dan arah. Beberapa layanan tersebut adalah:

  • Azure Data Factory adalah layanan yang dibangun untuk semua kebutuhan dan tingkat keterampilan aplikasi data (selaras sumber). Tulis kode Anda sendiri atau bangun, ekstrak, muat, dan ubah proses dalam lingkungan visual intuitif dan tanpa kode. Dengan lebih dari 90 konektor bawaan dan bebas perawatan, integrasikan sumber data secara visual tanpa biaya tambahan. Teknisi dapat menggunakan titik akhir privat dan menghubungkan layanan untuk terhubung dengan aman ke sumber daya platform Azure sebagai layanan (PaaS) tanpa menggunakan titik akhir publik sumber daya PaaS. Teknisi dapat menggunakan runtime integrasi untuk memperluas alur ke lingkungan pihak ketiga seperti sumber data lokal dan cloud lainnya.

Beberapa konektor ini mendukung digunakan sebagai sumber (baca) atau sebagai sink (tulis). Layanan asli Azure, Oracle, SAP, dan lainnya dapat digunakan sebagai sumber atau sink, tetapi tidak semua konektor mendukungnya. Dalam kasus ini, Anda dapat menggunakan konektor umum seperti Open Database Connectivity (ODBC), sistem file, atau konektor SSH File Transfer Protocol (SFTP).

  • Azure Databricks layanan analitik berbasis Apache Spark yang cepat, mudah, dan kolaboratif. Untuk alur data besar, Anda dapat menyerap data (mentah atau terstruktur) ke Azure melalui Data Factory dalam batch atau dialirkan hampir secara real time dengan Apache Kafka, Azure Event Hubs, atau IoT Hub. Data ini disimpan di data lake untuk penyimpanan jangka panjang dan bertahan lama di Azure Data Lake Storage. Azure Databricks dapat membaca data dari beberapa sumber data sebagai bagian dari alur kerja.

  • Microsoft Power Platform menyediakan konektor untuk ratusan layanan yang dapat didorong oleh acara, jadwal, atau desakan. Microsoft Power Automate dapat bertindak berdasarkan peristiwa dan memicu alur kerja yang dioptimalkan untuk catatan tunggal atau volume data kecil.

Peralatan asli dan pihak ketiga eksklusif menyediakan kemampuan khusus untuk berintegrasi dengan sistem khusus dan replikasi hampir real time.

  • Azure Data Share mendukung organisasi untuk berbagi data secara aman dengan beberapa pelanggan dan mitra. Setelah Anda membuat akun berbagi data dan menambahkan produk data, pelanggan dan mitra dapat diundang ke berbagi data. Penyedia data selalu memegang kendali atas data yang telah mereka bagikan. Azure Data Share memudahkan untuk mengelola dan memantau data apa yang dibagikan, kapan dibagikan, dan siapa yang membagikannya.

Penting

Setiap zona pendaratan data memiliki grup sumber daya penyerapan metadata yang ada untuk bisnis dengan mesin penyerapan agnostik data. Jika Anda tidak memiliki mesin kerangka kerja ini, satu-satunya sumber daya yang direkomendasikan adalah menyebarkan ruang kerja analitik Azure Databricks, yang akan digunakan oleh integrasi data untuk menjalankan penyerapan yang kompleks. Lihat mesin penyerapan agnostik data untuk potensi pola otomatisasi.

Menyerap pertimbangan untuk Azure Data Factory

Jika Anda memiliki mesin penyerapan agnostik data, Anda harus menyebarkan satu Data Factory untuk setiap zona pendaratan data dalam grup sumber daya penyerapan dan pemrosesan. Ruang kerja Data Factory harus dikunci untuk pengguna, dan hanya identitas terkelola dan perwakilan layanan yang akan memiliki akses untuk menyebarkan. Operasi zona pendaratan data harus memiliki akses baca untuk memungkinkan penelusuran kesalahan alur.

Aplikasi data dapat memiliki Data Factory sendiri untuk pergerakan data. Memiliki Data Factory di setiap grup sumber daya aplikasi data mendukung pengalaman integrasi berkelanjutan (CI) dan penyebaran berkelanjutan (CD) lengkap dengan hanya memungkinkan alur disebarkan dari Azure DevOps atau GitHub.

Semua ruang kerja Data Factory sebagian besar akan menggunakan fitur jaringan virtual terkelola (VNet) di Data Factory atau runtime integrasi yang dihosting sendiri untuk zona pendaratan data mereka dalam zona pendaratan manajemen data. Teknisi didorong untuk menggunakan fitur VNet terkelola untuk terhubung dengan aman ke sumber daya Azure PaaS.

Namun, Anda dapat membuat lebih banyak runtime integrasi untuk diserap dari sumber data lokal, cloud pihak ketiga, dan perangkat lunak-sebagai-layanan (SaaS) pihak ketiga.

Menyerap pertimbangan untuk Azure Databricks

Panduan ini menguraikan informasi di dalam:

  • Mengamankan akses ke Azure Data Lake Storage Gen2 dari Azure Databricks

  • Praktik terbaik Azure Databricks

  • Menggunakan Azure Databricks dalam analitik skala cloud di Azure

  • Untuk pengembangan, operasi integrasi harus memiliki lingkungan Azure Databricks sendiri sebelum memeriksa kode untuk disebarkan ke satu ruang kerja Azure Databricks selama pengujian dan produksi.

  • Data Factory dalam grup sumber daya aplikasi data (selaras sumber) harus menyediakan kerangka kerja untuk memanggil pekerjaan Azure Databricks.

  • Perwakilan layanan dapat membantu memasang data lake ke ruang kerja ini. Untuk informasi selengkapnya, lihat Pola 1 - akses melalui perwakilan layanan untuk informasi selengkapnya.

  • Tim aplikasi data dapat menyebarkan pekerjaan singkat dan otomatis di Azure Databricks dan mengharapkan kluster mereka dimulai dengan cepat, menjalankan pekerjaan, dan mengakhiri. Disarankan untuk menyiapkan kumpulan Azure Databricks untuk mengurangi waktu yang diperlukan kluster untuk menjalankan pekerjaan.

  • Sebaiknya organisasi menggunakan Azure DevOps untuk menerapkan kerangka kerja penerapan untuk alur baru. Kerangka kerja akan digunakan untuk membuat folder himpunan data, menetapkan daftar kontrol akses, dan membuat tabel dengan atau tanpa memberlakukan kontrol akses tabel Databricks.

Penyerapan stream

Organisasi mungkin perlu mendukung skenario di mana penerbit menghasilkan stream peristiwa berkecepatan tinggi. Untuk pola ini, antrean pesan direkomendasikan, misalnya, Pusat Aktivitas atau IoT Hub, untuk menyerap stream ini.

Pusat Aktivitas dan IoT Hub adalah layanan pemrosesan peristiwa yang dapat diskalakan yang dapat menelan dan memproses volume acara dan data besar dengan latensi rendah dan keandalan tinggi. Pusat Aktivitas dirancang sebagai layanan streaming data dan penyerapan acara yang besar. IoT Hub adalah layanan terkelola yang bertindak sebagai hub pusat pesan untuk komunikasi dua arah antara aplikasi IoT Anda dan perangkat yang dikelolanya. Dari sana, data dapat diekspor ke data lake secara berkala (batch) dan diproses dengan Azure Databricks dalam hampir real time melalui Apache Spark Streaming, Azure Data Explorer, Stream Analytics, atau Time Series Insights.

Zona pendaratan Azure Event Hubs atau Apache Kafka terakhir di dalam zona pendaratan spesifik kasus penggunaan harus mengirim data agregatnya ke lapisan mentah data lake di salah satu zona pendaratan data dan ke Azure Event Hubs yang terkait dengan grup sumber daya aplikasi data (selaras sumber) di zona pendaratan data.

Memantau penyerapan

Pemantauan alur Azure Data Factory siap pakai dapat digunakan untuk memantau dan memecahkan masalah pengecualian dari alur Data Factory. Ini mengurangi upaya mengembangkan solusi pemantauan dan pelaporan khusus.

Pemantauan bawaan adalah salah satu alasan utama untuk menggunakan Azure Data Factory sebagai alat orkestrasi utama, dan Azure Policy dapat membantu mengotomatiskan penyiapan ini.

Memetakan sumber data ke layanan

Panduan di bagian ini memetakan layanan penyerapan dan pemrosesan ke sumber yang biasanya perlu diserap atau dilepaskan dari Azure.

Layanan penyerapan:

ID Mekanisme Catatan
A Data Factory Konektor bawaan dan umum (ODBC, SFTP, dan REST)
B Azure Databricks Kode kustom (JDBC, JAR, dan banyak lagi)
C Pihak Ketiga WANdisco, Qlik, dan Oracle GoldenGate
D Lainnya Misalnya, kemampuan asli
E Microsoft Power Platform dan Azure Logic Apps Konektor Microsoft Power Automate

Pemetaan sumber data ke layanan:

Penyedia Jenis Di-hosting Kategori Catatan Penyerapan beban penuh Penyerapan beban bertahap Penyerapan real time Keluar beban penuh Keluar beban bertahan Keluar secara real time
Oracle Tabular IaaS Database GoldenGate ke Azure Data Lake Storage A, B A, B C A, B A, B C
Microsoft SQL Server Tabular IaaS Database SAP Landscape Transformation dan Qlik A, B A, B C, D2 A, B A, B C, D2
MySQL Tabular IaaS Database SAP Landscape Transformation dan Qlik A, B A, B C, D2 A, B A, B C, D2
SAP BW/4HANA Tabular IaaS Database SAP Landscape Transformation dan Qlik A, B, C, D A, B, C, D C - - -
SAP HANA Tabular IaaS Database SAP Landscape Transformation dan Qlik A, B, C, D A, B, C, D C A, B A, B -
Apache Impala Tabular IaaS Database - A, B A, B - B B -
Microsoft SharePoint Daftar SaaS Record Store - A, E A, E E A, E A, E E
REST REST Bermacam-macam REST XML, JSON, CSV A, B, E A, B, E A, B, E A, B, E A, B, E A, B, E
Microsoft Outlook Email SaaS REST XML, JSON, CSV E E E E E E

Bergantung pada tujuan, Azure Database Migration Service dapat mereplikasi dari database lokal dan pihak ketiga seperti Microsoft SQL Server, PostgreSQL, MySQL, atau Oracle ke penyimpanan data berbasis Azure.

Langkah berikutnya

Penyerapan SAP dengan analitik skala cloud di Azure