Menguasai manajemen data dengan Azure dan CluedIn

Azure Data Factory
Azure SQL Database
Azure Synapse Analytics
Azure Monitor

Arsitektur CluedIn ini memberi bisnis metrik tentang kualitas data yang diserapnya, dengan cerdas mendeteksi data kotor dan menyiapkannya untuk dibersihkan oleh teknisi data dan pengurus data. Algoritme pembelajaran mesin logika fuzzy eksklusif membantu pengguna bisnis dan kurator memberi label data, dan mengajarkan sistem untuk mengidentifikasi, memperbaiki, serta mencegah masalah kualitas data dari waktu ke waktu.

Sistem

Diagram yang menunjukkan struktur arsitektur dan aliran data Cluedin.

Unduh file Visio arsitektur ini.

Aliran data

Solusi CluedIn terdiri dari berbagai lapisan fungsional yang berjalan dalam kluster Kubernetes di Azure Kubernetes Service (AKS). Kombinasi aplikasi layanan mikro .NET Core menangani fungsi yang berbeda seperti konsumsi data, pemrosesan data streaming, antrean, dan antarmuka pengguna.

  1. Lapisan perayapan CluedIn menyerap data dari sumber cloud pelanggan seperti database Azure SQL DB, Azure Cosmos DB, PostgreSQL, dan Salesforce melalui konektor Azure Data Factory.

    CluedIn juga menerima masukan dari sistem lokal yang dapat diakses seperti SAP, Oracle, IBM, dan Hadoop, atau dapat menggunakan agen lokal untuk merayapi data non-publik.

  2. Bus layanan enterprise terhubung melalui port 5672 dan 15672 untuk titik akhir admin. Perayap mengirim data ke bus, dan lapisan pemrosesan menggunakan data dari bus, melalui port 5672.

  3. Lapisan log transaksi mengambil hasil dari lapisan pemrosesan.

  4. Dalam lapisan persistensi, database menggunakan data dari log transaksi dan bertahan untuk memberikan konsistensi akhirnya di berbagai penyimpanan data. Semua penyimpanan berjalan dalam mode ketersediaan tinggi (HA).

    Tidak seperti virtualisasi data, lapisan persistensi CluedIn menyerap bagian dari data sumber dan mempertahankan versi fidelitas data dan strukturnya yang tertinggi. Fidelitas yang tinggi ini berarti bahwa CluedIn Data Fabric dapat melayani permintaan bisnis untuk data dalam format atau model apa pun.

  5. Lapisan abstraksi data terhubung ke penyimpanan data yang berbeda melalui port untuk setiap penyimpanan.

  6. Akses data dilakukan melalui panggilan GraphQL, REST, dan WebSockets melalui port 443. GraphQL dan REST menggunakan model penarikan, dan WebSockets menggunakan model pendorongan.

    CluedIn melindungi akses data melalui pembatasan dan pencegahan Cross-Site Request Forgery (CSRF).

  7. Aplikasi web CluedIn ASP.NET Core berkomunikasi melalui kombinasi panggilan REST dan GraphQL melalui port 443.

    Semua komunikasi dari browser ke dalam aplikasi menggunakan serangkaian definisi ingress, yang hanya memerlukan satu alamat IP publik. Dalam lingkungan produksi, semua komunikasi melalui secure socket layer (SSL).

  8. Aplikasi CluedIn menyediakan data yang dibersihkan dan diproses ke layanan analitik seperti Power BI dan Azure Synapse Analytics untuk membuat wawasan. Sistem mencadangkan dan menyimpan semua data dalam database SQL atau Redis.

Komponen

CluedIn berjalan di Azure Kubernetes Service (AKS), layanan Kubernetes yang sangat tersedia, aman, dan dikelola penuh untuk menyebarkan dan mengelola aplikasi kontainer. AKS menawarkan Kubernetes tanpa server, CI/CD terintegrasi, serta keamanan dan tata kelola tingkat perusahaan.

CluedIn menggunakan dan mendukung banyak sumber dan layanan database, termasuk:

  • Azure SQL Database, layanan database cloud relasional terkelola yang selalu diperbarui dan dapat secara otomatis menskalakan sumber daya sesuai permintaan.
  • Azure SQL Managed Instance, untuk kompatibilitas mesin SQL Server yang luas dengan aplikasi SQL Server yang ada. SQL Managed Instance menyediakan infrastruktur database lokal dengan manfaat cloud Azure seperti skala elastis, manajemen terpadu, dan model penagihan cloud.
  • Azure Cosmos DB, database tanpa server NoSQL yang dikelola penuh dan non-relasional untuk pengembangan aplikasi modern.
  • Azure Data Lake, layanan penyimpanan data dan analitik yang dapat diskalakan.
  • Azure Data Factory, solusi integrasi data tanpa server yang dikelola penuh untuk menyerap, menyiapkan, dan mengubah data dalam skala besar. CluedIn menggunakan lebih dari 90 konektor Data Factory bawaan untuk memperoleh data dari sumber seperti Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow, dan semua layanan data Azure.

CluedIn menyediakan data yang diproses dan diatur ke banyak aplikasi dan layanan analitik, termasuk:

  • Azure Databricks, layanan analitik berbasis Apache Spark yang cepat, mudah, dan kolaboratif.
  • Azure Synapse Analytics, layanan analitik tanpa batas yang menyatukan pergudangan data perusahaan dan analitik Big Data.
  • Log Analytics, alat portal Azure untuk mengedit, menjalankan, dan menganalisis kueri dari data log Azure Monitor.
  • Azure Cognitive Services, kelompok komprehensif layanan AI dan API kognitif untuk membuat aplikasi cerdas.
  • Power BI, layanan analisis bisnis Microsoft yang menggabungkan visualisasi interaktif dan kecerdasan bisnis dengan antarmuka pembuatan laporan yang mudah digunakan.

Detail skenario

Perusahaan enterprise modern mendasarkan banyak proses dan proyek pada data, tetapi data mentah harus disiapkan untuk digunakan. Semua kasus penggunaan data dari analitik tingkat lanjut hingga pembelajaran mesin memerlukan proses dan perhatian persiapan data yang serupa.

  1. Proyek data dimulai dengan penemuan data, untuk menentukan tempat data berada dan sistem yang digunakannya.
  2. Integrasi data kemudian menyatukan beberapa sumber data ke dalam himpunan data yang terpadu atau terhubung.
  3. Langkah selanjutnya adalah menormalkan, menstandardisasikan, menyelaraskan, dan membersihkan data sehingga mesin dapat memprosesnya dengan cara yang seragam, konsisten, dan dengan fidelitas tinggi.
  4. Terakhir, data harus dibuat dengan mudah dan tersedia untuk kebutuhan bisnis.

Selama proses ini, tata kelola harus memastikan kontrol data dan perlindungan privasi dengan kepemilikan yang jelas, keterlacakan penuh, dan jejak audit asal data, pemrosesan, serta penggunaan.

Platform CluedIn merangkum proses dan pilar manajemen data ini menjadi solusi Manajemen Data Master (MDM) yang koheren, konsisten, dan menyeluruh. CluedIn menggunakan teknik integrasi data yang disebut konektivitas peristiwa yang menghasilkan hasil yang lebih baik daripada model ekstrak, transformasi, beban (ETL) atau ekstrak, beban, transformasi (ELT) klasik. Konektivitas terakhir menggunakan kueri GraphQL untuk memadukan data dengan mulus dari banyak sumber data silo.

Dengan konektivitas terakhir, data tidak bergabung atau dicampur saat masuk atau dimuat ke sistem lain. Sebagai gantinya, CluedIn memuat data sebagaimana adanya, dan menandai rekaman menggunakan metadata. Terakhir, rekaman dengan tag yang sama menggabungkan atau membangun hubungan dalam grafik.

Teknik penggabungan data yang canggih ini memberikan dasar untuk solusi berbasis data. CluedIn Data Fabric mengintegrasikan data ke dalam alur yang membersihkan, menyiapkan, memodelkan, mengatur, memperkaya, deduplikasi, dan membuat katalog data agar mudah tersedia dan dapat diakses untuk penggunaan bisnis.

CluedIn menyediakan metrik kepada bisnis tentang kualitas data yang diserapnya, mendeteksi data kotor secara cerdas, dan menyiapkannya untuk dibersihkan oleh teknisi data dan pengurus data. Algoritme pembelajaran mesin logika fuzzy eksklusif membantu pengguna bisnis dan kurator memberi label data, dan mengajarkan sistem untuk mengidentifikasi, memperbaiki, serta mencegah masalah kualitas data dari waktu ke waktu.

CluedIn menyertakan tata kelola tingkat perusahaan, untuk jaminan bahwa Anda dapat menggunakan data Anda dengan aman dan percaya diri. CluedIn dapat melakukan streaming data yang dibersihkan dan diatur langsung ke sistem analisis seperti Power BI, Azure Databricks, Azure Synapse Analytics, atau Azure Cognitive Services agar mudah tersedia untuk seluruh bisnis. Dukungan asli untuk penskalaan otomatis memanfaatkan kekuatan Azure untuk menyediakan lingkungan yang dapat diskalakan untuk beban kerja data terbesar.

Kemungkinan kasus penggunaan

Membuat satu tampilan data

  • Karena pemodelan semantik CluedIn, membuat membangun Tampilan Tunggal Data Master Anda menjadi hal yang jauh lebih mudah untuk dicapai dibandingkan dengan pendekatan tradisional. Pelanggan CluedIn menggunakan CluedIn untuk membuat pandangan yang terhubung, historis, dan berkualitas tinggi tentang data bisnis mereka yang paling penting. CluedIn tidak hanya mendukung penguasaan domain Master klasik seperti Orang, Perusahaan, Vendor, dan Produk, tetapi juga mendukung sejumlah domain yang berbeda tanpa henti serta domain tidak terstruktur seperti file, email, acara, dan banyak lagi. Jika Anda memerlukan repositori terpusat data master yang bersih, diperkaya, diatur, dikontrol kualitas, dan dikategorikan, maka CluedIn cocok untuk kasus penggunaan Anda.

Fabric data

  • CluedIn merupakan Gartner Cool Vendor pada tahun 2020, karena kemampuannya untuk mengatur data dari jumlah 10-an, 100-an dan 1000-an dari sumber data yang berbeda dan kompleks menjadi pusat data terpadu. Jika Anda perlu memanipulasi data dari banyak sumber data yang berbeda dengan mudah, CluedIn dapat digunakan sebagai fabric data untuk mencapai hal ini. CluedIn dapat menyediakan infrastruktur streaming untuk data Anda yang juga dapat secara proaktif membersihkan dan menguasai data saat mengalir ke konsumen downstream.

Penggabungan dan penautan data master yang canggih

  • Pendekatan pemodelan data unik CluedIn menggunakan database grafik, yang memungkinkan data kompleks digabungkan dan ditautkan dengan kesederhanaan. Tidak seperti pendekatan tradisional, untuk memecahkan tantangan ini, CluedIn menambahkan pembelajaran mesin tambahan dan analitik grafik untuk menggabungkan, mencocokkan, dan menghubungkan rekaman dengan presisi yang sangat tinggi.

Pertimbangan

Pertimbangan ini mengimplementasikan pilar Azure Well-Architected Framework, yang merupakan serangkaian tenet panduan yang dapat digunakan untuk meningkatkan kualitas beban kerja. Untuk informasi selengkapnya, lihat Microsoft Azure Well-Architected Framework.

Keandalan

Keandalan memastikan aplikasi Anda dapat mencapai komitmen yang Anda buat kepada pelanggan Anda. Untuk informasi selengkapnya, lihat Gambaran Umum pilar keandalan.

  • CluedIn mengambil pencadangan database harian otomatis dan menyimpannya dalam penyimpanan jangka panjang selama 30 hari secara default. Seluruh platform dibuat berdasarkan tumpukan toleran kesalahan yang berlebihan yang mempertahankan cadangan untuk semua subsistem. Sistem pemantauan sepanjang waktu memastikan bahwa layanan sebersih mungkin. CluedIn mengikuti praktik standar industri untuk redundansi infrastruktur.

  • CluedIn hanya muncul dan menyimpan representasi data Anda, bukan versi asli. Jika mendeteksi intrusi data yang merusak, CluedIn dapat menghapus data CluedIn sementara dari server Anda. Setelah intrusi mereda, CluedIn menggabungkan kembali data ke keadaan semula.

  • Semua penyimpanan data berjalan dalam mode ketersediaan tinggi.

Skalabilitas

  • CluedIn berjalan dalam kontainer Docker dan menggunakan Kubernetes untuk menghosting serta mengatur berbagai bagian aplikasi. Arsitektur ini berarti bahwa CluedIn bekerja dengan baik di lingkungan elastis dan secara otomatis dapat menskalakan ke ukuran dan infrastruktur yang dibutuhkan.

  • Dukungan asli untuk penskalaan otomatis memanfaatkan kekuatan Azure untuk menyediakan lingkungan yang dapat diskalakan untuk beban kerja data terbesar.

  • Pemodelan grafik tanpa skema otomatis menyimpulkan model data dari data sumber. Sumber data baru otomatis terhubung ke semua sumber data lainnya, daripada harus diintegrasikan secara eksplisit. Sejumlah sumber data dapat menskalakan tanpa batas tanpa meningkatkan kompleksitas integrasi.

Keamanan

Keamanan memberikan jaminan terhadap serangan yang disukai dan penyalahgunaan data dan sistem berharga Anda. Untuk informasi selengkapnya, lihat Gambaran Umum pilar keamanan.

  • Keamanan CluedIn memberikan izin dan mengontrol akses ke layanan yang berbeda melalui kontrol akses berbasis peran Azure (RBAC), dengan kontrol kunci keamanan Azure Key Vault dan pelacakan dan pengelogan akses Azure Monitor .

  • Selain akun pengguna yang diautentikasi, CluedIn juga mendukung sistem masuk tunggal (SSO) dan kerangka kerja identitas. Permintaan ke aplikasi CluedIn menggunakan token akses terenkripsi yang tidak memiliki korelasi dengan identitas pengguna.

  • CluedIn mengelola representasi data yang disimpan di balik beberapa lapisan firewall dan proksi, dan mengautentikasinya dengan satu set kunci unik.

  • CluedIn menyimpan semua data yang bersumber dengan enkripsi AES 256 bit, yang lebih kuat dari atau sama dengan tingkat enkripsi sumber data yang didukung.

  • Pembatasan dan pencegahan CSRF melindungi akses data.

DevOps

  • CluedIn menggunakan integrasi berkelanjutan Azure Pipelines dan alur pengiriman berkelanjutan (CI/CD) untuk menangani penyebaran dan meluncurkan pembaruan ke lingkungan AKS.

  • CluedIn mendukung unit, integrasi, dan pengujian fungsional untuk memastikan bahwa data berubah seperti yang diharapkan. Alur pemrosesan virtual dapat berjalan dalam memori untuk pengujian kotak pasir. Pernyataan tingkat produksi dapat membantu menelusuri kesalahan dan melacak masalah data.

  • Untuk lingkungan pengujian dan produksi, CluedIn menyediakan bagan pengelola paket Helm untuk menginstal CluedIn dengan cepat di kluster Kubernetes. Proses penyebaran data yang sepenuhnya ditulis mendukung penyiapan, pengujian, dan peluncuran.

Pengoptimalan biaya

Optimalisasi biaya adalah tentang mencari cara untuk mengurangi pengeluaran yang tidak perlu dan meningkatkan efisiensi operasional. Untuk informasi selengkapnya, lihat Gambaran umum pilar pengoptimalan biaya.

Harga untuk CluedIn terbuka dan transparan. Anda dapat melihat harga di situs web mereka.

Azure mengukur dan memulai uji coba

Anda dapat memulai uji coba CluedIn selama 7 hari di situs web mereka, yang juga dapat membantu Anda membuat cakupan biaya hosting Azure dengan perkiraan Azure bawaan untuk lingkungan berukuran berbeda.

Menyebarkan skenario ini

  • Guna menyebarkan CluedIn untuk tujuan pengembangan dan evaluasi menggunakan Docker, lihat CluedIn dengan Docker.

  • Untuk menginstal CluedIn dengan cepat di kluster Kubernetes, lihat CluedIn dengan Kubernetes. Bagan Helm menginstal server CluedIn, situs web, dan layanan lain yang diperlukan, seperti penyimpanan dan antrean.

Langkah berikutnya