Analitik dan pergudangan data

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL Database
Azure Table Storage

Contoh skenario ini menunjukkan alur data yang mengintegrasikan sejumlah besar data dari berbagai sumber ke dalam platform analitik terpadu di Azure. Skenario khusus ini didasarkan pada solusi penjualan dan pemasaran, tetapi pola rancangannya relevan untuk banyak industri yang membutuhkan analitik tingkat lanjut dari himpunan data besar seperti e-niaga, ritel, dan perawatan kesehatan.

Sistem

Arsitektur untuk gudang data dan skenario analisis di Azure

Unduh file Visio arsitektur ini.

Aliran data

Data mengalir melalui solusi sebagai berikut:

  1. Untuk setiap sumber data, pembaruan apa pun diekspor secara berkala ke area penahapan di Azure Data Lake Storage.
  2. Azure Data Factory secara bertahap memuat data dari Azure Data Lake Storage ke dalam tabel penahapan di Azure Synapse Analytics. Data dibersihkan dan diubah selama proses ini. PolyBase dapat menyejajarkan proses untuk himpunan data besar.
  3. Setelah memuat batch data baru ke gudang, model tabular Azure Analysis Services yang dibuat sebelumnya disegarkan. Model semantik ini menyederhanakan analisis data dan hubungan bisnis.
  4. Analis bisnis menggunakan Microsoft Power BI untuk menganalisis data yang disimpan melalui model semantik Analysis Services.

Komponen

Perusahaan ini memiliki sumber data di berbagai platform:

  • SQL Server lokal
  • Oracle lokal
  • Database Azure SQL
  • Penyimpanan tabel Azure
  • Azure Cosmos DB

Data dimuat dari berbagai sumber data menggunakan beberapa komponen Azure:

  • Azure Data Lake Storage digunakan untuk mentahapkan data sumber sebelum dimuat ke Azure Synapse.
  • Data Factory mengatur transformasi data yang disajikan menjadi struktur umum di Azure Synapse. Data Factory menggunakan PolyBase saat memuat data ke Azure Synapse untuk memaksimalkan throughput.
  • Azure Synapse adalah sistem terdistribusi untuk menyimpan dan menganalisis himpunan data besar. Penggunaan pemrosesan paralel besar-besaran (MPP) membuatnya cocok untuk menjalankan analitik berperforma tinggi. Azure Synapse dapat menggunakan PolyBase untuk memuat data dengan cepat dari Azure Data Lake Storage.
  • Analysis Services menyediakan model semantik untuk data Anda. Ini juga dapat meningkatkan performa sistem saat menganalisis data Anda.
  • Power BI adalah rangkaian alat analitik bisnis untuk menganalisis data dan berbagi wawasan. Power BI dapat mengkueri model semantik yang disimpan di Analysis Services, atau dapat mengkueri Azure Synapse secara langsung.
  • MICROSOFT Entra ID mengautentikasi pengguna yang tersambung ke server Analysis Services melalui Power BI. Data Factory juga dapat menggunakan ID Microsoft Entra untuk mengautentikasi ke Azure Synapse melalui perwakilan layanan atau Identitas terkelola untuk sumber daya Azure.

Alternatif

  • Contoh alur mencakup beberapa jenis sumber data. Arsitektur ini dapat menangani berbagai sumber data relasional dan non-relasional.

  • Data Factory mengatur alur kerja untuk alur data Anda. Jika Anda hanya ingin memuat data satu kali atau sesuai permintaan, Anda dapat menggunakan alat seperti salinan massal SQL Server (bcp) dan AzCopy untuk menyalin data ke Azure Data Lake Storage. Anda selanjutnya dapat memuat data langsung ke Azure Synapse menggunakan PolyBase.

  • Jika Anda memiliki himpunan data yang sangat besar, pertimbangkan untuk menggunakan Data Lake Storage, yang menyediakan penyimpanan tanpa batas untuk data analitik.

  • Azure Synapse tidak cocok untuk beban kerja OLTP atau kumpulan data yang lebih kecil dari 250 GB. Untuk kasus-kasus tersebut, Anda harus menggunakan Azure SQL Database atau SQL Server.

  • Untuk perbandingan alternatif lain, lihat:

Detail skenario

Contoh ini menunjukkan perusahaan penjualan dan pemasaran yang membuat program insentif. Program-program ini memberi penghargaan kepada pelanggan, pemasok, tenaga penjualan, dan karyawan. Data sangat penting untuk program-program ini, dan perusahaan ingin meningkatkan wawasan yang diperoleh melalui analitik data menggunakan Azure.

Perusahaan membutuhkan pendekatan modern untuk menganalisis data, sehingga keputusan dibuat menggunakan data yang tepat pada waktu yang tepat. Tujuan perusahaan meliputi:

  • Menggabungkan berbagai jenis sumber data ke dalam platform skala cloud.
  • Mengubah data sumber menjadi taksonomi dan struktur umum, untuk membuat data konsisten dan mudah dibandingkan.
  • Memuat data menggunakan pendekatan yang sangat paralel yang dapat mendukung ribuan program insentif, tanpa biaya tinggi untuk menyebarkan dan memelihara infrastruktur lokal.
  • Sangat mengurangi waktu yang dibutuhkan untuk mengumpulkan dan mengubah data, sehingga Anda dapat fokus pada analisis data.

Kemungkinan kasus penggunaan

Pendekatan ini juga dapat digunakan untuk:

  • Buat gudang data menjadi satu sumber kebenaran untuk data Anda.
  • Integrasikan sumber data relasional dengan himpunan data tidak terstruktur lainnya.
  • Gunakan pemodelan semantik dan alat visualisasi yang kuat untuk analisis data yang lebih sederhana.

Pertimbangan

Pertimbangan ini mengimplementasikan pilar Azure Well-Architected Framework, yang merupakan serangkaian tenet panduan yang dapat digunakan untuk meningkatkan kualitas beban kerja. Untuk informasi selengkapnya, lihat Microsoft Azure Well-Architected Framework.

Teknologi dalam arsitektur ini dipilih karena memenuhi persyaratan perusahaan untuk skalabilitas dan ketersediaan, sambil membantu mereka mengontrol biaya.

Pengoptimalan biaya

Optimalisasi biaya adalah tentang mencari cara untuk mengurangi pengeluaran yang tidak perlu dan meningkatkan efisiensi operasional. Untuk informasi selengkapnya, lihat Gambaran umum pilar pengoptimalan biaya.

Ulas sampel harga untuk skenario gudang data melalui kalkulator harga Azure. Sesuaikan nilai untuk melihat bagaimana kebutuhan Anda memengaruhi biaya Anda.

  • Azure Synapse memungkinkan Anda menskalakan tingkat komputasi dan penyimpanan secara independen. Sumber daya komputasi ditagih per jam, dan Anda dapat menskalakan atau menjeda sumber daya ini sesuai permintaan. Sumber daya penyimpanan ditagih per terabyte, sehingga biaya Anda akan meningkat saat Anda menyerap lebih banyak data.
  • Biaya Data Factory didasarkan pada jumlah operasi baca/tulis, operasi pemantauan, dan aktivitas orkestrasi yang dilakukan dalam beban kerja. Biaya pabrik data Anda akan meningkat dengan setiap aliran data tambahan dan jumlah data yang diproses oleh masing-masing aliran data.
  • Analysis Services tersedia di tingkat Pengembang, Dasar, dan Standar. Instans diberi harga berdasarkan unit pemrosesan kueri (QPU) dan memori yang tersedia. Untuk menjaga biaya Anda lebih rendah, minimalkan jumlah kueri yang Anda jalankan, berapa banyak data yang diproses, dan seberapa sering kueri dijalankan.
  • Power BI memiliki opsi produk yang berbeda untuk persyaratan yang berbeda. Power BI Embedded menyediakan opsi berbasis Azure untuk menyematkan fungsi Power BI di dalam aplikasi Anda. Instans Power BI Embedded disertakan dalam sampel harga di atas.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya