Gudang data modern untuk usaha kecil dan menengah

Azure Data Lake
Azure SQL Database
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

Contoh beban kerja ini menunjukkan beberapa cara agar bisnis kecil (UKM) dapat memodernisasi penyimpanan data warisan dan menjelajahi alat dan kemampuan big data, tanpa anggaran dan skillset yang terlalu mendasar saat ini. Solusi pergudangan data Azure end-to-end ini terintegrasi dengan mudah dengan alat seperti Azure Pembelajaran Mesin, Microsoft Power Platform, Microsoft Dynamics, dan teknologi Microsoft lainnya.

Arsitektur

Diagram that shows how SMBs can modernize legacy data stores.

Unduh file Visio arsitektur ini.

Gudang data SMB lama mungkin berisi beberapa jenis data:

  • Data tidak terstruktur, seperti dokumen dan grafik
  • Data semi terstruktur, seperti file log, CSV, JSON, dan XML
  • Data relasional terstruktur, termasuk database yang menggunakan prosedur tersimpan untuk aktivitas ekstraksi, transformasi, dan pemuatan/ekstraksi, pemuatan, dan transformasi (ETL/ELT)

Aliran data

Aliran data berikut menunjukkan penyerapan jenis data yang Anda pilih:

  1. Alur Azure Synapse Analytics menyerap gudang data lama ke Azure.

    • Alur mengatur aliran database lama dan paket SSIS yang dimigrasikan atau difaktorkan ulang sebagian ke dalam Azure SQL Database. Pendekatan lift-and-shift ini paling cepat diterapkan, dan menawarkan transisi yang mulus dari solusi SQL lokal ke platform-as-a-service (PaaS) Azure yang akhirnya. Anda dapat memodernisasi database secara bertahap setelah lift dan shift.

    • Alur juga dapat meneruskan data tidak terstruktur, semi-terstruktur, dan terstruktur ke Azure Data Lake Storage untuk penyimpanan dan analisis terpusat dengan sumber lain. Gunakan pendekatan ini saat menggabungkan data memberikan lebih banyak manfaat bisnis daripada sekadar mem-platform ulang data.

  2. Sumber data Microsoft Dynamics dapat digunakan untuk membuat dasbor BI terpusat pada himpunan data yang diperbesar menggunakan alat analisis Synapse Serverless. Anda dapat membawa kembali data yang telah diproses dan digabungkan ke Dynamics dan Power BI untuk analisis selengkapnya.

  3. Data real-time dari sumber aliran juga dapat masuk ke sistem melalui Azure Event Hubs. Untuk pelanggan dengan persyaratan dasbor real time, Azure Stream Analytics dapat segera menganalisis data ini.

  4. Data juga dapat masuk ke Data Lake terpusat untuk analisis, penyimpanan, dan pelaporan selengkapnya.

  5. Alat analisis serverless tersedia di ruang kerja Azure Synapse Analytics. Alat-alat ini menggunakan kumpulan SQL tanpa server atau kemampuan komputasi Apache Spark untuk memproses data di Data Lake Storage Gen2. Kumpulan serverless tersedia sesuai permintaan, dan tidak memerlukan sumber daya yang disediakan.

    Kumpulan serverless ideal untuk:

    • Eksplorasi ilmu data ad hoc dalam format T-SQL.
    • Pembuatan prototipe awal untuk entitas gudang data.
    • Menentukan tampilan yang dapat digunakan konsumen, misalnya di Power BI, untuk skenario yang dapat menoleransi kelambatan performa.

Azure Synapse terintegrasi erat dengan calon konsumen dari himpunan data gabungan Anda, seperti Azure Machine Learning. Konsumen lain dapat menyertakan Power Apps, Azure Logic Apps, aplikasi Azure Functions, dan aplikasi web Azure App Service.

Komponen

  • Azure Synapse Analytics adalah layanan analitik yang menggabungkan integrasi data, pergudangan data perusahaan, dan analitik data besar. Dalam solusi ini:

    • Rang Kerja Azure Synapse mempromosikan kolaborasi antara insinyur data, ilmuwan data, analis data, dan profesional intelijen bisnis (BI).
    • Alur Azure Synapse mengatur dan menyerap data ke dalam SQL Database dan Data Lake Storage Gen2.
    • Kumpulan SQL tanpa server Azure Synapse menganalisis data yang tidak terstruktur dan semi terstruktur di Data Lake Storage Gen2 sesuai permintaan.
    • Kumpulan Apache Spark tanpa server Azure Synapse melakukan eksplorasi pertama kode di Data Lake Storage Gen2 dengan bahasa Spark seperti Spark SQL, pySpark, dan Scala.
  • Azure SQL Database adalah layanan database relasional yang cerdas, skalabel, dan dibuat untuk cloud. Dalam solusi ini, SQL Database menyimpan gudang data perusahaan dan melakukan aktivitas ETL/ELT yang menggunakan prosedur tersimpan.

  • Azure Event Hubs adalah platform aliran data waktu nyata dan layanan penyerapan aktivitas. Event Hubs dapat menyerap data dari mana saja, dan terintegrasi dengan mulus dengan layanan data Azure.

  • Azure Stream Analytics adalah layanan analitik waktu nyata, tanpa server untuk pengaliran data. Stream Analytics menawarkan skalabilitas yang cepat dan elastis, keterandalan dan pemulihan tingkat perusahaan, dan kemampuan pembelajaran mesin bawaan.

  • Azure Machine Learning adalah perangkat untuk pengembangan model ilmu data dan manajemen siklus hidup. Pembelajaran Mesin adalah salah satu contoh Azure dan layanan Microsoft yang dapat menggunakan data yang menyatu dan diproses dari Data Lake Storage Gen2.

Alternatif

  • Azure IoT Hub dapat menggantikan atau melengkapi Event Hubs. Solusi yang Anda pilih bergantung pada sumber data aliran Anda, dan apakah Anda memerlukan kloning dan komunikasi dua arah dengan perangkat pelaporan.

  • Anda dapat menggunakan Azure Data Factory untuk integrasi data alih-alih alur Azure Synapse. Pilihannya tergantung pada beberapa faktor:

    • Alur Azure Synapse menjaga desain solusi tetap sederhana, dan memungkinkan kolaborasi di dalam satu ruang kerja Azure Synapse.
    • Alur Azure Synapse tidak mendukung penghosting ulang paket SSIS, yang tersedia di Azure Data Factory.
    • Synapse Monitor Hub memantau alur Azure Synapse, sedangkan Azure Monitor dapat memantau Data Factory.

    Untuk informasi selengkapnya dan perbandingan fitur antara saluran Azure Synapse dan Data Factory, lihat Integrasi data di Azure Synapse Analytics versus Azure Data Factory.

  • Anda dapat menggunakan pool SQL khusus Synapse Analytics untuk menyimpan data perusahaan, daripada menggunakan SQL Database. Tinjau kasus penggunaan dan pertimbangan dalam artikel ini dan sumber daya terkait untuk membuat keputusan.

Detail skenario

Usaha kecil dan menengah (UKM) dihadapkan dengan pilihan saat memodernisasi gudang data lokal mereka untuk cloud. Mereka dapat mengadopsi alat data besar untuk perluasan di masa mendatang, atau mempertahankan solusi tradisional berbasis SQL untuk efisiensi biaya, kemudahan perawatan, dan transisi yang mulus.

Namun, pendekatan hibrid menggabungkan migrasi yang mudah dari lahan data yang ada dengan peluang untuk menambahkan alat dan proses data besar untuk beberapa kasus penggunaan. Sumber data berbasis SQL dapat terus berjalan di cloud dan terus dimodernisasi sebagaimana mestinya.

Contoh beban kerja ini menunjukkan beberapa cara agar UKM dapat memodernisasi penyimpanan data lama dan menjelajahi alat dan kemampuan data besar, tanpa membebani anggaran dan keterampilan saat ini. Solusi pergudangan data Azure end-to-end ini terintegrasi dengan mudah dengan layanan dan alat Azure dan Microsoft seperti Azure Machine Learning, Microsoft Power Platform, dan Microsoft Dynamics.

Kemungkinan kasus penggunaan

Beberapa skenario dapat mengambil manfaat dari beban kerja ini:

  • Memigrasikan gudang data relasional lokal tradisional yang lebih kecil dari 1 TB dan secara ekstensif menggunakan paket SQL Server Integration Services (SSIS) untuk mengatur prosedur tersimpan.

  • Menggabungkan data Dataverse Dynamics atau Power Platform yang ada dengan sumber Azure Data Lake batch dan real-time.

  • Menggunakan teknik inovatif untuk berinteraksi dengan data Data Lake Storage Gen2 terpusat. Tekniknya meliputi analisis serverless, penambangan pengetahuan, penggabungan data antar domain, dan eksplorasi data pengguna akhir.

  • Menyiapkan perusahaan eCommerce untuk mengadopsi gudang data untuk mengoptimalkan operasi mereka.

Solusi ini tidak disarankan untuk:

  • Penyebaran gudang data Greenfield yang diperkirakan mencapai > 1 TB dalam satu tahun.

  • Memigrasikan gudang data lokal yang berukuran > 1 TB atau diproyeksikan akan tumbuh ke ukuran tersebut dalam waktu satu tahun.

Pertimbangan

Pertimbangan ini mengimplementasikan pilar Azure Well-Architected Framework, yang merupakan serangkaian tenet panduan yang dapat digunakan untuk meningkatkan kualitas beban kerja. Untuk informasi selengkapnya, lihat Microsoft Azure Well-Architected Framework.

Pertimbangan berikut berlaku untuk skenario ini.

Ketersediaan

SQL Database adalah layanan PaaS yang dapat memenuhi persyaratan ketersediaan tinggi (HA) dan pemulihan bencana (DR). Pastikan untuk memilih SKU yang memenuhi kebutuhan Anda. Untuk panduan, lihat Ketersediaan tinggi untuk Azure SQL Database.

Operasional

Database SQL menggunakan SQL Server Management Studio (SSMS) untuk mengembangkan dan memelihara artefak lama seperti prosedur tersimpan.

Pengoptimalan biaya

Optimalisasi biaya adalah tentang mencari cara untuk mengurangi pengeluaran yang tidak perlu dan meningkatkan efisiensi operasional. Untuk informasi selengkapnya, lihat Gambaran umum pilar pengoptimalan biaya.

Lihat contoh harga untuk skenario pergudangan data UKM di kalkulator harga Azure. Sesuaikan nilai untuk melihat bagaimana persyaratan Anda memengaruhi biaya.

  • Database SQL mendasarkan biaya pada tingkat Komputasi dan Layanan yang dipilih, serta jumlah vCore dan Unit Transaksi Basis Data (DTU). Contoh menunjukkan database tunggal dengan Komputasi yang disediakan dan delapan vCore, berdasarkan asumsi bahwa Anda perlu menjalankan prosedur tersimpan di SQL Database.

  • Harga Data Lake Storage Gen2 tergantung pada jumlah data yang Anda simpan dan seberapa sering Anda menggunakan data. Harga sampel mencakup 1 TB data yang disimpan, dengan asumsi transaksional selengkapnya. 1 TB mengacu pada ukuran data lake, bukan ukuran database lama yang asli.

  • Biaya dasar Alur Azure Synapse pada jumlah aktivitas jalur pipa data, jam waktu proses integrasi, ukuran kluster aliran data, serta biaya eksekusi dan operasi. Biaya alur meningkat dengan sumber data tambahan dan jumlah data yang diproses. Contoh mengasumsikan satu sumber data di-batch setiap jam selama 15 menit pada runtime integrasi yang dihosting Azure.

  • Kumpulan Azure Synapse Spark menetapkan harga berdasarkan ukuran node, jumlah instans, dan waktu aktif. Contoh mengasumsikan satu node komputasi kecil dengan pemanfaatan lima jam seminggu hingga 40 jam sebulan.

  • Kumpulan SQL serverless Azure Synapse menetapkan harga berdasarkan TB data yang diproses. Sampel mengasumsikan 50 TB diproses sebulan. Angka ini mengacu pada ukuran data lake, bukan ukuran database warisan asli.

  • Tagihan Pusat Aktivitas berdasarkan tingkat, unit throughput yang disediakan, dan lalu lintas masuk yang diterima. Contoh ini mengasumsikan satu unit throughput di tingkat Standar lebih dari satu juta peristiwa selama sebulan.

  • Analisis Aliran mendasarkan biaya pada jumlah unit aliran yang disediakan. Sampel mengasumsikan satu unit aliran yang digunakan selama sebulan.

Kontributor

Artikel ini sedang diperbarui dan dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

  • Galina Polyakova | Arsitek Solusi Cloud Senior

Langkah berikutnya