Gudang data perusahaan

Penyimpanan Blob
Data Lake
Synapse Analytics

Ide solusi

Artikel ini adalah ide solusi. Jika Anda ingin kami memperluas konten dengan informasi lebih lanjut, seperti potensi kasus penggunaan, layanan alternatif, pertimbangan implementasi, atau panduan harga, beri tahu kami dengan memberikan umpan balik GitHub.

Artikel ini menyajikan solusi untuk gudang data perusahaan di Azure yang:

  • Menyanggakan semua data Anda, apa pun skala atau formatnya.
  • Menyediakan cara bagi semua pengguna Anda untuk mendapatkan wawasan dari data Anda melalui dasbor analitik, laporan operasional, dan analitik tingkat lanjut.

ApacheĀ® dan Apache Spark adalah merek dagang terdaftar atau merek dagang dari Apache Software Foundation di Amerika Serikat dan/atau negara lain. Tidak ada dukungan dari Apache Software Foundation yang tersirat dari penggunaan tanda ini.

Arsitektur

Diagram arsitektur gudang data perusahaan yang menggunakan Azure Synapse Analytics, Data Lake Storage, Analysis Services, dan Power BI.

Unduh file Visio arsitektur ini.

Aliran data

  1. Azure Synapse Analytics menyatukan data terstruktur, tidak terstruktur, dan semi terstruktur, seperti log, file, dan media. Alur menyimpan data dalam Azure Data Lake Storage.
  2. Kumpulan Apache Spark di Azure Synapse Analytics membersihkan dan mengubah data Data Lake Storage.
  3. Azure Synapse Analytics menggabungkan data yang diproses dengan data terstruktur yang ada, membuat satu hub data terpadu.
  4. Kumpulan SQL khusus membuat data tersedia untuk laporan operasional dan dasbor analitik yang mendapatkan wawasan. Azure Analysis Services melayani laporan dan dasbor kepada ribuan pengguna akhir.

Komponen

  • Azure Synapse Analytics adalah layanan analitik untuk gudang data dan sistem data besar. Alat ini menggunakan arsitektur pemrosesan paralel besar-besaran dan memiliki integrasi mendalam dengan layanan Azure.
  • alur Azure Synapse Analytics menyediakan cara bagi Anda untuk membuat, menjadwalkan, dan mengatur alur kerja, seperti mengekstrak, memuat, mengubah (ELT) dan mengekstrak, mengubah, memuat (ETL) alur kerja.
  • Azure Blob Storage menyediakan penyimpanan objek yang dapat diskalakan secara besar-besaran dan hemat biaya untuk semua jenis data yang tidak terstruktur—gambar, video, audio, dokumen, dan banyak lagi.
  • Data Lake Storage adalah gudang penyimpanan yang menyimpan data dalam jumlah besar dalam format asli dan mentahnya. Data Lake Storage dibangun di atas Blob Storage. Akibatnya, Data Lake Storage menawarkan skalabilitas, penyimpanan berjenjang, ketersediaan tinggi, dan kemampuan pemulihan bencana Blob Storage.
  • Azure Synapse Analytics Spark menyediakan kerangka kerja pemrosesan paralel yang mendukung pemrosesan dalam memori untuk meningkatkan performa aplikasi analitik big-data.
  • Analysis Services adalah mesin analitik tingkat perusahaan yang menyediakan cara mudah bagi pengguna untuk melakukan analisis data ad hoc. Anda dapat menggunakan Analysis Services untuk mengatur, menguji, dan memberikan solusi bisnis dalam skala besar.
  • Power BI adalah serangkaian alat analitik bisnis yang memberikan wawasan ke seluruh organisasi Anda. Anda bisa menggunakan Power BI untuk menyambungkan ke ratusan sumber data, menyederhanakan persiapan data, dan mendorong analisis ad hoc. Anda juga dapat menghasilkan laporan yang indah dan menerbitkannya untuk dikonsumsi organisasi Anda di web dan di seluruh perangkat seluler.

Detail skenario

Gudang data perusahaan menyanggakan semua data Anda, apa pun sumber, format, atau skalanya. Gudang data juga menyediakan cara bagi Anda untuk menjalankan analitik berkinerja tinggi pada data Anda, sehingga Anda dapat memperoleh wawasan melalui dasbor analitik, laporan operasional, dan analitik tingkat lanjut.

Solusi ini membangun gudang data yang:

  • Adalah satu sumber kebenaran untuk data Anda.
  • Mengintegrasikan sumber data relasional dengan himpunan data lain yang tidak terstruktur.
  • Menggunakan pemodelan semantik dan alat visualisasi yang kuat untuk analisis data yang lebih sederhana.

Untuk mengintegrasikan data ke dalam platform terpadu, solusi ini menggunakan alur Azure Synapse Analytics. Alur ini menawarkan kemampuan ELT dan ETL. Secara khusus, Anda dapat menggunakan alur untuk memindahkan data dalam alur kerja berbasis data. Alur bekerja dengan berbagai format dan struktur data.

Alur menyimpan data di Data Lake Storage, yang dibangun di Blob Storage. Layanan penyimpanan ini dapat menangani data yang tidak terstruktur dalam volume besar.

Azure Synapse kumpulan Analytics Spark membentuk bagian penting dari solusi. Kumpulan ini membersihkan dan mengubah data yang disimpan di Azure. Kerangka kerja pemrosesan paralel mereka mendukung pemrosesan dalam memori untuk kecepatan dan efisiensi. Kumpulan juga mendukung penskalakan otomatis, sehingga dapat menambahkan atau menghapus simpul sesuai kebutuhan.

Kumpulan SQL khusus membuat data yang diproses tersedia untuk analitik berkinerja tinggi. Kumpulan ini menyimpan data dalam tabel relasional dengan penyimpanan kolumnar, format yang secara signifikan mengurangi biaya penyimpanan data. Ini juga meningkatkan performa kueri, sehingga Anda dapat menjalankan analitik dalam skala besar.

Potensi penggunaan kasus

Anda dapat menggunakan solusi ini dalam skenario seperti berikut ini yang melibatkan data dalam volume besar:

  • Integrasi perangkat IoT
  • Platform data pelanggan
  • Pemrosesan bahasa alami
  • Algoritma pembelajaran komputer

Harga

Untuk melihat perkiraan biaya solusi ini, lihat sampel harga di kalkulator harga.

Langkah berikutnya