Membuat kueri data lake atau lakehouse dengan menggunakan Azure Synapse tanpa server

Azure Data Lake
Azure Data Lake Storage
Azure Synapse Analytics
Azure Blob Storage

Artikel ini menjelaskan pendekatan alternatif untuk proyek gudang data yang disebut analisis data eksplorasi (EDA). Pendekatan ini dapat mengurangi tantangan operasi ekstrak, transformasi, muatan (ETL). Ini berfokus pertama pada menghasilkan wawasan bisnis, lalu beralih ke pemecahan tugas pemodelan dan ETL.

Arsitektur

Diagram that shows a sample EDA architecture.

Unduh file Visio arsitektur ini.

Untuk EDA, Anda hanya memperhatikan sisi kanan diagram. Azure Synapse SQL serverless digunakan sebagai mesin komputasi pada file data lake.

Untuk mencapai EDA:

  • Kueri T-SQL dijalankan langsung di Azure Synapse SQL serverless atau Azure Synapse Spark.
  • Kueri dijalankan dari alat kueri grafis seperti Power BI atau Azure Data Studio.

Sebaiknya simpan semua data lakehouse menggunakan Parquet atau Delta.

Anda dapat menerapkan sisi kiri diagram (penyerapan data) dengan menggunakan alat ekstraksi, pemuatan, transformasi (ELT) apa pun. Hal ini tidak berpengaruh pada EDA.

Komponen

Alternatif

  • Anda dapat mengganti atau melengkapi kumpulan Synapse SQL serverless dengan Azure Databricks.

  • Daripada menggunakan model lakehouse dengan kumpulan Synapse SQL serverless, Anda dapat menggunakan kumpulan SQL khusus Azure Synapse untuk menyimpan data perusahaan. Tinjau kasus penggunaan dan pertimbangan dalam artikel ini dan sumber daya terkait untuk memutuskan teknologi mana yang akan digunakan.

Detail skenario

Solusi ini menunjukkan implementasi pendekatan EDA untuk proyek gudang data. Pendekatan ini dapat mengurangi tantangan operasi ETL. Ini berfokus terlebih dahulu pada menghasilkan wawasan bisnis dan kemudian beralih untuk memecahkan pemodelan dan tugas ETL.

Kemungkinan kasus penggunaan

Skenario lain yang dapat memanfaatkan pola analitik ini:

  • Analisis preskriptif. Ajukan pertanyaan tentang data Anda, seperti Tindakan Terbaik Berikutnya, atau apa tindakan selanjutnya? Gunakan data agar lebih berdasarkan data dan lebih sedikit berdasarkan firasat. Data mungkin tidak terstruktur dan dari banyak sumber eksternal dengan kualitas yang bervariasi. Anda mungkin ingin menggunakan data secepat mungkin untuk mengevaluasi strategi bisnis Anda tanpa benar-benar memuat data ke dalam gudang data. Anda mungkin membuang data setelah Anda menjawab pertanyaan Anda.

  • ETL layanan mandiri. Lakukan ETL/ELT saat melakukan aktivitas kotak pasir data (EDA). Transformasikan data agar menjadi berharga. Melakukan tindakan ini dapat meningkatkan skala pengembang ETL Anda.

Tentang analisis data eksplorasi

Sebelum melihat lebih dekat cara kerja EDA, sebaiknya ringkas pendekatan tradisional untuk proyek gudang data. Pendekatan tradisional terlihat seperti ini:

  • Persyaratan pengumpulan. Dokumentasikan apa yang harus dilakukan dengan data.

  • Pemodelan data. Tentukan cara memodelkan data numerik dan atribut ke dalam tabel fakta dan dimensi. Biasanya, Anda melakukan langkah ini sebelum memperoleh data baru.

  • ETL. Dapatkan data dan masukkan ke dalam model gudang data.

Langkah-langkah ini bisa memakan waktu berminggu-minggu atau bahkan berbulan-bulan. Hanya dengan begitu Anda dapat mulai menanyakan data dan memecahkan masalah bisnis. Pengguna melihat nilai hanya setelah laporan dibuat. Arsitektur solusi biasanya terlihat seperti ini:

Diagram that shows the traditional data warehouse architecture.

Anda dapat melakukan tindakan ini dengan cara lain yang berfokus pertama pada menghasilkan wawasan bisnis dan kemudian beralih ke penyelesaian tugas pemodelan dan ETL. Prosesnya mirip dengan proses ilmu data. Hal ini terlihat seperti ini:

Diagram that describes data sandboxing.

Dalam industri, proses ini disebut EDA, atau analisis data eksplorasi.

Berikut langkah-langkahnya:

  • Akuisisi data. Pertama, Anda perlu menentukan sumber data apa yang perlu Anda serap ke dalam data lake/kotak pasir Anda. Anda kemudian perlu membawa data tersebut ke area arahan danau Anda. Azure menyediakan alat seperti Azure Data Factory dan Azure Logic Apps yang dapat menyerap data dengan cepat.

  • Kotak pasir data. Awalnya, seorang analis bisnis dan seorang insinyur yang ahli dalam analisis data eksplorasi melalui Azure Synapse Analytics serverless atau SQL dasar bekerja sama. Selama fase ini, mereka mencoba mengungkap wawasan bisnis menggunakan data baru. EDA adalah proses berulang. Anda mungkin perlu menyerap lebih banyak data, berbicara dengan UKM, mengajukan lebih banyak pertanyaan, atau menghasilkan visualisasi.

  • Evaluasi. Setelah Anda menemukan wawasan bisnis, Anda perlu mengevaluasi apa yang harus dilakukan dengan data tersebut. Anda mungkin ingin menyimpan data ke dalam gudang data (jadi Anda pindah ke fase pemodelan). Dalam kasus lain, Anda mungkin memutuskan untuk menyimpan data di data lake/lakehouse dan menggunakannya untuk analitik prediktif (algoritma pembelajaran mesin). Dalam kasus lain, Anda mungkin memutuskan untuk mengisi ulang sistem pencatatan Anda dengan wawasan baru. Berdasarkan keputusan ini, Anda dapat memperoleh pemahaman yang lebih baik tentang apa yang perlu Anda lakukan selanjutnya. Anda mungkin tidak perlu melakukan ETL.

Metode ini adalah inti dari analisis layanan mandiri yang sebenarnya. Dengan menggunakan data lake dan alat kueri seperti Azure Synapse serverless yang memahami pola kueri data lake, Anda dapat menyerahkan aset data Anda ke tangan pebisnis yang memahami sedikit SQL. Anda dapat secara radikal mempersingkat waktu-ke-nilai menggunakan metode ini dan menghilangkan beberapa risiko yang terkait dengan inisiatif data perusahaan.

Pertimbangan

Pertimbangan ini mengimplementasikan pilar Azure Well-Architected Framework, yang merupakan serangkaian tenet panduan yang dapat digunakan untuk meningkatkan kualitas beban kerja. Untuk informasi selengkapnya, lihat Microsoft Azure Well-Architected Framework.

Ketersediaan

Kumpulan Azure Synapse SQL serverless adalah fitur platform as a service (PaaS) yang dapat memenuhi persyaratan ketersediaan tinggi (HA) dan pemulihan bencana (DR).

Kumpulan serverless tersedia sesuai permintaan. Kumpulan ini tidak memerlukan peningkatan, penurunan, perluasan, atau penciutan skala atau administrasi apa pun. Mereka menggunakan model bayar per kueri, jadi tidak ada kapasitas yang tidak digunakan setiap saat. Kumpulan serverless ideal untuk:

  • Eksplorasi ilmu data ad-hoc di T-SQL.
  • Pembuatan prototipe awal untuk entitas gudang data.
  • Menentukan tampilan yang dapat digunakan konsumen, misalnya di Power BI, untuk skenario yang dapat menoleransi kelambatan performa.
  • Analisis data eksplorasi.

Operasional

Synapse SQL serverless menggunakan T-SQL standar untuk kueri dan operasi. Anda dapat menggunakan UI ruang kerja Synapse, Azure Data Studio, atau SQL Server Management Studio sebagai alat T-SQL.

Pengoptimalan biaya

Optimalisasi biaya adalah tentang mencari cara untuk mengurangi pengeluaran yang tidak perlu dan meningkatkan efisiensi operasional. Untuk informasi selengkapnya, lihat Gambaran umum pilar pengoptimalan biaya.

  • Harga Data Lake Store bergantung pada jumlah data yang Anda simpan dan seberapa sering Anda menggunakan data tersebut. Harga sampel mencakup satu TB data yang disimpan, dengan asumsi transaksional selengkapnya. Satu TB mengacu pada ukuran data lake, bukan ukuran database warisan asli.

  • Kumpulan Azure Synapse Spark menetapkan harga berdasarkan ukuran node, jumlah instans, dan waktu aktif. Contohnya mengasumsikan satu node komputasi kecil dengan pemanfaatan antara lima jam per minggu dan 40 jam per bulan.

  • Kumpulan SQL serverless Azure Synapse menetapkan harga berdasarkan TB data yang diproses. Sampel mengasumsikan 50 TB diproses per bulan. Angka ini mengacu pada ukuran data lake, bukan ukuran database warisan asli.

Kontributor

Artikel ini sedang diperbarui dan dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Langkah berikutnya