Lebih baik bersama: lakehouse dan gudang

Berlaku untuk: Titik akhir analitik SQL dan Gudang di Microsoft Fabric

Artikel ini menjelaskan beban kerja pergudangan data dengan titik akhir analitik SQL Lakehouse, dan skenario untuk penggunaan Lakehouse di pergudangan data.

Apa itu titik akhir analitik Lakehouse SQL?

Di Fabric, saat Anda membuat lakehouse, Gudang secara otomatis dibuat.

Titik akhir analitik SQL memungkinkan Anda mengkueri data di Lakehouse menggunakan bahasa T-SQL dan protokol TDS. Setiap Lakehouse memiliki satu titik akhir analitik SQL, dan setiap ruang kerja dapat memiliki lebih dari satu Lakehouse. Jumlah titik akhir analitik SQL di ruang kerja cocok dengan jumlah item Lakehouse.

  • Titik akhir analitik SQL secara otomatis dihasilkan untuk setiap Lakehouse dan mengekspos tabel Delta dari Lakehouse sebagai tabel SQL yang dapat dikueri menggunakan bahasa T-SQL.
  • Setiap tabel delta dari Lakehouse diwakili sebagai satu tabel. Data harus dalam format delta.
  • Model semantik Power BI default dibuat untuk setiap titik akhir analitik SQL dan mengikuti konvensi penamaan objek Lakehouse.

Tidak perlu membuat titik akhir analitik SQL di Microsoft Fabric. Pengguna Microsoft Fabric tidak dapat membuat titik akhir analitik SQL di ruang kerja. Titik akhir analitik SQL secara otomatis dibuat untuk setiap Lakehouse. Untuk mendapatkan titik akhir analitik SQL, buat lakehouse dan titik akhir analitik SQL akan dibuat secara otomatis untuk Lakehouse.

Catatan

Di balik layar, titik akhir analitik SQL menggunakan mesin yang sama dengan Gudang untuk melayani kueri SQL latensi rendah berkinerja tinggi.

Penemuan Metadata Otomatis

Proses yang mulus membaca log delta dan dari folder file dan memastikan metadata SQL untuk tabel, seperti statistik, selalu diperbarui. Tidak ada tindakan pengguna yang diperlukan, dan tidak perlu mengimpor, menyalin data, atau menyiapkan infrastruktur. Untuk informasi selengkapnya, lihat Skema yang dihasilkan secara otomatis di titik akhir analitik SQL.

Skenario yang memungkinkan Lakehouse untuk pergudangan data

Di Fabric, kami menawarkan satu gudang.

Lakehouse, dengan titik akhir analitik SQL-nya, didukung oleh Gudang, dapat menyederhanakan pohon keputusan tradisional pola arsitektur batch, streaming, atau lambda. Bersama dengan gudang, lakehouse memungkinkan banyak skenario analitik aditif. Bagian ini mengeksplorasi cara menggunakan Lakehouse bersama dengan Gudang untuk strategi analitik ras terbaik.

Analitik dengan lapisan emas Fabric Lakehouse Anda

Salah satu strategi terkenal untuk organisasi data lake adalah arsitektur medali tempat file diatur dalam lapisan mentah (perunggu), terkonsolidasi (perak), dan disempurnakan (emas). Titik akhir analitik SQL dapat digunakan untuk menganalisis data dalam lapisan emas arsitektur medali jika file disimpan dalam Delta Lake format, bahkan jika disimpan di luar Microsoft Fabric OneLake.

Anda dapat menggunakan pintasan OneLake untuk mereferensikan folder emas di akun penyimpanan Azure Data Lake eksternal yang dikelola oleh mesin Synapse Spark atau Azure Databricks.

Gudang juga dapat ditambahkan sebagai area subjek atau solusi berorientasi domain untuk materi pelajaran tertentu yang dapat memiliki persyaratan analitik khusus.

Jika Anda memilih untuk menyimpan data Anda di Fabric, data tersebut akan selalu terbuka dan dapat diakses melalui API, format Delta, dan tentu saja T-SQL.

Kueri sebagai layanan melalui tabel delta Anda dari Lakehouse dan item lain dari hub data OneLake

Ada kasus penggunaan di mana analis, ilmuwan data, atau insinyur data mungkin perlu mengkueri data dalam data lake. Dalam Fabric, pengalaman end to end ini benar-benar SaaSified.

OneLake adalah data lake logis tunggal, terpadu untuk seluruh organisasi. OneLake adalah OneDrive untuk data. OneLake dapat berisi beberapa ruang kerja, misalnya, di sepanjang divisi organisasi Anda. Setiap item dalam Fabric membuatnya dapat diakses data melalui OneLake.

Data di Microsoft Fabric Lakehouse disimpan secara fisik di OneLake dengan struktur folder berikut:

  • Folder /Files berisi file mentah dan tidak terkonsolidasi (perunggu) yang harus diproses oleh teknisi data sebelum dianalisis. File mungkin dalam berbagai format seperti CSV, Parquet, berbagai jenis gambar, dll.
  • Folder /Tables berisi data yang disempurnakan dan dikonsolidasikan (emas) yang siap untuk analisis bisnis. Data terkonsolidasi dalam format Delta Lake.

Titik akhir analitik SQL dapat membaca data di folder dalam /tables OneLake. Analisis semampu mengkueri titik akhir analitik SQL lakehouse. Bersama dengan Gudang, Anda juga mendapatkan kueri lintas database dan kemampuan untuk beralih tanpa hambatan dari kueri baca-saja ke membangun logika bisnis tambahan di atas data OneLake Anda dengan Gudang Data Synapse.

Rekayasa Data dengan Spark, dan Melayani dengan SQL

Perusahaan berbasis data perlu menjaga sistem back-end dan analitik mereka tetap sinkron mendekati real time dengan aplikasi yang berhadapan dengan pelanggan. Dampak transaksi harus mencerminkan secara akurat melalui proses end-to-end, aplikasi terkait, dan sistem pemrosesan transaksi online (OLTP).

Di Fabric, Anda dapat menggunakan Spark Streaming atau Rekayasa Data untuk mengumpulkan data Anda. Anda dapat menggunakan titik akhir analitik Lakehouse SQL untuk memvalidasi kualitas data dan untuk proses T-SQL yang ada. Ini dapat dilakukan dalam arsitektur medali atau dalam beberapa lapisan Lakehouse Anda, menyajikan perunggu, perak, emas, atau penahapan, dikumpulkan, dan disempurnakan data. Anda dapat menyesuaikan folder dan tabel yang dibuat melalui Spark untuk memenuhi persyaratan rekayasa data dan bisnis Anda. Ketika siap, Gudang dapat melayani semua aplikasi kecerdasan bisnis hilir Anda dan kasus penggunaan analitik lainnya, tanpa menyalin data, menggunakan Tampilan atau menyempurnakan data menggunakan CREATE TABLE AS SELECT (CTAS), prosedur tersimpan, dan perintah DML / DDL lainnya.

Integrasi dengan lapisan emas Open Lakehouse Anda

Titik akhir analitik SQL tidak tercakup ke analitik data hanya di Fabric Lakehouse. Titik akhir analitik SQL memungkinkan Anda menganalisis data lake di lakehouse apa pun, menggunakan Synapse Spark, Azure Databricks, atau mesin rekayasa data lain yang berpusat pada lake. Data dapat disimpan di Azure Data Lake Storage atau Amazon S3.

Integrasi dua arah yang ketat dengan Fabric Lakehouse ini selalu dapat diakses melalui mesin apa pun dengan API terbuka, format Delta, dan tentu saja T-SQL.

Virtualisasi Data data lake eksternal dengan pintasan

Anda dapat menggunakan pintasan OneLake untuk mereferensikan folder emas di akun penyimpanan Azure Data Lake eksternal yang dikelola oleh mesin Synapse Spark atau Azure Databricks, serta tabel delta apa pun yang disimpan di Amazon S3.

Folder apa pun yang direferensikan menggunakan pintasan dapat dianalisis dari titik akhir analitik SQL dan tabel SQL dibuat untuk data yang direferensikan. Tabel SQL dapat digunakan untuk mengekspos data di data lake yang dikelola secara eksternal dan mengaktifkan analitik pada mereka.

Pintasan ini bertindak sebagai gudang virtual yang dapat dimanfaatkan dari gudang untuk persyaratan analitik hilir tambahan, atau dikueri secara langsung.

Gunakan langkah-langkah berikut untuk menganalisis data di akun penyimpanan data lake eksternal:

  1. Buat pintasan yang mereferensikan folder di penyimpanan Azure Data Lake atau akun Amazon S3. Setelah Anda memasukkan detail koneksi dan kredensial, pintasan ditampilkan di Lakehouse.
  2. Beralih ke titik akhir analitik SQL Lakehouse dan temukan tabel SQL yang memiliki nama yang cocok dengan nama pintasan. Tabel SQL ini mereferensikan folder di folder ADLS/S3.
  3. Kueri tabel SQL yang mereferensikan data di ADLS/S3. Tabel dapat digunakan sebagai tabel lain di titik akhir analitik SQL. Anda dapat menggabungkan tabel yang mereferensikan data di akun penyimpanan yang berbeda.

Catatan

Jika tabel SQL tidak segera ditampilkan di titik akhir analitik SQL, Anda mungkin perlu menunggu beberapa menit. Tabel SQL yang mereferensikan data di akun penyimpanan eksternal dibuat dengan penundaan.

Menganalisis data yang diarsipkan, atau historis dalam data lake

Pemartisian data adalah teknik pengoptimalan akses data terkenal di data lake. Himpunan data yang dipartisi disimpan dalam struktur folder hierarkis dalam format /year=<year>/month=<month>/day=<day>, di mana year, month, dan day adalah kolom partisi. Ini memungkinkan Anda untuk menyimpan data historis yang dipisahkan secara logis dalam format yang memungkinkan mesin komputasi membaca data sesuai kebutuhan dengan pemfilteran berkinerja, versus membaca seluruh direktori dan semua folder dan file yang terkandung di dalamnya.

Data yang dipartisi memungkinkan akses yang lebih cepat jika kueri difilter pada predikat yang membandingkan kolom predikat dengan nilai.

Titik akhir analitik SQL dapat dengan mudah membaca jenis data ini tanpa memerlukan konfigurasi. Misalnya, Anda dapat menggunakan aplikasi apa pun untuk mengarsipkan data ke dalam data lake, termasuk SQL Server 2022 atau Azure SQL Managed Instance. Setelah Anda mempartisi data dan mendaratkannya di danau untuk tujuan pengarsipan dengan tabel eksternal, titik akhir analitik SQL dapat membaca tabel Delta Lake yang dipartisi sebagai tabel SQL dan memungkinkan organisasi Anda menganalisisnya. Ini mengurangi total biaya kepemilikan, mengurangi duplikasi data, dan menerangi big data, AI, skenario analitik lainnya.

Virtualisasi data data Fabric dengan pintasan

Dalam Fabric, ruang kerja memungkinkan Anda memisahkan data berdasarkan persyaratan bisnis, geografis, atau peraturan yang kompleks.

Titik akhir analitik SQL memungkinkan Anda meninggalkan data dan masih menganalisis data di Gudang atau Lakehouse, bahkan di ruang kerja Microsoft Fabric lainnya, melalui virtualisasi yang mulus. Setiap Microsoft Fabric Lakehouse menyimpan data di OneLake.

Pintasan memungkinkan Anda mereferensikan folder di lokasi OneLake mana pun.

Setiap Microsoft Fabric Warehouse menyimpan data tabel di OneLake. Jika tabel hanya ditambahkan, data tabel diekspos sebagai data Delta Lake di OneLake. Pintasan memungkinkan Anda mereferensikan folder di OneLake mana pun tempat tabel Gudang diekspos.

Berbagi dan kueri lintas ruang kerja

Meskipun ruang kerja memungkinkan Anda memisahkan data berdasarkan persyaratan bisnis, geografis, atau peraturan yang kompleks, terkadang Anda perlu memfasilitasi berbagi di seluruh baris ini untuk kebutuhan analitik tertentu.

Titik akhir analitik Lakehouse SQL dapat memungkinkan berbagi data yang mudah antara departemen dan pengguna, di mana pengguna dapat membawa kapasitas dan gudang mereka sendiri. Ruang kerja mengatur departemen, unit bisnis, atau domain analitik. Dengan menggunakan pintasan, pengguna dapat menemukan data Gudang atau Lakehouse apa pun. Pengguna dapat langsung melakukan analitik yang disesuaikan sendiri dari data bersama yang sama. Selain membantu dengan penagihan balik departemen dan alokasi penggunaan, ini adalah versi nol salin data juga.

Titik akhir analitik SQL memungkinkan kueri tabel apa pun dan berbagi yang mudah. Kontrol tambahan peran ruang kerja dan peran keamanan yang dapat dilapisi lebih lanjut untuk memenuhi persyaratan bisnis tambahan.

Gunakan langkah-langkah berikut untuk mengaktifkan analitik data lintas ruang kerja:

  1. Buat pintasan OneLake yang mereferensikan tabel atau folder di ruang kerja yang bisa Anda akses.
  2. Pilih Lakehouse atau Gudang yang berisi tabel atau folder Delta Lake yang ingin Anda analisis. Setelah Anda memilih tabel/folder, pintasan ditampilkan di Lakehouse.
  3. Beralih ke titik akhir analitik SQL Lakehouse dan temukan tabel SQL yang memiliki nama yang cocok dengan nama pintasan. Tabel SQL ini mereferensikan folder di ruang kerja lain.
  4. Kueri tabel SQL yang mereferensikan data di ruang kerja lain. Tabel dapat digunakan sebagai tabel lain di titik akhir analitik SQL. Anda dapat menggabungkan tabel yang mereferensikan data di ruang kerja yang berbeda.

Catatan

Jika tabel SQL tidak segera ditampilkan di titik akhir analitik SQL, Anda mungkin perlu menunggu beberapa menit. Tabel SQL yang mereferensikan data di ruang kerja lain dibuat dengan penundaan.

Menganalisis data yang dipartisi

Pemartisian data adalah teknik pengoptimalan akses data terkenal di data lake. Himpunan data yang dipartisi disimpan dalam struktur folder hierarkis dalam format /year=<year>/month=<month>/day=<day>, di mana year, month, dan day adalah kolom partisi. Himpunan data yang dipartisi memungkinkan akses data yang lebih cepat jika kueri memfilter data menggunakan predikat yang memfilter data dengan membandingkan kolom predikat dengan nilai.

Titik akhir analitik SQL dapat mewakili himpunan data Delta Lake yang dipartisi sebagai tabel SQL dan memungkinkan Anda menganalisisnya.