Lebih baik bersama: lakehouse dan gudang
Berlaku untuk: Titik Akhir dan Gudang SQL di Microsoft Fabric
Artikel ini menjelaskan pengalaman pergudangan data dengan Titik Akhir SQL Lakehouse, dan skenario untuk penggunaan Lakehouse di pergudangan data.
Penting
Microsoft Fabric saat ini dalam PRATINJAU. Informasi ini berkaitan dengan produk prarilis yang mungkin dimodifikasi secara substansial sebelum dirilis. Microsoft tidak memberikan jaminan, tersurat maupun tersirat, sehubungan dengan informasi yang diberikan di sini.
Apa itu Titik Akhir SQL Lakehouse?
Dalam Fabric, ketika Anda membuat lakehouse, Gudang secara otomatis dibuat.
Titik Akhir SQL memungkinkan Anda mengkueri data di Lakehouse menggunakan bahasa T-SQL dan protokol TDS. Setiap Lakehouse memiliki satu Titik Akhir SQL, dan setiap ruang kerja dapat memiliki lebih dari satu Lakehouse. Jumlah Titik Akhir SQL di ruang kerja cocok dengan jumlah item Lakehouse.
- Titik Akhir SQL secara otomatis dihasilkan untuk setiap Lakehouse dan mengekspos tabel Delta dari Lakehouse sebagai tabel SQL yang dapat dikueri menggunakan bahasa T-SQL.
- Setiap tabel delta dari Lakehouse direpresentasikan sebagai satu tabel. Data harus dalam format delta.
- Himpunan data Power BI default dibuat untuk setiap Titik Akhir SQL dan mengikuti konvensi penamaan objek Lakehouse.
Tidak perlu membuat Titik Akhir SQL di Microsoft Fabric. Pengguna Microsoft Fabric tidak dapat membuat Titik Akhir SQL di ruang kerja. Titik Akhir SQL secara otomatis dibuat untuk setiap Lakehouse. Untuk mendapatkan Titik Akhir SQL, buat lakehouse dan Titik Akhir SQL akan dibuat secara otomatis untuk Lakehouse.
Catatan
Di balik layar, Titik Akhir SQL menggunakan mesin yang sama dengan Gudang untuk melayani kueri SQL berkinerja tinggi dan latensi rendah.
Penemuan Metadata Otomatis
Proses yang mulus membaca log delta dan dari folder file dan memastikan metadata SQL untuk tabel, seperti statistik, selalu diperbarui. Tidak ada tindakan pengguna yang diperlukan, dan tidak perlu mengimpor, menyalin data, atau menyiapkan infrastruktur. Untuk informasi selengkapnya, lihat Skema yang dihasilkan secara otomatis di Titik Akhir SQL.
Skenario yang diaktifkan Lakehouse untuk pergudangan data
Di Fabric, kami menawarkan satu gudang.
Lakehouse, dengan SQL Endpoint-nya, yang didukung oleh Gudang, dapat menyederhanakan pohon keputusan tradisional dari pola arsitektur batch, streaming, atau lambda. Bersama dengan gudang, lakehouse memungkinkan banyak skenario analitik aditif. Bagian ini mengeksplorasi cara memanfaatkan Lakehouse bersama dengan Gudang untuk strategi analitik ras terbaik.
Analitik dengan lapisan emas Fabric Lakehouse Anda
Salah satu strategi terkenal untuk organisasi data lake adalah arsitektur medali di mana file diatur dalam lapisan mentah (perunggu), terkonsolidasi (perak), dan halus (emas). Titik Akhir SQL dapat digunakan untuk menganalisis data dalam lapisan emas arsitektur medali jika file disimpan dalam Delta Lake
format, bahkan jika disimpan di luar Microsoft Fabric OneLake.
Anda dapat menggunakan pintasan OneLake untuk mereferensikan folder emas di akun penyimpanan Azure Data Lake eksternal yang dikelola oleh mesin Synapse Spark atau Azure Databricks.
Gudang juga dapat ditambahkan sebagai area subjek atau solusi berorientasi domain untuk materi pelajaran tertentu yang mungkin memiliki persyaratan analitik khusus.
Jika Anda memilih untuk menyimpan data Anda di Fabric, data akan selalu terbuka dan dapat diakses melalui API, format Delta, dan tentu saja T-SQL.
Kueri sebagai layanan atas tabel delta Anda dari Lakehouse dan item lain dari OneLake Data Hub
Ada kasus penggunaan di mana analis, ilmuwan data, atau insinyur data mungkin perlu mengkueri data dalam data lake. Dalam Fabric, pengalaman end to end ini benar-benar SaaSified.
OneLake adalah data lake logis tunggal terpadu untuk seluruh organisasi. OneLake adalah OneDrive untuk data. OneLake dapat berisi beberapa ruang kerja, misalnya, di sepanjang divisi organisasi Anda. Setiap item dalam Fabric membuatnya dapat diakses data melalui OneLake.
Data di Microsoft Fabric Lakehouse disimpan secara fisik di OneLake dengan struktur folder berikut:
- Folder
/Files
berisi file mentah dan tidak terkonsolidasi (perunggu) yang harus diproses oleh teknisi data sebelum dianalisis. File mungkin dalam berbagai format seperti CSV, Parquet, berbagai jenis gambar, dll. - Folder
/Tables
berisi data yang disempurnakan dan dikonsolidasikan (emas) yang siap untuk analisis bisnis. Data terkonsolidasi dalam format Delta Lake.
Titik Akhir SQL dapat membaca data di folder dalam /tables
OneLake. Analisis semampu mengkueri Titik Akhir SQL Lakehouse. Bersama dengan Gudang, Anda juga mendapatkan kueri lintas database dan kemampuan untuk beralih dari kueri baca-saja ke membangun logika bisnis tambahan di atas data OneLake Anda dengan Gudang Data Synapse.
Rekayasa Data dengan Spark, dan Melayani dengan SQL
Perusahaan berbasis data perlu menjaga sistem back-end dan analitik mereka tetap sinkron mendekati real-time dengan aplikasi yang berhadapan dengan pelanggan. Dampak transaksi harus mencerminkan secara akurat melalui proses end-to-end, aplikasi terkait, dan sistem pemrosesan transaksi online (OLTP).
Dalam Fabric, Anda dapat memanfaatkan Spark Streaming atau Rekayasa Data untuk mengumpulkan data Anda. Anda dapat menggunakan Titik Akhir SQL Lakehouse untuk memvalidasi kualitas data dan untuk proses T-SQL yang ada. Ini dapat dilakukan dalam arsitektur medali atau dalam beberapa lapisan Lakehouse Anda, menyajikan perunggu, perak, emas, atau penahapan, kurasi, dan data yang disempurnakan. Anda dapat menyesuaikan folder dan tabel yang dibuat melalui Spark untuk memenuhi persyaratan rekayasa data dan bisnis Anda. Setelah siap, Anda kemudian dapat memanfaatkan Gudang untuk melayani semua aplikasi kecerdasan bisnis hilir Anda dan kasus penggunaan analitik lainnya, tanpa menyalin data, menggunakan Tampilan atau menyempurnakan data menggunakan CREATE TABLE AS SELECT (CTAS), prosedur tersimpan, dan perintah DML / DDL lainnya.
Integrasi dengan lapisan emas Open Lakehouse Anda
Titik Akhir SQL tidak tercakup ke analitik data hanya di Fabric Lakehouse. Titik Akhir SQL memungkinkan Anda menganalisis data lake di lakehouse apa pun, menggunakan Synapse Spark, Azure Databricks, atau mesin rekayasa data lain yang berpusat pada lake. Data dapat disimpan di Azure Data Lake Storage atau Amazon S3.
Integrasi dua arah yang ketat dengan Fabric Lakehouse ini selalu dapat diakses melalui mesin apa pun dengan API terbuka, format Delta, dan tentu saja T-SQL.
Virtualisasi Data data lake eksternal dengan Pintasan
Anda dapat menggunakan pintasan OneLake untuk mereferensikan folder emas di akun penyimpanan Azure Data Lake eksternal yang dikelola oleh mesin Synapse Spark atau Azure Databricks, serta tabel delta apa pun yang disimpan di Amazon S3.
Folder apa pun yang direferensikan menggunakan pintasan dapat dianalisis dari Titik Akhir SQL dan tabel SQL dibuat untuk himpunan data yang direferensikan. Tabel SQL dapat digunakan untuk mengekspos data di data lake yang dikelola secara eksternal dan mengaktifkan analitik pada mereka.
Pintasan ini bertindak sebagai gudang virtual yang dapat memanfaatkan dari gudang untuk persyaratan analitik hilir tambahan, atau dikueri secara langsung.
Gunakan langkah-langkah berikut untuk menganalisis data di akun penyimpanan data lake eksternal:
- Buat pintasan yang mereferensikan folder di penyimpanan Azure Data Lake atau akun Amazon S3. Setelah Anda memasukkan detail koneksi dan kredensial, pintasan ditampilkan di Lakehouse.
- Beralih ke Titik Akhir SQL Lakehouse dan temukan tabel SQL yang memiliki nama yang cocok dengan nama pintasan. Tabel SQL ini mereferensikan folder di folder ADLS/S3.
- Kueri tabel SQL yang mereferensikan data di ADLS/S3. Tabel dapat digunakan sebagai tabel lain di Titik Akhir SQL. Anda dapat menggabungkan tabel yang mereferensikan data di akun penyimpanan yang berbeda.
Catatan
Jika tabel SQL tidak segera ditampilkan di Titik Akhir SQL, Anda mungkin perlu menunggu beberapa menit. Tabel SQL yang mereferensikan data di akun penyimpanan eksternal dibuat dengan penundaan.
Menganalisis data yang diarsipkan, atau historis dalam data lake
Pemartisian data adalah teknik pengoptimalan akses data terkenal di data lake. Himpunan data yang dipartisi disimpan dalam struktur folder hierarkis dalam format /year=<year>/month=<month>/day=<day>
, di mana year
, month
, dan day
adalah kolom partisi. Ini memungkinkan Anda untuk menyimpan data historis yang dipisahkan secara logis dalam format yang memungkinkan mesin komputasi membaca data sesuai kebutuhan dengan pemfilteran berkinerja, versus membaca seluruh direktori dan semua folder dan file yang terkandung di dalamnya.
Data yang dipartisi memungkinkan akses yang lebih cepat jika kueri memfilter predikat yang membandingkan kolom predikat dengan nilai.
Titik Akhir SQL dapat dengan mudah membaca jenis data ini tanpa memerlukan konfigurasi. Misalnya, Anda dapat menggunakan aplikasi apa pun untuk mengarsipkan data ke dalam data lake, termasuk SQL Server 2022 atau Azure SQL Managed Instance. Setelah Anda mempartisi data dan mendaratkannya di danau untuk tujuan pengarsipan dengan tabel eksternal, Titik Akhir SQL dapat membaca tabel Delta Lake yang dipartisi sebagai tabel SQL dan memungkinkan organisasi Anda menganalisisnya. ini mengurangi total biaya kepemilikan, mengurangi duplikasi data, dan menyalakan big data, AI, skenario analitik lainnya.
Virtualisasi data data Fabric dengan pintasan
Dalam Fabric, ruang kerja memungkinkan Anda memisahkan data berdasarkan persyaratan bisnis, geografis, atau peraturan yang kompleks.
Titik Akhir SQL memungkinkan Anda untuk meninggalkan data di tempat dan masih menganalisis data di Gudang atau Lakehouse, bahkan di ruang kerja Microsoft Fabric lainnya, melalui virtualisasi yang mulus. Setiap Microsoft Fabric Lakehouse menyimpan data di OneLake.
Pintasan memungkinkan Anda mereferensikan folder di lokasi OneLake mana pun.
Setiap Microsoft Fabric Warehouse menyimpan data tabel di OneLake. Jika tabel hanya ditambahkan, data tabel diekspos sebagai himpunan data Delta Lake di OneLake. Pintasan memungkinkan Anda mereferensikan folder di OneLake mana pun tempat tabel Gudang diekspos.
Berbagi dan kueri lintas ruang kerja
Meskipun ruang kerja memungkinkan Anda memisahkan data berdasarkan persyaratan bisnis, geografis, atau peraturan yang kompleks, terkadang Anda perlu memfasilitasi berbagi di seluruh lini ini untuk kebutuhan analitik tertentu.
Titik Akhir SQL Lakehouse dapat memungkinkan berbagi data yang mudah antara departemen dan pengguna, di mana pengguna dapat membawa kapasitas dan gudang mereka sendiri. Ruang kerja mengatur departemen, unit bisnis, atau domain analitis. Dengan menggunakan pintasan, pengguna dapat menemukan data Gudang atau Lakehouse apa pun. Pengguna dapat langsung melakukan analitik yang disesuaikan sendiri dari data bersama yang sama. Selain membantu penagihan balik departemen dan alokasi penggunaan, ini juga merupakan versi nol salin data.
Titik Akhir SQL memungkinkan kueri tabel apa pun dan berbagi yang mudah. Kontrol tambahan peran ruang kerja dan peran keamanan yang dapat dilapisi lebih lanjut untuk memenuhi persyaratan bisnis tambahan.
Gunakan langkah-langkah berikut untuk mengaktifkan analitik data lintas ruang kerja:
- Buat pintasan OneLake yang mereferensikan tabel atau folder di ruang kerja yang bisa Anda akses.
- Pilih Lakehouse atau Gudang yang berisi tabel atau folder Delta Lake yang ingin Anda analisis. Setelah Anda memilih tabel/folder, pintasan akan ditampilkan di Lakehouse.
- Beralih ke Titik Akhir SQL Lakehouse dan temukan tabel SQL yang memiliki nama yang cocok dengan nama pintasan. Tabel SQL ini mereferensikan folder di ruang kerja lain.
- Kueri tabel SQL yang mereferensikan data di ruang kerja lain. Tabel dapat digunakan sebagai tabel lain di Titik Akhir SQL. Anda dapat menggabungkan tabel yang mereferensikan data di ruang kerja yang berbeda.
Catatan
Jika tabel SQL tidak segera ditampilkan di Titik Akhir SQL, Anda mungkin perlu menunggu beberapa menit. Tabel SQL yang mereferensikan data di ruang kerja lain dibuat dengan penundaan.
Menganalisis data yang dipartisi
Pemartisian data adalah teknik pengoptimalan akses data terkenal di data lake. Himpunan data yang dipartisi disimpan dalam struktur folder hierarkis dalam format /year=<year>/month=<month>/day=<day>
, di mana year
, month
, dan day
adalah kolom partisi. Himpunan data yang dipartisi memungkinkan akses data yang lebih cepat jika kueri memfilter data menggunakan predikat yang memfilter data dengan membandingkan kolom predikat dengan nilai.
Titik Akhir SQL dapat mewakili himpunan data Delta Lake yang dipartisi sebagai tabel SQL dan memungkinkan Anda menganalisisnya.