Tabel Lakehouse dan Delta Lake
Microsoft Fabric Lakehouse adalah platform arsitektur data untuk menyimpan, mengelola, dan menganalisis data terstruktur dan tidak terstruktur dalam satu lokasi. Untuk mencapai akses data yang mulus di semua mesin komputasi di Microsoft Fabric, Delta Lake dipilih sebagai format tabel terpadu.
Menyimpan data di Lakehouse menggunakan kemampuan seperti Muat ke Tabel atau metode yang dijelaskan dalam Opsi untuk memasukkan data ke Fabric Lakehouse, semua data disimpan dalam format Delta. Delta juga digunakan sebagai mode format tabel Spark default dalam pengalaman kode-pertama seperti Notebooks dan Definisi Pekerjaan Spark.
Penting
Microsoft Fabric saat ini dalam PRATINJAU. Informasi ini berkaitan dengan produk prarilis yang mungkin dimodifikasi secara substansial sebelum dirilis. Microsoft tidak memberikan jaminan, dinyatakan atau tersirat, sehubungan dengan informasi yang diberikan di sini.
Untuk pengenalan yang lebih komprehensif tentang format tabel Delta Lake, ikuti tautan di bagian Langkah berikutnya.
Format big data, Apache Spark, dan tabel warisan
Microsoft Fabric Runtime untuk Apache Spark menggunakan fondasi yang sama dengan Azure Synapse Analytics Runtime untuk Apache Spark, tetapi berisi perbedaan utama untuk memberikan perilaku yang lebih efisien di semua mesin dalam layanan Microsoft Fabric. Di Microsoft Fabric, fitur performa utama diaktifkan secara default. Pengguna Apache Spark tingkat lanjut dapat mengembalikan konfigurasi ke nilai sebelumnya agar lebih selaras dengan skenario tertentu.
Microsoft Fabric Lakehouse dan mesin Apache Spark mendukung semua jenis tabel, baik terkelola maupun tidak terkelola; ini termasuk tampilan dan format tabel Hive non-Delta reguler. Tabel yang ditentukan menggunakan PARQUET, CSV, AVRO, JSON, dan format file kompatibel Apache Hive berfungsi seperti yang diharapkan.
Pengalaman antarmuka pengguna penjelajah Lakehouse bervariasi tergantung pada jenis tabel. Saat ini, penjelajah Lakehouse hanya merender objek tabel.
Perbedaan konfigurasi dengan Azure Synapse Analytics
Tabel berikut berisi perbedaan konfigurasi antara Azure Synapse Analytics dan Microsoft Fabric Runtime for Apache Spark.
Konfigurasi Apache Spark | Nilai Microsoft Fabric | nilai Azure Synapse Analytics | Catatan |
---|---|---|---|
spark.sql.sources.default | delta | Parket | Format tabel default |
spark.sql.parquet.vorder.enabled | true | T/A | Penulis V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | T/A | Batas ukuran halaman kamus untuk V-Order |
spark.microsoft.delta.optimizeWrite.enabled | TRUE | unset (false) | Optimalkan Tulis |
Penemuan otomatis tabel
Penjelajah Lakehouse menyediakan tampilan objek seperti pohon dalam item Microsoft Fabric Lakehouse. Ini memiliki kemampuan utama untuk menemukan dan menampilkan tabel yang dijelaskan dalam repositori metadata dan di penyimpanan OneLake. Referensi tabel ditampilkan di bawah bagian Tables
antarmuka pengguna penjelajah Lakehouse. Penemuan otomatis juga berlaku untuk tabel yang ditentukan melalui pintasan OneLake.
Tabel di atas pintasan
Microsoft Fabric Lakehouse mendukung tabel yang ditentukan melalui pintasan OneLake, untuk memberikan kompatibilitas paling tinggi dan tanpa pergerakan data. Tabel berikut berisi skenario praktik terbaik untuk setiap jenis item saat menggunakannya melalui pintasan.
Tujuan pintasan | Tempat membuat pintasan | Praktik terbaik |
---|---|---|
Tabel Delta Lake | Tables bagian |
Jika beberapa tabel ada di tujuan, buat satu pintasan per tabel. |
Folder dengan file | Files bagian |
Gunakan Apache Spark untuk menggunakan tujuan secara langsung menggunakan jalur relatif. Muat data ke tabel Delta asli Lakehouse untuk performa maksimum. |
Tabel Apache Hive warisan | Files bagian |
Gunakan Apache Spark untuk menggunakan tujuan secara langsung menggunakan jalur relatif, atau buat referensi katalog metadata menggunakan CREATE EXTERNAL TABLE sintaks. Muat data ke tabel Delta asli Lakehouse untuk performa maksimum. |
Muat ke Tabel
Microsoft Fabric Lakehouse menyediakan antarmuka pengguna yang nyaman dan produktif untuk menyederhanakan pemuatan data ke dalam tabel Delta. Fitur Muat ke Tabel memungkinkan pengalaman visual memuat format dan folder file umum ke Delta untuk meningkatkan produktivitas analitis ke semua persona. Untuk mempelajari selengkapnya tentang fitur Muat ke Tabel secara detail, baca dokumentasi referensi Lakehouse Load to Tables .
Pengoptimalan tabel Delta Lake
Menjaga bentuk tabel untuk cakupan skenario analitik yang luas bukanlah prestasi kecil. Microsoft Fabric Lakehouse secara proaktif memungkinkan parameter penting untuk meminimalkan masalah umum yang terkait dengan tabel big data, seperti pemadatan dan ukuran file kecil, dan untuk memaksimalkan performa kueri. Namun, ada banyak skenario di mana parameter tersebut membutuhkan perubahan. Pengoptimalan tabel Delta Lake dan artikel V-Order mencakup beberapa skenario utama dan menyediakan panduan mendalam tentang cara mempertahankan tabel Delta secara efisien untuk performa maksimum.