Bagikan melalui


Tabel Lakehouse dan Delta Lake

Microsoft Fabric Lakehouse adalah platform arsitektur data untuk menyimpan, mengelola, dan menganalisis data terstruktur dan tidak terstruktur dalam satu lokasi. Untuk mencapai akses data yang mulus di semua mesin komputasi di Microsoft Fabric, Delta Lake dipilih sebagai format tabel terpadu.

Menyimpan data di Lakehouse menggunakan kemampuan seperti Muat ke Tabel atau metode yang dijelaskan dalam Opsi untuk memasukkan data ke Fabric Lakehouse, semua data disimpan dalam format Delta.

Untuk pengenalan yang lebih komprehensif tentang format tabel Delta Lake, ikuti tautan di bagian Langkah berikutnya.

Format big data, Apache Spark, dan tabel warisan

Microsoft Fabric Runtime for Apache Spark menggunakan fondasi yang sama dengan Runtime Azure Synapse Analytics untuk Apache Spark, tetapi berisi perbedaan utama untuk memberikan perilaku yang lebih efisien di semua mesin dalam layanan Microsoft Fabric. Di Microsoft Fabric, fitur performa utama diaktifkan secara default. Pengguna Apache Spark tingkat lanjut dapat mengembalikan konfigurasi ke nilai sebelumnya agar lebih selaras dengan skenario tertentu.

Microsoft Fabric Lakehouse dan mesin Apache Spark mendukung semua jenis tabel, baik yang dikelola maupun tidak dikelola; ini termasuk tampilan dan format tabel Hive non-Delta reguler. Tabel yang ditentukan menggunakan PARQUET, CSV, AVRO, JSON, dan format file apa pun yang kompatibel dengan Apache Hive berfungsi seperti yang diharapkan.

Pengalaman antarmuka pengguna penjelajah Lakehouse bervariasi tergantung pada jenis tabel. Saat ini, penjelajah Lakehouse hanya merender objek tabel.

Perbedaan konfigurasi dengan Azure Synapse Analytics

Tabel berikut berisi perbedaan konfigurasi antara Azure Synapse Analytics dan Microsoft Fabric Runtime untuk Apache Spark.

Konfigurasi Apache Spark Nilai Microsoft Fabric Nilai Azure Synapse Analytics Catatan
spark.sql.sources.default delta parket Format tabel default
spark.sql.parquet.vorder.enabled benar T/A Penulis V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2 GB T/A Batas ukuran halaman kamus untuk V-Order
spark.microsoft.delta.optimizeWrite.enabled benar unset (false) Optimalkan Tulis

Penemuan tabel secara otomatis

Penjelajah Lakehouse menyediakan tampilan objek seperti pohon dalam item Microsoft Fabric Lakehouse. Ini memiliki kemampuan utama untuk menemukan dan menampilkan tabel yang dijelaskan dalam repositori metadata dan di penyimpanan OneLake. Referensi tabel ditampilkan di bawah bagian Tables antarmuka pengguna penjelajah Lakehouse. Penemuan otomatis juga berlaku untuk tabel yang ditentukan melalui pintasan OneLake.

Tabel di atas pintasan

Microsoft Fabric Lakehouse mendukung tabel yang ditentukan melalui pintasan OneLake, untuk memberikan kompatibilitas paling baik dan tidak ada pergerakan data. Tabel berikut berisi skenario praktik terbaik untuk setiap jenis item saat menggunakannya melalui pintasan.

Tujuan pintasan Tempat membuat pintasan Praktik terbaik
Tabel Delta Lake Tables bagian Jika beberapa tabel ada di tujuan, buat satu pintasan per tabel.
Folder dengan file Files bagian Gunakan Apache Spark untuk menggunakan tujuan secara langsung menggunakan jalur relatif. Muat data ke tabel Delta asli Lakehouse untuk performa maksimum.
Tabel Apache Hive warisan Files bagian Gunakan Apache Spark untuk menggunakan tujuan secara langsung menggunakan jalur relatif, atau buat referensi katalog metadata menggunakan CREATE EXTERNAL TABLE sintaksis. Muat data ke tabel Delta asli Lakehouse untuk performa maksimum.

Muat ke Tabel

Microsoft Fabric Lakehouse menyediakan antarmuka pengguna yang nyaman dan produktif untuk menyederhanakan pemuatan data ke dalam tabel Delta. Fitur Muat ke Tabel memungkinkan pengalaman visual memuat format file umum ke Delta untuk meningkatkan produktivitas analitik ke semua persona. Untuk mempelajari selengkapnya tentang fitur Muat ke Tabel secara detail, baca dokumentasi referensi Lakehouse Load to Tables .

Pengoptimalan tabel Delta Lake

Menjaga tabel tetap bugar untuk cakupan skenario analitik yang luas bukanlah prestasi kecil. Microsoft Fabric Lakehouse pro-aktif memungkinkan parameter penting untuk meminimalkan masalah umum yang terkait dengan tabel big data, seperti pemadatan dan ukuran file kecil, dan untuk memaksimalkan performa kueri. Namun, ada banyak skenario di mana parameter tersebut membutuhkan perubahan. Artikel Pengoptimalan tabel Delta Lake dan V-Order mencakup beberapa skenario utama dan memberikan panduan mendalam tentang cara mempertahankan tabel Delta secara efisien untuk performa maksimum.