Tabele Lakehouse i Delta Lake

2025-06-12

Microsoft Fabric Lakehouse to platforma architektury danych do przechowywania danych, zarządzania nimi i analizowania danych ustrukturyzowanych i nieustrukturyzowanych w jednej lokalizacji. Aby zapewnić bezproblemowy dostęp do danych we wszystkich aparatach obliczeniowych w usłudze Microsoft Fabric, usługa Delta Lake jest wybierana jako ujednolicony format tabeli.

Podczas zapisywania danych w usłudze Lakehouse przy użyciu funkcji, takich jak Ładowanie do tabeli lub metod opisanych w temacie Opcje pobierania danych do usługi Fabric Lakehouse, wszystkie dane są zapisywane w formacie delta.

Aby uzyskać bardziej kompleksowe wprowadzenie do formatu tabeli usługi Delta Lake, postępuj zgodnie z linkami do powiązanej zawartości na końcu tego artykułu.

Big data, Apache Spark i formaty starszych tabel

Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark oparte jest na tej samej podstawie co środowisko uruchomieniowe usługi Azure Synapse Analytics dla platformy Apache Spark, ale zawiera kluczowe różnice dla bardziej usprawnionego działania we wszystkich silnikach w usłudze Microsoft Fabric. W usłudze Microsoft Fabric kluczowe funkcje wydajności są domyślnie włączone. Zaawansowani użytkownicy platformy Apache Spark mogą przywrócić konfiguracje do poprzednich wartości, aby lepiej dopasować je do określonych scenariuszy.

Usługa Microsoft Fabric Lakehouse i silnik Apache Spark obsługują wszystkie typy tabel, zarówno zarządzane, jak i niezarządzane; obejmuje to widoki i zwykłe formaty tabel Hive, inne niż Delta. Tabele zdefiniowane przy użyciu formatu PLIKÓW PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z programem Apache Hive działają zgodnie z oczekiwaniami.

Doświadczenie interfejsu użytkownika eksploratora usługi Lakehouse różni się w zależności od typu tabeli. Obecnie eksplorator lakehouse renderuje tylko obiekty tabeli.

Różnice konfiguracji w usłudze Azure Synapse Analytics

Poniższa tabela zawiera różnice konfiguracji między usługą Azure Synapse Analytics i środowiskiem uruchomieniowym usługi Microsoft Fabric dla platformy Apache Spark.

Konfiguracja platformy Apache Spark	Wartość usługi Microsoft Fabric	Wartość usługi Azure Synapse Analytics	Uwagi
spark.sql.sources.default	delta	parkiet	Domyślny format tabeli
spark.sql.parquet.vorder.default	prawda	Nie dotyczy	Moduł zapisywania zamówień wirtualnych
spark.sql.parquet.vorder.dictionaryPageSize	2 GB	Nie dotyczy	Limit rozmiaru strony słownika dla V-Order
spark.databricks.delta.optimizeWrite.enabled	prawda	unset (fałsz)	Optymalizowanie zapisu

Automatyczne odnajdywanie tabel

Eksplorator usługi Lakehouse udostępnia widok podobny do drzewa obiektów w elemencie Microsoft Fabric Lakehouse. Ma ona kluczową możliwość odnajdywania i wyświetlania tabel opisanych w repozytorium metadanych i w magazynie OneLake. Odwołania do tabeli są wyświetlane w sekcji Tables interfejsu użytkownika eksploratora Lakehouse. Automatyczne odnajdywanie dotyczy również tabel zdefiniowanych za pomocą skrótów OneLake.

Tabele nad skrótami

Usługa Microsoft Fabric Lakehouse obsługuje tabele zdefiniowane za pośrednictwem skrótów OneLake w celu zapewnienia najwyższej zgodności i braku przenoszenia danych. Poniższa tabela zawiera najlepsze rozwiązania dotyczące scenariusza dla każdego typu elementu podczas używania go za pomocą skrótów.

Miejsce docelowe skrótu	Gdzie utworzyć skrót	Najlepsze rozwiązanie
Tabela Delta Lake	`Tables` sekcja	Jeśli w miejscu docelowym znajduje się wiele tabel, utwórz jeden skrót dla każdej tabeli.
Foldery z plikami	`Files` sekcja	Użyj platformy Apache Spark, aby korzystać z miejsca docelowego bezpośrednio przy użyciu ścieżek względnych. Załaduj dane do natywnych dla Lakehouse tabel Delta, aby uzyskać maksymalną wydajność.
Starsze tabele Apache Hive	`Files` sekcja	Użyj platformy Apache Spark, aby bezpośrednio uzyskać dostęp do celu przy użyciu ścieżek względnych lub utworzyć odwołanie do katalogu metadanych przy użyciu składni `CREATE EXTERNAL TABLE`. Załaduj dane do natywnych tabel Delta dla systemu Lakehouse, aby uzyskać maksymalną wydajność.

Ładowanie do tabeli

Usługa Microsoft Fabric Lakehouse udostępnia wygodny i wydajny interfejs użytkownika, aby usprawnić ładowanie danych do tabel delty. Funkcja Załaduj do tabeli umożliwia wizualne wczytywanie typowych formatów plików do Delta w celu zwiększenia produktywności analitycznej dla wszystkich użytkowników. Aby dowiedzieć się więcej na temat funkcji Załaduj do tabeli, przeczytaj dokumentację referencyjną tabel Załaduj do Delta Lake.

Optymalizacja tabeli usługi Delta Lake

Przechowywanie tabel w odpowiedniej formie dla szerokiego zakresu scenariuszy analitycznych nie jest drobnym wyczynem. Usługa Microsoft Fabric Lakehouse aktywnie umożliwia ważne parametry, aby zminimalizować typowe problemy związane z tabelami danych big data, takimi jak kompaktowanie i małe rozmiary plików oraz maksymalizowanie wydajności zapytań. Mimo to istnieje wiele scenariuszy, w których te parametry wymagają zmian. Artykuł optymalizacja tabel Delta Lake i V-Order obejmuje niektóre kluczowe scenariusze i zawiera szczegółowy przewodnik o tym, jak wydajnie utrzymywać tabele Delta, aby osiągnąć maksymalną wydajność.

Udostępnij za pośrednictwem