Udostępnij za pośrednictwem


Tabele Lakehouse i Delta Lake

Microsoft Fabric Lakehouse to platforma architektury danych do przechowywania danych, zarządzania nimi i analizowania danych ustrukturyzowanych i nieustrukturyzowanych w jednej lokalizacji. Aby zapewnić bezproblemowy dostęp do danych we wszystkich aparatach obliczeniowych w usłudze Microsoft Fabric, usługa Delta Lake jest wybierana jako ujednolicony format tabeli.

Zapisywanie danych w usłudze Lakehouse przy użyciu funkcji, takich jak Ładowanie do tabel lub metod opisanych w temacie Opcje w celu uzyskania danych do usługi Fabric Lakehouse, wszystkie dane są zapisywane w formacie delta.

Aby zapoznać się z bardziej kompleksowym wprowadzeniem do formatu tabeli usługi Delta Lake, skorzystaj z linków w sekcji Następne kroki.

Dane big data, apache Spark i starsze formaty tabel

Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark używa tej samej podstawy co środowisko uruchomieniowe usługi Azure Synapse Analytics dla platformy Apache Spark, ale zawiera kluczowe różnice w celu zapewnienia bardziej usprawnionego zachowania we wszystkich aparatach w usłudze Microsoft Fabric. W usłudze Microsoft Fabric kluczowe funkcje wydajności są domyślnie włączone. Zaawansowani użytkownicy platformy Apache Spark mogą przywrócić konfiguracje do poprzednich wartości, aby lepiej dopasować je do określonych scenariuszy.

Usługa Microsoft Fabric Lakehouse i aparat Apache Spark obsługują wszystkie typy tabel, zarówno zarządzane, jak i niezarządzane; Obejmuje to widoki i zwykłe formaty tabel programu Hive inne niż delta. Tabele zdefiniowane przy użyciu formatu plików PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z usługą Apache Hive działają zgodnie z oczekiwaniami.

Środowisko interfejsu użytkownika eksploratora usługi Lakehouse różni się w zależności od typu tabeli. Obecnie eksplorator lakehouse renderuje tylko obiekty tabeli.

Różnice konfiguracji w usłudze Azure Synapse Analytics

Poniższa tabela zawiera różnice konfiguracji między usługą Azure Synapse Analytics i środowiskiem uruchomieniowym usługi Microsoft Fabric dla platformy Apache Spark.

Konfiguracja platformy Apache Spark Wartość usługi Microsoft Fabric Wartość usługi Azure Synapse Analytics Uwagi
spark.sql.sources.default delta parkiet Domyślny format tabeli
spark.sql.parquet.vorder.enabled prawda Nie dotyczy Moduł zapisywania zamówień wirtualnych
spark.sql.parquet.vorder.dictionaryPageSize 2 GB Nie dotyczy Limit rozmiaru strony słownika dla zamówienia wirtualnego
spark.microsoft.delta.optimizeWrite.enabled prawda unset (false) Optymalizowanie zapisu

Automatyczne odnajdywanie tabel

Eksplorator usługi Lakehouse udostępnia widok podobny do drzewa obiektów w elemencie Microsoft Fabric Lakehouse. Ma ona kluczową możliwość odnajdywania i wyświetlania tabel opisanych w repozytorium metadanych i w magazynie OneLake. Odwołania do tabeli są wyświetlane w Tables sekcji interfejsu użytkownika eksploratora usługi Lakehouse. Automatyczne odnajdywanie dotyczy również tabel zdefiniowanych za pomocą skrótów OneLake.

Tabele na skrótach

Usługa Microsoft Fabric Lakehouse obsługuje tabele zdefiniowane za pośrednictwem skrótów OneLake w celu zapewnienia najwyższej zgodności i braku przenoszenia danych. Poniższa tabela zawiera najlepsze rozwiązania dotyczące scenariusza dla każdego typu elementu podczas korzystania ze skrótów.

Miejsce docelowe skrótów Gdzie utworzyć skrót Najlepsze rozwiązanie
Tabela usługi Delta Lake Tables sekcja Jeśli w miejscu docelowym znajduje się wiele tabel, utwórz jeden skrót dla każdej tabeli.
Foldery z plikami Files sekcja Użyj platformy Apache Spark, aby używać miejsca docelowego bezpośrednio przy użyciu ścieżek względnych. Załaduj dane do natywnych tabel delty usługi Lakehouse, aby uzyskać maksymalną wydajność.
Starsze tabele apache Hive Files sekcja Użyj platformy Apache Spark, aby użyć miejsca docelowego bezpośrednio przy użyciu ścieżek względnych lub utworzyć odwołanie do wykazu metadanych przy użyciu CREATE EXTERNAL TABLE składni. Załaduj dane do natywnych tabel delty usługi Lakehouse, aby uzyskać maksymalną wydajność.

Ładowanie do tabel

Usługa Microsoft Fabric Lakehouse udostępnia wygodny i wydajny interfejs użytkownika, aby usprawnić ładowanie danych do tabel delty. Funkcja Załaduj do tabel umożliwia wizualizacjom ładowanie typowych formatów plików do funkcji Delta w celu zwiększenia produktywności analitycznej dla wszystkich osób. Aby dowiedzieć się więcej na temat funkcji Załaduj do tabel, przeczytaj dokumentację referencyjną usługi Lakehouse Load to Tables .

Optymalizacja tabeli usługi Delta Lake

Przechowywanie tabel w kształcie dla szerokiego zakresu scenariuszy analitycznych nie jest drobnym wyczynem. Usługa Microsoft Fabric Lakehouse aktywnie umożliwia ważne parametry w celu zminimalizowania typowych problemów związanych z tabelami danych big data, takich jak kompaktowanie i małe rozmiary plików oraz maksymalizowanie wydajności zapytań. Mimo to istnieje wiele scenariuszy, w których te parametry wymagają zmian. Artykuł Dotyczący optymalizacji tabel usługi Delta Lake i zamówienia wirtualnego obejmuje niektóre kluczowe scenariusze i zawiera szczegółowy przewodnik dotyczący wydajnego utrzymywania tabel różnicowych w celu uzyskania maksymalnej wydajności.